一种纸质文档图文信息采集与压缩的方法和系统 【技术领域】
本发明涉及图文信息采集与压缩技术,特别是指一种纸质文档图文信息采集与压缩的方法和系统。
背景技术
奥运会等大型活动服务机构的电子档案库不仅包括组织机构代码的文本信息,同时还配套有批准文件、许可证、法人身份证、营业执照、登记证等影印文件,这些文件是进一步识别和比对企事业单位身份的重要依据。通过纸质文件扫描、软件压缩可以将这些文件合并到电子档案库,为使用方提供更详尽的信息支持。
奥运等大型活动的服务机构比较多,而且分散在不同的地方。为了集中收集这些档案,需要为每一个服务机构能提供一个搜集、制作电子档案文件的软件。同时扫描的文件一般都比较大,在现有的网络带宽环境下传输会比较慢。
【发明内容】
有鉴于此,本发明提出一种纸质文档图文信息采集与压缩的方法和系统,使电子文档的制作、传输更加方便。
基于上述目的本发明提供的一种纸质文档图文信息采集与压缩的方法,包括:
扫描文档并将扫描得到的电子文档保存为图像格式;
将图像格式的电子文档转换为专用图像文件格式。
可选的,该方法所述专用图像文件格式为二值电子文档格式。
可选的,该方法所述专用图像文件格式还包括:灰度格式、彩色格式中的一种或多种。
可选的,该方法所述二值电子文档格式包括:文件头数据块、文件背景信息数据块、文件安全访问控制数据块、文件尾数据块、目录信息数据块、页面索引数据块、页面图像数据块、附件数据块、页面附件元素描述数据块、文件元数据块。
可选的,该方法所述文件安全访问控制数据块包括:文件标识、加密方式、解密密码、文件校验码、用户权限;
所述目录信息数据块包括:目录节点、目录节点对应的页码;
所述页索引数据块包括:页面总数、页ID、页面类型、页顺序码、页码、页数据偏移量。
可选的,该方法所述将图像格式的电子文档转换为二值电子文档格式还包括:对转换后的文件进行加密。
可选的,该方法所述加密过程是按照字符排序进行混排加密。
可选的,该方法还包括转换后二值电子文档格式的电子文档解压流量的过程:
调用FreeFileBlocks,在内存中按照文件结构申请一个文件列表块大小的内存空间,将这部分内存中释放;
获得待处理文件的大小,申请同等大小的内存,将整个文件读入内存中,关闭该文件;
申请相应数据块对象,按照文件结构从内存中读取相应的数据块对象;
按照文件存储结构从内存中读取相应的数据块对象;
将读取的数据块加入块列表;
调用数据块对象的块碰到虚函数;
根据文件安全访问控制数据块结构,查找安全控制数据块解密;
定位页面索引数据块,定位页面数据数据块,绑定这两个数据块,得到加密数据块个数;
为每个加密数据块解密。
可选的,该方法所述扫描文档并将扫描得到的电子文档保存为图像格式还包括:对图像格式电子文档调整为统一样式的版面。
基于上述目的,本发明还提供了一种纸质文档图文信息采集与压缩的系统,包括:
扫描模块,用于将纸质文档扫描为电子文档;
格式压缩模块,用于将图像格式的电子文档转换为专用图像文件格式。
可选的,该系统所述专用图像文件格式为二值电子文档格式。
可选的,该系统所述专用图像文件格式还包括:灰度格式、彩色格式中的一种或多种。
可选的,该系统所述二值电子文档格式包括:文件头数据块、文件背景信息数据块、文件安全访问控制数据块、文件尾数据块、目录信息数据块、页面索引数据块、页面图像数据块、附件数据块、页面附件元素描述数据块、文件元数据块。
可选的,该系统所述文件安全访问控制数据块包括:文件标识、加密方式、解密密码、文件校验码、用户权限;
所述目录信息数据块包括:目录节点、目录节点对应的页码;
所述页索引数据块包括:页面总数、页ID、页面类型、页顺序码、页码、页数据偏移量。
可选的,该系统所述格式压缩模块还用于对转换后的文件进行加密。
可选的,该系统所述加密是按照字符排序进行混排加密。
可选的,该系统还包括解压浏览模块,其中包括用于调用FreeFileBlocks,在内存中按照文件结构申请一个文件列表块大小的内存空间,将这部分内存中释放的子模块;
获得待处理文件的大小,申请同等大小的内存,将整个文件读入内存中,关闭该文件的子模块;
申请相应数据块对象,按照文件结构从内存中读取相应地数据块对象的子模块;
按照文件存储结构从内存中读取相应的数据块对象的子模块;
将读取的数据块加入块列表的子模块;
调用数据块对象的块碰到虚函数的子模块;
根据文件安全访问控制数据块结构,查找安全控制数据块解密的子模块;
定位页面索引数据块,定位页面数据数据块,绑定这两个数据块,得到加密数据块个数的子模块;
为每个加密数据块解密的子模块。
可选的,该系统还包括:图像处理模块,对图像格式电子文档调整为统一样式的版面。
从上面所述可以看出,本发明提供的纸质文档图文信息采集与压缩的方法和系统。方便分散的服务机构能在有限网络带宽的环境下能迅速地将制作的电子档案文件上传至电子档案库,并在查询浏览时能快速地下载至本地浏览,并且还要能提供将电子档案转换成高压缩比的格式的功能,从而方便电子文档的制作、传输。
服务机构利用此模块,可以将其纸质的文件扫描形成电子档案,同时利用此模块将扫描形成的电子档案进行高压缩比的压缩,形成一个高压缩比的电子档案格式。
【附图说明】
图1为本发明实施例纸质文档图文信息采集与压缩系统的结构框图;
图2为本发明实施例专用图像文件格式示意图;
图3为本发明实施例解压浏览流程示意图;
图4为本发明实施例纸质文档图文信息采集与压缩方法的总体流程示意图。
【具体实施方式】
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
参见图1所示,本发明实施例提供的纸质文档图文信息采集与压缩系统,主要包括:扫描模块、图像处理模块、格式压缩模块。在图文信息浏览端包括解压浏览模块。在一个根据本发明图文信息采集与压缩的终端设备上,为便于对采集、压缩结果进行检查、浏览,一般同时会集成所述的解压浏览模块。
参见图4所示,基于该纸质文档图文信息采集与压缩系统,本发明纸质文档图文信息采集与压缩的方法总体流程包括:
步骤401,扫描模块将扫描的纸质文件,保存为tiff、jpg等图像文件格式。
步骤402,图像处理模块对保存的图像文件进行调整。
步骤403,格式压缩模块将处理后的图像文件转换为专用图像文件格式,比如:灰度、彩色、或专用二值电子文档格式,并对转换后的文件进行加密。
步骤403中,所述加密就在转换过程中进行,加密时候是按照字符排序进行混排加密。因为转换成专用二值电子文档格式,必须采用基于本发明方法的专用浏览器才能打开。
本发明中的图像压缩根据不同的图像(二值、灰度、彩色)采取不同的压缩算法。一般情况下,可默认采用在先申请的二值图像压缩数据编码技术,该技术能够大幅提高图像文件的压缩比并且进行快速还原。二值图像压缩部分采用模式识别加上特殊的图像压缩编码,使图像的损失降到最低,并且这个损失是不会递归发生的(即反复的打开和保存不会递归发生图像有损的情况),灰度和彩色图像压缩采用小波变换算法进行压缩,在保证图像质量的前提下尽可能的减小图像的文件大小。
特有二值多色图像压缩技术是在图像数据分析和压缩的同时进行颜色提取和分析,最终准确的分离红(或蓝)章和红头的信息。分离出来的信息进行特殊的编码处理。最终实现保留红蓝双色效果的二值图像压缩。
本发明图像格式文件能够从目前的通用格式批量转换生成(如bmp、jpg、tiff、png、gif等)。并且在转换过程中可选择的进行自动图像处理(如自动印刷歪斜纠正、自动去除噪声、自动去除黑边等)。同时保持原图像的原貌。这样可以很方便的将现有使用通用格式文件的系统转换本发明图像格式文件。并且提供本发明格式文件的转换工具,用户在需要的时候可以将图像格式文件转换成通用格式文件,为客户提供一个图像格式文件的平台。
在图1所示的系统中,扫描模块,用于将各种纸质证件或文档扫描形成电子文件,并以常见的图像格式的方式保存,如bmp、jpeg、tif、gif、png等。
该扫描模块支持TWAIN接口的扫描仪,扫描软件必须保证与扫描设备无关;同时支持平版与滚筒扫描模式;支持固定扫描模式(黑白、256灰度、24真彩,其他参数固定)、扫描获取图像;支持扫描后的图像以bmp、jpeg、tif、gif、png等的格式保存;软件支持任一款TWAIN接口的扫描仪,在扫描档案前只需一次性选择好扫描模式(黑白、256灰度、24真彩),就可进行扫描工作。
扫描模块中可通过调用TWAIN驱动实现软件应用程序和硬件扫描设备之间能够直接传输资料。其中,TWAIN Working Group是一个致力于光栅图像输入设备通讯的非盈利的组织。TWAIN就是它们提供的开发包,并且大多数的设备厂家都遵循该接口。Microsoft也把该开发接口作为系统文件发布在了Windows中(9X/NT/2000/XP)。
图像处理模块,由于不同的纸质文件的版面模式有可能不一样,有的文件为了能用扫描仪将其扫描,有可能扫描时要横、竖颠倒方向。因此图像处理模块主要功能是为用户提供将扫描图像旋转方向之用。支持预览、边框处理、放大缩小和画面拖拽功能。
可以支持用户对任意图像的选择,并提供对图像左旋90度、右旋90度、180度旋转、预览、边框处理、画面放大缩小和拖拽浏览的处理功能。
格式压缩模块,格式压缩模块主要是将经图像处理模块处理后的电子档案图像转换成高压缩比的二值电子文档格式,压缩格式为黑白二值形式的压缩,在本发明中定义为.hle文件格式。例如:将以下图像格式文件:bmp、jpeg、tif、gif、png转换成高压缩比的格式.hle文件格式。
支持将多页图像文件转换成单文件单页压缩和单文件多页压缩两种模式。
支持用户对要压缩的输入图像以单个文件或一个目录的方式输入。
1)压缩参数指标:
压缩后的文件大小,平均可达到输入的jpeg图像大小的5倍或5倍以上。
对二值图像的压缩率将比现时流行的二值图像压缩技术CCITTTIFF Group4标准的压缩算法最高可提高50%,达到国内先进水平。
压缩形成的多页单文件格式,可以支持一个文件100页以上。
另外,较佳的压缩过程配合相应的加密一起使用。
本发明实施例二值电子文档格式定义参见图2所示,包括:文件头数据块、文件背景信息数据块、文件安全访问控制数据块、文件尾数据块、目录信息数据块、页面索引数据块、页面图像数据块、附件数据块、页面附件元素描述数据块、文件元数据块。
其中,文件安全访问控制数据块包括:文件标识、加密方式、解密密码、文件校验码、用户权限等。参见表1所示:
表1
目录信息数据块,包括:目录节点、目录节点对应的页码。参见表2所示:
表2
页索引数据块,包括:页面总数、页ID、页面类型、页顺序码、页码、页数据偏移量。
其中,页ID,是图书页面的唯一标识,这本书有多少个页面就有多少个ID,ID是4个字节的无符号整数,正常分配是从1开始,连续加1。
页码,对应图书页面的页码,对于纸质印刷图书,一般正文页的右下角或右上角都印有页码,通常从1开始,连续加1。
页面类型,在图书数字化时指定,由对应纸质印刷图书的页面情况决定。
页面格式,在生成该格式文件的时候指定,由存储该页面的图像格式决定。
数据长度,在图书页面表数据块中的数据长度,以字节为单位。
页数据记录偏移量,在图书页面表数据块中的偏移量。
页索引数据块结构参见表3所示。
表3
图文信息浏览端的解压浏览模块,可以对形成的高压缩比的电子档案进行解压、浏览。
功能主要包括:可以对压缩形成的格式.hle文件进行解压、浏览;
浏览器支持多页浏览功能包括:前后、下一页等翻页浏览;
图像浏览器兼容显示JPEG、单页TIFF、GIF图像文件,提供放大、缩小、旋转等图像显示功能;
每页图像的还原时间不高于0.5秒。
解压缩是压缩的逆过程,参见图3所示,为解压浏览的流程,包括:
步骤301,调用FreeFileBlocks,在内存中按照文件结构(上述表1、2、3)申请一个文件列表块大小的内存空间,将这部分内存中释放。
步骤302,获得待处理文件的大小,申请同等大小的内存,将整个文件读入内存中,关闭该文件。
步骤303,申请相应数据块对象。按照文件结构(上述表1、2、3)从内存中读取相应的数据块对象。
本步骤中,因为在文件结构中规定了数据块的字节数,所以通过计算即可找到相应的数据块对象。
步骤304,按照文件存储结构从内存中读取相应的数据块对象。
步骤305,将读取的数据块加入块列表。
其中,所述块列表是在内存里面申请的一段内存空间,把数据块按照列表的形式存储在这段内存空间里。
步骤306,调用数据块对象的块碰到虚函数。
在步骤305将数据块加入列表后将自动触发步骤306,调用块碰到虚函数,根据文件结构(上述表1、2、3)解析列表中的数据块对象。
步骤307,根据表1中的文件安全访问控制数据块结构,查找安全控制数据块解密。
步骤308,定位页面索引数据块,定位页面数据数据块,绑定这两个数据块。
步骤309,得到加密数据块个数。
步骤308中定位到每个页面数据块,就等于需要加密的数据块。
解密是一个循环过程,从第一个开始,到第n个结束,每个数据块解密方法相同。n就是加密数据块的个数。
步骤310,为每个加密数据块解密。
加密时候是按照字符排序进行混排加密,解密只是加密的逆过程。使用的是对称加密。
本发明的描述是为了示例和说明起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。