一种表格分析编改加工方法.pdf

资源描述

《一种表格分析编改加工方法.pdf》由会员分享，可在线阅读，更多相关《一种表格分析编改加工方法.pdf（7页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102855232 A (43)申请公布日 2013.01.02 C N 1 0 2 8 5 5 2 3 2 A *CN102855232A* (21)申请号 201210338748.3 (22)申请日 2012.09.14 G06F 17/24(2006.01) (71)申请人同方光盘股份有限公司地址 100084 北京市海淀区清华园清华大学 36区华业大厦B1410、1412、1414室 (72)发明人张镔王艳梁洵袁仁慧 (74)专利代理机构北京捷诚信通专利事务所 (普通合伙) 11221 代理人魏殿绅 (54) 发明名称一种表格分析编改加工方法 (5。

2、7) 摘要本发明公开了一种表格分析编改加工方法，所述方法包括：扫描文档、并对扫描后的文档图像进行处理；对扫描处理后的图像通过表格版面分析算法生成表格版面，并对生成的表格版面进行分析调整；将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对；对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对；对纵向编改后的字进行横向编改；根据表格版面信息和文字纵横向编改信息，合成电子表格文件。本发明对正常的纸质表格文档，编改效率可提高11倍，达到50万字/8小时；同时表格版面层次错误率低于3，编改文字错误率降低50以上，低于0.5。 (51)Int.Cl. 权利要求。

3、书1页说明书3页附图2页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 1 页说明书 3 页附图 2 页 1/1页 2 1.一种表格分析编改加工方法，其特征在于，所述方法包括：扫描文档、并对扫描后的文档图像进行处理；对扫描处理后的图像通过表格版面分析算法生成表格版面，并对生成的表格版面信息进行调整；将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对；对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对；对纵向编改后的字进行横向编改；根据表格版面信息和纵横向编改后的文字，合成电子表格文件。 2.根据权利要求1所述的表格分析编改加。

4、工方法，其特征在于，所述对扫描后的文档图像进行处理包括矫正、去污、去噪。 3.根据权利要求1所述的表格分析编改加工方法，其特征在于，所述表格版面分析算法包括表格线调整算法、单元格生成算法、嵌套单元格处理、单元格虚边处理单元格文字矩形分析、无线、通栏及三线表格识别、表头表尾块的自动识别及列表头层次自动分析。 4.根据权利要求1所述的表格分析编改加工方法，其特征在于，所述双路识别包括 “FineReader”和“汉王”OCR识别软件。 5.根据权利要求1所述的表格分析编改加工方法，其特征在于，所述表格版面信息包括：表格版面的单元格位置、语种、行列表头及数据区属性。 6.根据权利要求3所述的。

5、表格分析编改加工方法，其特征在于，所述表格线调整算法通过行列扫描获得初始表格线，合并表格线并剔除干扰线。 7.根据权利要求3所述的表格分析编改加工方法，其特征在于，所述单元格生成算法采用基于单元格知识的表格线遍历方法生成单元格。权利要求书CN 102855232 A 1/3页 3 一种表格分析编改加工方法技术领域 0001 本发明涉及可应用于纸质表格电子化过程中表格数字化加工过程，尤其涉及一种表格分析编改加工方法。背景技术 0002 在纸质表格电子化的过程中，OCR软件很难准确的直接设别出复杂表格的结构和文字，因此OCR识别前的版面调整和识别后的文字编改工作均耗费了极大的。

6、人力，它是一项人力密集性工作，劳动强度也很高。目前的应用现状是：用普通OCR软件进行表格图像版面分析，对分析不准的表格结构进行调整或重画版面，经过识别后再进行一次编改校正，在保证没人4万字/8小时正常编改的速度下，编改的错误率通常也会超过1，而表格结构的错误率更加难以控制，通常会在1以上。 0003 由于表格数据的加工对精度要求极高，往往一字之差谬以千里，现有的数据加工模式远不能满足对精度的要求，而且应对海量数据加工的人工成本过高，因此需要开发一套符合特定生产要求的表格数据加工系统，提供一个自动化高效的数据加工平台辅助人工处理各种文献资料中大量的表格数据，以达到提高效率和质量，降。

7、低成本的目的。发明内容 0004 为解决上述中存在的表格数字化加工过程中人工编改效率低，错误率高的问题与缺陷，本发明提供了一种表格分析编改加工方法，该方法可以极大地提高人工编改的效率，降低成本。所述技术方案如下： 0005 一种表格分析编改加工方法，包括： 0006 步骤10扫描文档、并对扫描后的文档图像进行处理； 0007 步骤20对扫描处理后的图像通过表格版面分析算法生成表格版面，并对生成的表格版面信息进行调整； 0008 步骤30将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对； 0009 步骤40对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对； 0。

8、010 步骤50对纵向编改后的字进行横向编改； 0011 步骤60根据表格版面信息和文字纵横向编改后的文字，合成电子表格文件。 0012 本发明提供的技术方案的有益效果是： 0013 对正常的纸质表格文档，编改效率可提高11倍，达到50万字/8小时；同时表格版面层次错误率低于3，编改文字错误率降低50以上，低于0.5。附图说明 0014 图1是表格分析编改加工方法流程图； 0015 图2是基于网络和数据库的表格分析编改加工流程系统图。说明书CN 102855232 A 2/3页 4 具体实施方式 0016 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进。

9、一步地详细描述： 0017 本实施例提供了一种表格分析编改加工方法，所述方法包括： 0018 扫描文档、并对扫描后的文档图像进行处理； 0019 对扫描处理后的图像通过表格版面分析算法生成表格版面，并对生成的表格版面信息进行调整； 0020 将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对； 0021 对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对； 0022 对纵向编改后的字进行横向编改； 0023 根据表格版面信息和文字纵横向编改信息，合成电子表格文件。 0024 为提高OCR识别软件识别正确率，对文档统一采用300DPI精度进行扫描，随后对图像进行矫正、去。

10、污、去噪等处理。 0025 上述表格版面信息包括：表格版面的单元格位置、语种、行列表头及数据区属性。 0026 上述对扫描后的图像通过表格版面分析算法生成表格版面，检查版面分析结果，纠正错误结果，检查后，对图像缺陷进行必要的修补，保证表格结构分析正确。 0027 上述表格版面分析算法包含以下内容： 0028 表格线调整算法 0029 经过初始行列扫描获得初始表格线存在较多干扰：由于表格图像页眉页脚线及文字粘连及加粗而错识的非表格线；由于图像质量造成的文字断线；由于表格样式规定省略的外围框线或者数据区的表格线等；因此要将这些初始表格线进行整理规则。非表格线剔除：利用页眉页脚线与表格线的位。

11、置及行列交叉交叉属性去除页眉页脚线，文字线周围联通区域特征性去除文字线。根据表格线的规则及数据排列特性实现数据区域表格线添加，表格断线处理。 0030 单元格生成算法 0031 运用基于表格知识的单元格生成算法，不只考虑单元格矩形的封闭特性，综合考虑直线包围棉结的大小等特征。单元格生成算法的主要内容：将检索处理后的横向表格线与纵向表格线分别按从上到下、从左到右排序。 0032 嵌套单元格处理 0033 针对统计年鉴中出现较多的嵌套表格，运用置虚边的方式将包含单元格分裂为两个具有虚边特征的单元格，在表格还原时利用虚边重构为包含特征的单元格。 0034 单元格虚边处理 0035 根据表格。

12、行表头区域单元格结构复杂但数据区多为通行同列的特性，分别采用基于单元格和基于表格整行整列线的分析方法：包括行表头根据每个单元格的边界局部特征分析虚边；对于数据区分析整个数据区表格线位置附近的像素特征，根据有效像素长度判断表格线的虚实情况，实现较好的效果。 0036 单元格文字矩形分析 0037 分析每个单元格内文字框易受到表格线的影响，采用先擦除表格线然后再利用算说明书CN 102855232 A 3/3页 5 法跳过表格线以找到准确文字框。 0038 无线、通栏及三线表格识别 0039 通过选中单元格区域分析或者默认单个表格分析此类单元格。 0040 表头表尾块的自动识别 004。

13、1 根据表头表尾与表格的位置关系特征确定表头表尾块的起始终止位置，并根据文字的行列添加表格的表头表尾块信息。 0042 列表头层次自动分析 0043 从图像中的列表头每行的文字起始位置自动分析出其层次递进关系。 0044 上述扫描图像和调整后的版面信息分别传入“FineReader”和“汉王”OCR识别软件进行双路识别。 0045 “FineReader”和“汉王”是国内外对中文和英文都具有较高识别率的OCR系统，它们对清晰印刷体汉字图像识别率都在98以上。通过对比测试，“FineReader”和“汉王” 识别软件具有很强的互补性，我们利用它们的识别结果并进行逐个单元格逐字对比，过滤出。

14、具有相同的识别结果的文字，不进行人工编改；将识别不同字进行编改校对。 0046 实际应用统计说明，对正常印刷体中英文字为主体的表格，无需编改的文字抛出率可达到95，这部分文字的错误率达到0.3以下。 0047 在双路比对前，针对应用需求，还对一些字符做了必要的全角字符转半角字符的归一化处理。这些字符包括A-Z、a-z、0-9、“！”、“”、“”等，共计80个字符。 0048 上述对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对，所谓纵向编改，是将需要改的常见字汇集到一起集中批量修改，所有需要纵编的字都在段落中标红，编过的字标蓝，且图文对照。按40万字一批形成任务批次，可在一天内。

15、完成。 0049 正常情况下，上述过程的编改量只占全部应编改工作量的5。纵编有效的提高了编改的效率，减轻了编改的劳动强度。 0050 为了提高系统整体的正确率，主动加入了一些易混字和易错字，并对易混字和易错字全部进行纵编。如“人、入、一、二、卜、白、儿等字。 0051 对上述纵向编改后的字进行横向编改。横向编改即和图片对照逐个修改识别后的文字，所有需横编的字都在段落中标红，已纵编的字在段落中标绿，编过的字标蓝，且图文对照。 0052 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN 102855232 A 1/2页 6 图1 说明书附图CN 102855232 A 2/2页 7 图2 说明书附图CN 102855232 A 。

展开阅读全文