一种基于标点符号的文档上下方向检测方法.pdf

上传人:000****221 文档编号:4650529 上传时间:2018-10-24 格式:PDF 页数:8 大小:1.54MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210313834.9

申请日:

2012.08.29

公开号:

CN102831421A

公开日:

2012.12.19

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06K 9/32申请日:20120829|||公开

IPC分类号:

G06K9/32; G06K9/40; G06T7/00

主分类号:

G06K9/32

申请人:

华东师范大学

发明人:

朱敏

地址:

200062 上海市普陀区中山北路3663号

优先权:

专利代理机构:

上海科盛知识产权代理有限公司 31225

代理人:

赵继明

PDF下载: PDF下载
内容摘要

本发明涉及一种基于标点符号的文档上下方向检测方法,用于对办公文档扫描图像进行方向检测,该方法包括以下步骤:1)获取文档扫描图像,采用边缘密度算法检测并去除图像中的边缘噪音;2)采用基于投影的页面分割算法对图像进行页面分割,获得若干图像块;3)对每一个图像块,判断其是否为文本块,若是,则将其保留,若否,则将其剔除;4)采用XY切割算法提取每个文本块中的连通体;5)根据连通体的高度和宽度,判断该连通体是否为标点符号;6)分别统计接近于顶部和底部的标点符号的出现次数Lt、Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图像的方向。与现有技术相比,本发明具有检测准确率高、适用范围广等优点。

权利要求书

1.一种基于标点符号的文档上下方向检测方法,用于对办公文档扫描图像进
行方向检测,其特征在于,该方法包括以下步骤:
1)获取文档扫描图像,采用边缘密度算法检测并去除图像中的边缘噪音;
2)采用基于投影的页面分割算法对图像进行页面分割,获得若干图像块;
3)对每一个图像块,判断其是否为文本块,若是,则将其保留,若否,则将
其剔除;
4)采用XY切割算法提取每个文本块中的连通体;
5)根据连通体的高度和宽度,判断该连通体是否为标点符号,若是,则执行
步骤6),若否,则返回步骤5);
6)分别统计接近于顶部的标点符号的出现次数Lt和接近于底部的标点符号的
出现次数Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图像的方向。
2.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特
征在于,所述的步骤2)中的基于投影的页面分割算法为XY切割算法。
3.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特
征在于,所述的步骤3)中的判断其是否为文本块的具体步骤为:
31)将图像块进行水平投影,获得投影图像;
32)若投影图像呈现具有一定间隔的山峰状,则判断与其对应的图像块为文本
块。
4.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特
征在于,所述的步骤4)具体如下:
41)首先通过水平投影后,取得该文字块的每一行,并将每一个行保存到一个
字符串数组,同时,计算并保存该行的平均行高到另一数组;
42)将字符串数组垂直投影,分离和提取出该行每个连通体,也即该行所有的
字符和标点符号。
5.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特
征在于,所述的步骤5)中的根据连通体的高度和宽度判断该连通体是否为标点符
号的具体步骤如下:
51)计算每个连通体的宽度和高度,并计算平均宽度和平均高度;
52)将每一个连通体的宽度与平均宽度相比,如果小于平均宽度,则将其定义
为标点符号;
53)将每一个连通体的高度与平均高度相比,如果小于平均高度,则将其定义
为标点符号;
54)确定每行上的所有连通体的中心点,并将每个中心点拟合成中心线;
55)通过连通体的水平投影,将投影集中于中线附近的干扰噪音剔除。
6.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特
征在于,所述的步骤6)具体如下:
61)通过标点符号连通体的水平投影,确定标点符号和中心线的相对位置;
62)通过分析标点符号和中心线的相对位置,分别统计位于中心线的上方和下
方,即顶部和底部的标点符号个数Lt、Lb;
63)计算R=Lt/Lb,若R小于设定值,则所对应的文档扫描图像的方向为正确
方向,若R大于设定值,则所对应的文档扫描图像的方向为上下颠倒。

说明书

一种基于标点符号的文档上下方向检测方法

技术领域

本发明涉及一种文档方向检测方法,尤其是涉及一种基于标点符号的文档上
下方向检测方法。

背景技术

在广泛使用的光学字符识别系统(OCR)中,文档图像方向的检测是图像处
理的第一步,也是所有后续处理的先决条件。有效地检测出这些扫描文件的方向将
大大有助于后续的图像处理。在许多嵌入式系统中,如扫描仪和传真机,文本文件
图像的方向检测是必要的,而且,检测要求快速。因此,轻量级的方向检测方法在
文本文档的图像处理中具有重要意义。

目前已有一些方法来检测文本图像方向。在1990年,Akiyama et al.提出最早
的算法,能够辨别肖像和风景图像的方向。最有影响力的算法,由S.N.srihari和
V.Govindaraju提出。该算法基于Hough变换和观察,根据非对称英文文本行的垂
直投影来实现文本图像的方向检测。这种方法是许多后来的变形算法的基础。虽然
这些算法基本只适用于罗马文字,后来也有很多针对其他不同文字的其他研究,比
如普什图语,印地文,和阿拉伯文。另外,还有一些较新的算法,基于开放的罗马
文字或一些不对称的非罗马文字,比如:不对称的如普什图语和希伯来语文本。通
过统计文字符号在某左右方向上开发的不同来确定文档的上下方向。

以上提到的这些算法大多是基于对每个语言文字的细节特征,所以都只针对一
个特定种类的语言文本图像,而且,需要大量的计算或者需要一个大的数据集的特
征提取。

文档中存在各种标点符号,如:引号,句号,分号,惊叹号,问号,顿号。对
于一般办公文档存在这样一个基础事实:即在每个文档中,大部分的标点符号要么
接近于文本行顶部要么接近于底部。例如,引号是接近文本行的顶部,而句号是接
近于文本行的底部。同时标点符号具有以下两个特点:

1.除了文档中出现频率很低的一些标点符号是与文本行高度相同之外,比如
问号和惊叹号等,大部分的标点符号的高度都远远小于文本行的高度。

2.所有高度很小的标点符号大部分是位于该文本行的底部。而在普通的办公
文档中,位于顶部和底部的两种标点符号的出现频率相差很大。

因此,可以基于上述特点对文本图像方向的检测方法进行研究。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种检测准确率
高、适用范围广的基于标点符号的文档上下方向检测方法。

本发明的目的可以通过以下技术方案来实现:

一种基于标点符号的文档上下方向检测方法,用于对办公文档扫描图像进行方
向检测,该方法包括以下步骤:

1)获取文档扫描图像,采用边缘密度算法检测并去除图像中的边缘噪音;

2)采用基于投影的页面分割算法对图像进行页面分割,获得若干图像块;

3)对每一个图像块,判断其是否为文本块,若是,则将其保留,若否,则将
其剔除;

4)采用XY切割算法提取每个文本块中的连通体;

5)根据连通体的高度和宽度,判断该连通体是否为标点符号,若是,则执行
步骤6),若否,则返回步骤5);

6)分别统计接近于顶部的标点符号的出现次数Lt和接近于底部的标点符号的
出现次数Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图像的方向。

所述的步骤2)中的基于投影的页面分割算法为XY切割算法。

所述的步骤3)中的判断其是否为文本块的具体步骤为:

31)将图像块进行水平投影,获得投影图像;

32)若投影图像呈现具有一定间隔的山峰状,则判断与其对应的图像块为文本
块。

所述的步骤4)具体如下:

41)首先通过水平投影后,取得该文字块的每一行,并将每一个行保存到一个
字符串数组,同时,计算并保存该行的平均行高到另一数组;

42)将字符串数组垂直投影,分离和提取出该行每个连通体,也即该行所有的
字符和标点符号。

所述的步骤5)中的根据连通体的高度和宽度判断该连通体是否为标点符号的
具体步骤如下:

51)计算每个连通体的宽度和高度,并计算平均宽度和平均高度;

52)将每一个连通体的宽度与平均宽度相比,如果小于平均宽度,则将其定义
为标点符号;

53)将每一个连通体的高度与平均高度相比,如果小于平均高度,则将其定义
为标点符号;

54)确定每行上的所有连通体的中心点,并将每个中心点拟合成中心线;

55)通过连通体的水平投影,将投影集中于中线附近的干扰噪音剔除。

所述的步骤6)具体如下:

61)通过标点符号连通体的水平投影,确定标点符号和中心线的相对位置;

62)通过分析标点符号和中心线的相对位置,分别统计位于中心线的上方和下
方,即顶部和底部的标点符号个数Lt、Lb;

63)计算R=Lt/Lb,若R小于设定值,则所对应的文档扫描图像的方向为正确
方向,若R大于设定值,则所对应的文档扫描图像的方向为上下颠倒。

与现有技术相比,本发明具有以下优点:

1)通过去除噪声、页面分割和文本块筛选等操作使本发明方法具有较高的检
测准确率;

2)本发明方法是基于相对位置的字符和标点符号的比较,完全独立于语言,
适用于各种语言文字的文件图像,适用范围广。

附图说明

图1为本发明方法的流程示意图;

图2为文本块的投影示意图;

图3为本发明实施例中文本图像数据集的标点符号示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示,一种基于标点符号的文档上下方向检测方法,用于对办公文档扫
描图像进行方向检测,该方法包括以下步骤:

在步骤S101中,获取文档扫描图像,采用边缘密度算法检测并去除图像中的
边缘噪音。

在步骤S102中,采用基于投影的页面分割算法对图像进行页面分割,获得若
干图像块,这里基于投影的页面分割算法为XY切割算法.

在步骤S103中,对每一个图像块,判断其是否为文本块,若是,则将其保留,
若否,则将其剔除;判断其是否为文本块的具体步骤为:

31)将图像块进行水平投影,获得投影图像;

32)若投影图像呈现具有一定间隔的山峰状,如图2所示,则判断与其对应的
图像块为文本块。

在步骤S104中,采用XY切割算法提取每个文本块中的连通体,具体如下:

41)首先通过水平投影后,取得该文字块的每一行,并将每一个行保存到一个
字符串数组,同时,计算并保存该行的平均行高到另一数组;

42)将字符串数组垂直投影,分离和提取出该行每个连通体,也即该行所有的
字符和标点符号。

在步骤S105中,根据连通体的高度和宽度,判断该连通体是否为标点符号,
若是,则执行步骤S106,若否,则返回步骤S105。根据连通体的高度和宽度判断
该连通体是否为标点符号的具体步骤如下:

51)计算每个连通体的宽度和高度,并计算平均宽度和平均高度;

52)将每一个连通体的宽度与平均宽度相比,如果小于平均宽度,则将其定义
为标点符号;

53)将每一个连通体的高度与平均高度相比,如果小于平均高度,则将其定义
为标点符号;

54)确定每行上的所有连通体的中心点,并将每个中心点拟合成中心线;

55)通过连通体的水平投影,将投影集中于中线附近的干扰噪音剔除。

在步骤S106中,分别统计接近于顶部的标点符号的出现次数Lt和接近于底部
的标点符号的出现次数Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图
像的方向,具体如下:

61)通过标点符号连通体的水平投影,确定标点符号和中心线的相对位置;

62)通过分析标点符号和中心线的相对位置,分别统计位于中心线的上方和下
方,即顶部和底部的标点符号个数Lt、Lb;

63)计算R=Lt/Lb,若R小于设定值,则所对应的文档扫描图像的方向为正确
方向,若R大于设定值,则所对应的文档扫描图像的方向为上下颠倒。

以来自于实际的办公扫描文件图像进行实验,实验的环境为:Intel Intel Pentium 
D CPU 3.2GHz、1GB RAM、Windows XP、软件为Matlab7.0,分别进行5个实验。

在第一个实验中,测试的图像数据集的图像只有文本,没有图片或表格且图片
都是正确的方向,共分为三种不同的语言。因为没有图片和表格,所有的分割块都
是文本块,因此提取文本块非常简单和高效。在这个实验中,检测准确率达到了
100%。

图3为该图像数据集的所有文字块中的标点符号的出现统计数据。纵坐标表示
标点符号出现次数,横坐标是文本块的编号,从图3中可看出,总共有900多个文
本块。虚线表示接近底部的标点符号,实线表示接近顶部的标点符号。从图3中,
可以很容易得出这样的结论:在每一个文本块中,接近顶端的标点符号比接近底部
的标点符号少得多。因为每个文本块有很明显的数据,R=Lt/Lb可以很快的计算
出来,即可判断出每一个文档图像的方向。

在第二个实验中,数据集的图像跟第一个数据集是类似的。也有三种不同的语
言,也没有图片和表格的,但该数据集的文档图像是上下倒置的。

在其他3个实验中,分为英语、中文和日语的三个不同的文档图像数据集。并
且,在三个数据集中的每个文档都有表格、图片或者其他非文本块,且都有两种不
同方向的。虽然预处理,包括去除噪声,页面分割和文本块筛选等过程降低了整个
方法的效率,但是,本发明方法具有较高的准确率,具体数据如表1所示。

表1

  No.
  Text Languages
 Orientation
  Orientation Accuracy
  1
  English
 Right Side Up
  87.11%
  2
  English
 Upside Down
  85.26%
  3
  Chinese
 Right Side Up
  88.52%
  4
  Chinese
 Upside Down
  83.34%
  5
  Japanese
 Right Side Up
  83.89%
  6
  Japanese
 Upside Down
  85.29%

一种基于标点符号的文档上下方向检测方法.pdf_第1页
第1页 / 共8页
一种基于标点符号的文档上下方向检测方法.pdf_第2页
第2页 / 共8页
一种基于标点符号的文档上下方向检测方法.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《一种基于标点符号的文档上下方向检测方法.pdf》由会员分享,可在线阅读,更多相关《一种基于标点符号的文档上下方向检测方法.pdf(8页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102831421 A (43)申请公布日 2012.12.19 CN 102831421 A *CN102831421A* (21)申请号 201210313834.9 (22)申请日 2012.08.29 G06K 9/32(2006.01) G06K 9/40(2006.01) G06T 7/00(2006.01) (71)申请人 华东师范大学 地址 200062 上海市普陀区中山北路 3663 号 (72)发明人 朱敏 (74)专利代理机构 上海科盛知识产权代理有限 公司 31225 代理人 赵继明 (54) 发明名称 一种基于标点符号的文档上下方向检测方法 。

2、(57) 摘要 本发明涉及一种基于标点符号的文档上下方 向检测方法, 用于对办公文档扫描图像进行方向 检测, 该方法包括以下步骤 : 1) 获取文档扫描图 像, 采用边缘密度算法检测并去除图像中的边缘 噪音 ; 2) 采用基于投影的页面分割算法对图像进 行页面分割, 获得若干图像块 ; 3) 对每一个图像 块, 判断其是否为文本块, 若是, 则将其保留, 若 否, 则将其剔除 ; 4) 采用 XY 切割算法提取每个文 本块中的连通体 ; 5) 根据连通体的高度和宽度, 判断该连通体是否为标点符号 ; 6) 分别统计接近 于顶部和底部的标点符号的出现次数 Lt、 Lb, 根 据RLt/Lb与设定。

3、值的大小关系, 检测文档扫描 图像的方向。 与现有技术相比, 本发明具有检测准 确率高、 适用范围广等优点。 (51)Int.Cl. 权利要求书 1 页 说明书 4 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 4 页 附图 2 页 1/1 页 2 1. 一种基于标点符号的文档上下方向检测方法, 用于对办公文档扫描图像进行方向检 测, 其特征在于, 该方法包括以下步骤 : 1) 获取文档扫描图像, 采用边缘密度算法检测并去除图像中的边缘噪音 ; 2) 采用基于投影的页面分割算法对图像进行页面分割, 获得若干图像块 ; 3) 对每一个图。

4、像块, 判断其是否为文本块, 若是, 则将其保留, 若否, 则将其剔除 ; 4) 采用 XY 切割算法提取每个文本块中的连通体 ; 5) 根据连通体的高度和宽度, 判断该连通体是否为标点符号, 若是, 则执行步骤 6), 若 否, 则返回步骤 5) ; 6) 分别统计接近于顶部的标点符号的出现次数 Lt 和接近于底部的标点符号的出现次 数 Lb, 根据 R Lt/Lb 与设定值的大小关系, 检测文档扫描图像的方向。 2. 根据权利要求 1 所述的一种基于标点符号的文档上下方向检测方法, 其特征在于, 所述的步骤 2) 中的基于投影的页面分割算法为 XY 切割算法。 3. 根据权利要求 1 所述。

5、的一种基于标点符号的文档上下方向检测方法, 其特征在于, 所述的步骤 3) 中的判断其是否为文本块的具体步骤为 : 31) 将图像块进行水平投影, 获得投影图像 ; 32) 若投影图像呈现具有一定间隔的山峰状, 则判断与其对应的图像块为文本块。 4. 根据权利要求 1 所述的一种基于标点符号的文档上下方向检测方法, 其特征在于, 所述的步骤 4) 具体如下 : 41) 首先通过水平投影后, 取得该文字块的每一行, 并将每一个行保存到一个字符串数 组, 同时, 计算并保存该行的平均行高到另一数组 ; 42) 将字符串数组垂直投影, 分离和提取出该行每个连通体, 也即该行所有的字符和标 点符号。 。

6、5. 根据权利要求 1 所述的一种基于标点符号的文档上下方向检测方法, 其特征在于, 所述的步骤 5) 中的根据连通体的高度和宽度判断该连通体是否为标点符号的具体步骤如 下 : 51) 计算每个连通体的宽度和高度, 并计算平均宽度和平均高度 ; 52) 将每一个连通体的宽度与平均宽度相比, 如果小于平均宽度, 则将其定义为标点符 号 ; 53) 将每一个连通体的高度与平均高度相比, 如果小于平均高度, 则将其定义为标点符 号 ; 54) 确定每行上的所有连通体的中心点, 并将每个中心点拟合成中心线 ; 55) 通过连通体的水平投影, 将投影集中于中线附近的干扰噪音剔除。 6. 根据权利要求 1。

7、 所述的一种基于标点符号的文档上下方向检测方法, 其特征在于, 所述的步骤 6) 具体如下 : 61) 通过标点符号连通体的水平投影, 确定标点符号和中心线的相对位置 ; 62) 通过分析标点符号和中心线的相对位置, 分别统计位于中心线的上方和下方, 即顶 部和底部的标点符号个数 Lt、 Lb ; 63) 计算 R Lt/Lb, 若 R 小于设定值, 则所对应的文档扫描图像的方向为正确方向, 若 R 大于设定值, 则所对应的文档扫描图像的方向为上下颠倒。 权 利 要 求 书 CN 102831421 A 2 1/4 页 3 一种基于标点符号的文档上下方向检测方法 技术领域 0001 本发明涉及。

8、一种文档方向检测方法, 尤其是涉及一种基于标点符号的文档上下方 向检测方法。 背景技术 0002 在广泛使用的光学字符识别系统 (OCR) 中, 文档图像方向的检测是图像处理的第 一步, 也是所有后续处理的先决条件。有效地检测出这些扫描文件的方向将大大有助于后 续的图像处理。 在许多嵌入式系统中, 如扫描仪和传真机, 文本文件图像的方向检测是必要 的, 而且, 检测要求快速。因此, 轻量级的方向检测方法在文本文档的图像处理中具有重要 意义。 0003 目前已有一些方法来检测文本图像方向。在 1990 年, Akiyama et al. 提出 最早的算法, 能够辨别肖像和风景图像的方向。最有影响。

9、力的算法, 由 S.N.srihari 和 V.Govindaraju提出。 该算法基于Hough变换和观察, 根据非对称英文文本行的垂直投影来 实现文本图像的方向检测。这种方法是许多后来的变形算法的基础。虽然这些算法基本只 适用于罗马文字, 后来也有很多针对其他不同文字的其他研究, 比如普什图语, 印地文, 和 阿拉伯文。另外, 还有一些较新的算法, 基于开放的罗马文字或一些不对称的非罗马文字, 比如 : 不对称的如普什图语和希伯来语文本。通过统计文字符号在某左右方向上开发的不 同来确定文档的上下方向。 0004 以上提到的这些算法大多是基于对每个语言文字的细节特征, 所以都只针对一个 特定。

10、种类的语言文本图像, 而且, 需要大量的计算或者需要一个大的数据集的特征提取。 0005 文档中存在各种标点符号, 如 : 引号, 句号, 分号, 惊叹号, 问号, 顿号。对于一般办 公文档存在这样一个基础事实 : 即在每个文档中, 大部分的标点符号要么接近于文本行顶 部要么接近于底部。例如, 引号是接近文本行的顶部, 而句号是接近于文本行的底部。同时 标点符号具有以下两个特点 : 0006 1. 除了文档中出现频率很低的一些标点符号是与文本行高度相同之外, 比如问号 和惊叹号等, 大部分的标点符号的高度都远远小于文本行的高度。 0007 2.所有高度很小的标点符号大部分是位于该文本行的底部。。

11、 而在普通的办公文档 中, 位于顶部和底部的两种标点符号的出现频率相差很大。 0008 因此, 可以基于上述特点对文本图像方向的检测方法进行研究。 发明内容 0009 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种检测准确率高、 适用范围广的基于标点符号的文档上下方向检测方法。 0010 本发明的目的可以通过以下技术方案来实现 : 0011 一种基于标点符号的文档上下方向检测方法, 用于对办公文档扫描图像进行方向 检测, 该方法包括以下步骤 : 说 明 书 CN 102831421 A 3 2/4 页 4 0012 1) 获取文档扫描图像, 采用边缘密度算法检测并去除图像中的边缘噪音。

12、 ; 0013 2) 采用基于投影的页面分割算法对图像进行页面分割, 获得若干图像块 ; 0014 3) 对每一个图像块, 判断其是否为文本块, 若是, 则将其保留, 若否, 则将其剔除 ; 0015 4) 采用 XY 切割算法提取每个文本块中的连通体 ; 0016 5) 根据连通体的高度和宽度, 判断该连通体是否为标点符号, 若是, 则执行步骤 6), 若否, 则返回步骤 5) ; 0017 6) 分别统计接近于顶部的标点符号的出现次数 Lt 和接近于底部的标点符号的出 现次数 Lb, 根据 R Lt/Lb 与设定值的大小关系, 检测文档扫描图像的方向。 0018 所述的步骤 2) 中的基于。

13、投影的页面分割算法为 XY 切割算法。 0019 所述的步骤 3) 中的判断其是否为文本块的具体步骤为 : 0020 31) 将图像块进行水平投影, 获得投影图像 ; 0021 32) 若投影图像呈现具有一定间隔的山峰状, 则判断与其对应的图像块为文本块。 0022 所述的步骤 4) 具体如下 : 0023 41) 首先通过水平投影后, 取得该文字块的每一行, 并将每一个行保存到一个字符 串数组, 同时, 计算并保存该行的平均行高到另一数组 ; 0024 42) 将字符串数组垂直投影, 分离和提取出该行每个连通体, 也即该行所有的字符 和标点符号。 0025 所述的步骤 5) 中的根据连通体的。

14、高度和宽度判断该连通体是否为标点符号的具 体步骤如下 : 0026 51) 计算每个连通体的宽度和高度, 并计算平均宽度和平均高度 ; 0027 52) 将每一个连通体的宽度与平均宽度相比, 如果小于平均宽度, 则将其定义为标 点符号 ; 0028 53) 将每一个连通体的高度与平均高度相比, 如果小于平均高度, 则将其定义为标 点符号 ; 0029 54) 确定每行上的所有连通体的中心点, 并将每个中心点拟合成中心线 ; 0030 55) 通过连通体的水平投影, 将投影集中于中线附近的干扰噪音剔除。 0031 所述的步骤 6) 具体如下 : 0032 61) 通过标点符号连通体的水平投影, 。

15、确定标点符号和中心线的相对位置 ; 0033 62) 通过分析标点符号和中心线的相对位置, 分别统计位于中心线的上方和下方, 即顶部和底部的标点符号个数 Lt、 Lb ; 0034 63) 计算 R Lt/Lb, 若 R 小于设定值, 则所对应的文档扫描图像的方向为正确方 向, 若 R 大于设定值, 则所对应的文档扫描图像的方向为上下颠倒。 0035 与现有技术相比, 本发明具有以下优点 : 0036 1) 通过去除噪声、 页面分割和文本块筛选等操作使本发明方法具有较高的检测准 确率 ; 0037 2) 本发明方法是基于相对位置的字符和标点符号的比较, 完全独立于语言, 适用 于各种语言文字的。

16、文件图像, 适用范围广。 附图说明 说 明 书 CN 102831421 A 4 3/4 页 5 0038 图 1 为本发明方法的流程示意图 ; 0039 图 2 为文本块的投影示意图 ; 0040 图 3 为本发明实施例中文本图像数据集的标点符号示意图。 具体实施方式 0041 下面结合附图和具体实施例对本发明进行详细说明。 0042 实施例 0043 如图 1 所示, 一种基于标点符号的文档上下方向检测方法, 用于对办公文档扫描 图像进行方向检测, 该方法包括以下步骤 : 0044 在步骤 S101 中, 获取文档扫描图像, 采用边缘密度算法检测并去除图像中的边缘 噪音。 0045 在步骤。

17、 S102 中, 采用基于投影的页面分割算法对图像进行页面分割, 获得若干图 像块, 这里基于投影的页面分割算法为 XY 切割算法 . 0046 在步骤 S103 中, 对每一个图像块, 判断其是否为文本块, 若是, 则将其保留, 若否, 则将其剔除 ; 判断其是否为文本块的具体步骤为 : 0047 31) 将图像块进行水平投影, 获得投影图像 ; 0048 32) 若投影图像呈现具有一定间隔的山峰状, 如图 2 所示, 则判断与其对应的图像 块为文本块。 0049 在步骤 S104 中, 采用 XY 切割算法提取每个文本块中的连通体, 具体如下 : 0050 41) 首先通过水平投影后, 取。

18、得该文字块的每一行, 并将每一个行保存到一个字符 串数组, 同时, 计算并保存该行的平均行高到另一数组 ; 0051 42) 将字符串数组垂直投影, 分离和提取出该行每个连通体, 也即该行所有的字符 和标点符号。 0052 在步骤 S105 中, 根据连通体的高度和宽度, 判断该连通体是否为标点符号, 若是, 则执行步骤 S106, 若否, 则返回步骤 S105。根据连通体的高度和宽度判断该连通体是否为 标点符号的具体步骤如下 : 0053 51) 计算每个连通体的宽度和高度, 并计算平均宽度和平均高度 ; 0054 52) 将每一个连通体的宽度与平均宽度相比, 如果小于平均宽度, 则将其定义。

19、为标 点符号 ; 0055 53) 将每一个连通体的高度与平均高度相比, 如果小于平均高度, 则将其定义为标 点符号 ; 0056 54) 确定每行上的所有连通体的中心点, 并将每个中心点拟合成中心线 ; 0057 55) 通过连通体的水平投影, 将投影集中于中线附近的干扰噪音剔除。 0058 在步骤 S106 中, 分别统计接近于顶部的标点符号的出现次数 Lt 和接近于底部的 标点符号的出现次数 Lb, 根据 R Lt/Lb 与设定值的大小关系, 检测文档扫描图像的方向, 具体如下 : 0059 61) 通过标点符号连通体的水平投影, 确定标点符号和中心线的相对位置 ; 0060 62) 通。

20、过分析标点符号和中心线的相对位置, 分别统计位于中心线的上方和下方, 即顶部和底部的标点符号个数 Lt、 Lb ; 说 明 书 CN 102831421 A 5 4/4 页 6 0061 63) 计算 R Lt/Lb, 若 R 小于设定值, 则所对应的文档扫描图像的方向为正确方 向, 若 R 大于设定值, 则所对应的文档扫描图像的方向为上下颠倒。 0062 以来自于实际的办公扫描文件图像进行实验, 实验的环境为 : Intel Intel Pentium D CPU 3.2GHz、 1GB RAM、 Windows XP、 软件为 Matlab7.0, 分别进行 5 个实验。 0063 在第一。

21、个实验中, 测试的图像数据集的图像只有文本, 没有图片或表格且图片都 是正确的方向, 共分为三种不同的语言。因为没有图片和表格, 所有的分割块都是文本块, 因此提取文本块非常简单和高效。在这个实验中, 检测准确率达到了 100。 0064 图 3 为该图像数据集的所有文字块中的标点符号的出现统计数据。纵坐标表示标 点符号出现次数, 横坐标是文本块的编号, 从图 3 中可看出, 总共有 900 多个文本块。虚线 表示接近底部的标点符号, 实线表示接近顶部的标点符号。从图 3 中, 可以很容易得出这样 的结论 : 在每一个文本块中, 接近顶端的标点符号比接近底部的标点符号少得多。 因为每个 文本块。

22、有很明显的数据, R Lt/Lb 可以很快的计算出来, 即可判断出每一个文档图像的方 向。 0065 在第二个实验中, 数据集的图像跟第一个数据集是类似的。 也有三种不同的语言, 也没有图片和表格的, 但该数据集的文档图像是上下倒置的。 0066 在其他 3 个实验中, 分为英语、 中文和日语的三个不同的文档图像数据集。并且, 在三个数据集中的每个文档都有表格、 图片或者其他非文本块, 且都有两种不同方向的。 虽 然预处理, 包括去除噪声, 页面分割和文本块筛选等过程降低了整个方法的效率, 但是, 本 发明方法具有较高的准确率, 具体数据如表 1 所示。 0067 表 1 0068 No. T。

23、ext Languages Orientation Orientation Accuracy 1 English Right Side Up 87.11 2 English Upside Down 85.26 3 Chinese Right Side Up 88.52 4 Chinese Upside Down 83.34 5 Japanese Right Side Up 83.89 6 Japanese Upside Down 85.29 说 明 书 CN 102831421 A 6 1/2 页 7 图 1 图 2 说 明 书 附 图 CN 102831421 A 7 2/2 页 8 图 3 说 明 书 附 图 CN 102831421 A 8 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1