基于对象的光学字符识别预处理算法.pdf

上传人:Y0****01 文档编号:4637004 上传时间:2018-10-23 格式:PDF 页数:19 大小:516.62KB
返回 下载 相关 举报
摘要
申请专利号:

CN201080019810.1

申请日:

2010.03.08

公开号:

CN102422308A

公开日:

2012.04.18

当前法律状态:

授权

有效性:

有权

法律详情:

专利权人的姓名或者名称、地址的变更IPC(主分类):G06K 9/38变更事项:专利权人变更前:全视技术有限公司变更后:豪威科技股份有限公司变更事项:地址变更前:美国加利福尼亚州变更后:美国加利福尼亚州|||授权|||实质审查的生效IPC(主分类):G06K 9/38申请日:20100308|||公开

IPC分类号:

G06K9/38

主分类号:

G06K9/38

申请人:

全视技术有限公司

发明人:

阿米特·阿什克; 约瑟夫·C·达格尔

地址:

美国加利福尼亚州

优先权:

2009.03.06 US 61/157,904

专利代理机构:

北京英赛嘉华知识产权代理有限责任公司 11204

代理人:

余朦;王艳春

PDF下载: PDF下载
内容摘要

对对象的散焦图像进行预处理的方法,包括:将基于对象的锐化滤波器应用于散焦图像以产生更清晰的图像;以及使用块式量化将更清晰的图像量化。用于从印刷于对象上的字母数字信息生成被解码文本数据的系统,包括获取字母数字信息的图像数据的相机。该系统还包括预处理器,该预处理器(a)执行图像数据的块式量化以形成被调节的图像数据,并且(b)对被调节的图像数据执行光学字符识别以生成被解码文本数据。

权利要求书

1: 对对象的散焦图像进行预处理的方法, 所述方法包括 : 将基于对象的锐化滤波器应用于所述散焦图像以产生更清晰的图像 ; 以及 使用块式量化将所述更清晰的图像量化。
2: 如权利要求 1 所述的方法, 其中, 将所述更清晰的图像量化的步骤包括 : 将灰度阈值 d 阈值和 U 阈值定义为具有最高灰度等级和最低灰度等级的灰度内的值 ; 将所述更清晰的图像划分为一系列 n×m 块, 其中, 每个 n×m 块是高度为 n 个像素且宽 度为 m 个像素的图像数据像素块 ; 定义与每个 n×m 块相对应的支持 N×M 块, 其中, 每个 N×M 块是高度为 N 个像素且宽 度为 M 个像素的图像数据像素块, N > n 且 M > m, 并且 所述 N×M 块包围所述 n×m 块 ; 以及 对于每个特定 n×m 块 : 将 maxI 定义为与所述特定 n×m 块相对应的所述支持 N×M 块内的最大像素灰度值, 将 minI 定义为与所述特定 n×m 块相对应的所述支持 N×M 块内的最小像素灰度值, 对于所述 N×M 块中的所有像素 (i, j), 定义 如果 (maxI-minI) < d 阈值且 meanI > U 阈值, 则将所述特定 n×m 块中的所有像素设定为 所述最高灰度等级, 以及 如果 (maxI-minI) < d 阈值且 meanI ≤ U 阈值, 则将所述特定 n×m 块中的所有像素设定为 所述最低灰度等级。
3: 如权利要求 2 所述的方法, 还包括 : 定义百分比 α ; 定义值的区间 I′= [minI′, max I′ ], 其中 minI′= (maxI+minI)×(0.5)-((maxI-minI)×α×0.5)/100, 和 maxI′= (maxI+minI)×(0.5)+((maxI-minI)×α×0.5)/100 ; 以及 定义使量 [std( 分类 1)-std( 分类 2)] 最小的所述区间 I′内的阈值 t*, 其中, 分类 1 包含落入区间 [minI′, t*] 内的所述 N×M 块中的像素值, 分类 2 包含落入区间 [t*, maxI′ ] 内的所述 N×M 块中的像素值。
4: 如权利要求 3 所述方法, 还包括 : 定义参数 midWidth ; 将所述特定 n×m 块中的值小于 (t*-midWidth) 的所有像素量化为所述最低灰度值 ; 将所述特定 n×m 块中的值小于 (t*+midWidth) 的所有像素量化为所述最高灰度值 ; 以 及 将所述特定 n×m 块中的值大于 (t*-midWidth) 且小于 (t*+midWidth) 的所有像素量 化为中间灰度值。
5: 如权利要求 1 所述的方法, 其中, 应用所述基于对象的锐化滤波器包括 : 获取所述对象的一组聚焦图像 ; 获取所述对象的一组散焦图像 ; 以及 2 利用约束最小二乘 (CLS) 滤波器设计技术基于所述一组聚焦图像和所述一组散焦图 像构建所述基于对象的锐化滤波器。
6: 用于从印刷于对象上的字母数字信息生成被解码文本数据的系统, 包括 : 相机, 获取所述字母数字信息的图像数据 ; 以及 预处理器, (a) 执行所述图像数据的块式量化以形成被调节的图像数据, 并且 (b) 对所 述被调节的图像数据执行光学字符识别以生成所述被解码文本数据。
7: 如权利要求 6 所述的系统, 其中, 所述预处理器在执行所述块式量化之前执行所述 图像数据的基于对象的滤波。
8: 如权利要求 7 所述的系统, 其中, 所述预处理器利用约束最小二乘 (CLS) 滤波器设计 技术从一组聚焦图像和一组散焦图像生成滤波器以执行所述基于对象的滤波。
9: 如权利要求 6 所述的系统, 其中, 所述相机为网络相机和笔记本电脑相机中的一种, 所述预处理器为笔记本电脑和台式电脑中的一种。
10: 如权利要求 7 所述的系统, 其中, 所述预处理器利用联系人管理软件处理所述被解 码文本。
11: 如权利要求 6 所述的系统, 其中, 所述预处理器通过以下步骤执行所述块式量化 : 将所述图像数据划分为一系列 n×m 块, 其中, 每个 n×m 块是高度为 n 个像素且宽度为 m 个像素的图像数据像素块 ; 定义与每个 n×m 块相对应的支持 N×M 块, 其中, 每个 N×M 块是高度为 N 个像素且宽 度为 M 个像素的图像数据像素块, N > n 且 M > m, 并且 所述 N×M 块包围所述 n×m 块 ; 以及 对于每个特定 n×m 块 : 将 maxI 定义为与所述特定 n×m 块相对应的所述支持 N×M 块内的最大像素灰度值, 将 minI 定义为与所述特定 n×m 块相对应的所述支持 N×M 块内的最小像素灰度值, 对所述 N×M 块中的所有像素 (i, j), 定义 如果 (maxI-minI) < d 阈值且 meanI > U 阈值, 则将所述 n×m 块中的所有像素设定为所述 最高灰度等级, 以及 如果 (maxI-minI) < d 阈值且 meanI ≤ U 阈值, 则将所述特定 n×m 块中的所有像素设定为 所述最低灰度等级。
12: 如权利要求 11 所述的系统, 其中, 所述预处理器通过以下步骤执行所述块式量化 : 利用百分比 α 定义值的区间 I′= [minI′, max I′ ], 其中 minI′= (maxI+minI)×(0.5)-((maxI-minI)×α×0.5)/100, 和 maxI′= (maxI+minI)×(0.5)+((maxI-minI)×α×0.5)/100 ; 定义使量 [std( 分类 1)-std( 分类 2)] 最小的所述区间 I′内的阈值 t*, 其中, 分类 1 包 含落入区间 [minI′, t*] 内的所述 N×M 块中的像素值, 分类 2 包含落入区间 [t*, max I′ ] 内的所述 N×M 块中的像素值 ; 以及 利用参数 midWidth 将所述特定 n×m 块中的值小于 (t*-midWidth) 的所有像素量化为所述最低灰度值, 将所述特定 n×m 块中的值小于 (t*+midWidth) 的所有像素量化为所述最高灰度值, 以 3 及 将所述特定 n×m 块中的值大于 (t*-midWidth) 且小于 (t*+midWidth) 的所有像素量 化为中间灰度值。

说明书


基于对象的光学字符识别预处理算法

    相关申请的交叉引用
     本申请要求于 2009 年 3 月 6 日提交的第 61/157,904 号美国临时专利申请的优先 权, 其全部内容通过引用并入本文。
     背景技术
     虽然用于光学字符识别 ( “OCR” ) 的软件和专用设备已成为商用, 但仍然需要专用 硬件。 例如, 图 1 示出包括专用名片图像捕捉相机 110( 用块 110 表示 ) 的 OCR 系统 100。 相 机 110 被配置为捕捉感兴趣对象 ( 例如名片 ) 的图像并生成图像数据 115( 用箭头表示 )。 在现有的系统中, 相机 110 通常附加在标准电脑外部的设备上, 并且专用于捕捉所需图像 ( 例如名片图像 )。为了优化图像捕捉条件, 诸如共轭距离和照明, 相机 110 常常包括用于 以远离相机的特定距离和角度保持名片的硬件。相机 110 还可以是包括从中提供名片的 槽、 内部光源和图像捕捉装置的箱型结构。图像数据 115 随后被提供至计算机 120, 计算机 120 包括安装其上的 OCR 软件。计算机 120 随后对图像数据 115 执行 OCR 处理并提供输出 125。输出 125 例如是所捕捉图像、 以及使用 OCR 软件从图像提取的数据 ( 诸如被整理成能 够提供至可用的联系人管理应用的格式的名片所有者的姓名和联系信息 ) 的显示。
     应认识到, 诸如图 1 所示的附加设备可能被消费者认为是笨重、 昂贵且不理想的。 发明内容 对对象的散焦图像进行预处理的方法, 包括 : 将基于对象的锐化滤波器应用于散 焦图像以产生更清晰的图像 ; 以及使用块式量化将更清晰的图像量化。
     用于从印刷于对象上的字母数字信息生成被解码文本数据的系统, 包括获取字母 数字信息的图像数据的相机。该系统还包括预处理器, 该预处理器 (a) 执行图像数据的块 式量化以形成被调节的图像数据, 并且 (b) 对被调节的图像数据执行光学字符识别, 以生 成被解码文本数据。
     附图说明 本公开可通过参照以下结合下面简要描述的附图的详细描述来理解。应注意, 出 于清楚说明的目的, 附图中的某些元件可能未按比例绘制。
     图 1 是示出现有技术的名片 OCR 系统的框图 ;
     图 2 是示出根据一个实施方式的包括预处理的名片 OCR 系统的框图 ;
     图 3 是示出根据一个实施方式的使用图 2 的名片 OCR 系统执行 OCR 的方法的流程 图;
     图 4 是示出图 3 所示的预处理步骤的进一步细节的流程图 ;
     图 5 是示出根据一个实施方式的在图 4 所示的预处理步骤中使用的基于对象的滤 波器的细节的流程图 ;
     图 6 示出根据一个实施方式的使用块式自适应量化使图像量化的内插过程 ;
     图 7 是示出根据一个实施方式的用于图 6 的量化过程的块的识别的框图 ; 图 8 是示出根据一个实施方式的在图 6 的量化过程中使用的范围分析步骤的流程图。 具体实施方式
     虽然存在商用的专用名片 OCR 设备、 硬件和软件, 但是它们通常利用具有专用扫 描仪和 / 或 “近聚焦” 的专用相机形式的专用硬件。本文中所使用的用语 “近聚焦” 意味着 相机被调整以使相对靠近相机的对象处于最佳焦距内。对于网络相机或笔记本电脑相机, 这意味着相机将被调整为聚焦于距相机约 15cm 至 25cm 处的对象上, 而不同于这种相机通 常将聚焦 ( 例如, 以捕捉台式机或笔记本电脑使用者的图像, 例如适于视频会议 ) 的典型的 65cm 的距离。 这种相机中的某些包括名片保持器以确保名片稳定地保持在距用于 OCR 输入 图像捕捉的相机的最佳距离处。但是近聚焦相机 ( 在可用时 ) 仅作为传统网络相机的次等 替代品。例如, 它们特有的近聚焦意味着对象在视频会议的通常范围内的将模糊不清。因 此, 期望无须使用用于名片 OCR 的专用设备。
     由于相机与移动通信装置、 笔记本电脑和独立的计算机系统 ( 例如网络相机 ) 的 结合变得越来越普遍, 故此时可以认识到, 使用已经存在的笔记本电脑相机或网络相机对 名片执行 OCR 将是有利的。通过这种方式, 使用者将能够从他们已有的网络相机、 笔记本电 脑相机和具有集成相机的其他装置获得额外的功能, 而不需要花钱购买额外的硬件。 据了解, OCR 一般在清晰图像, 即在成像的字母和数字中提供高对比度、 界限清楚 的线条和空间的图像的情况下最佳地工作。 典型的光学系统当成像对象位于对应于光学系 统的最佳焦距的共轭距离处时提供清晰图像。 在最佳焦距处对对象成像的这种系统具有用 于高空间频率 ( 对应于小图像细节 ) 的较高调制传递函数, 因此提供清晰图像。然而, 笔记 本电脑相机和网络相机通常使用针对视频会议应用 ( 例如, 针对约为 65cm 的共轭距离处的 对象 ) 优化的固定焦距, 因此不能在近的范围 ( 诸如名片 OCR 所需要的范围 ) 内产生清晰 图像。 当目前可用的笔记本电脑相机或网络相机被用于对近的范围 ( 例如, 15cm 至 25cm 的 共轭距离 ) 内的名片成像以使名片基本填充相机的视场时, 其结果为无益于 OCR 的具有高 空间频率下的低调制传递函数的散焦图像。当名片放置在 65cm 或更大的共轭距离 ( 即, 网 络相机或笔记本电脑相机的普通设计焦距 ) 处时, 所捕捉的图像是清晰的, 但图像内的名 片放大率非常小, 此外, 线条和空间的界定也受损, 图像同样无益于 OCR。
     本文描述的算法对来自网络相机或笔记本电脑相机的未经处理的散焦图像执行 预处理, 因而使用内置网络相机或笔记本电脑相机允许名片 OCR 具有合适的精度。预处理 的图像数据被提供至执行实际 OCR 的外部软件。
     在一个实施方式中, 本文描述的预处理算法结合现有笔记本电脑相机和网络相机 并结合现有 OCR 软件工作, 以提供与由未经预处理的图像所获得的结果相比具有更高精度 的 OCR 结果。
     图 2 中示出根据一个实施方式的利用基于对象的预处理的 OCR 系统的一个示例。 图 2 示出包括网络相机或笔记本电脑相机 210 的计算机系统 200。计算机系统 200 可例如 是用于预处理和 OCR 的具有网络相机的台式计算机系统、 具有集成相机的笔记本电脑、 或 具有集成相机和足够处理能力的任何装置。相机 210 捕捉名片的图像并向计算机系统 200
     内的处理器 220 提供图像数据 215( 用箭头表示 ) 以进行预处理和 OCR。图像数据 215 可 例如为相机 210 所捕捉的未经处理的图像数据。可选地, 例如相机 210 可包括锐化或边缘 增强的处理能力。处理器 220 被配置为对图像数据 215 执行预处理程序, 并被配置为执行 OCR 以产生输出数据 225( 用箭头表示 )。输出数据 225 例如被提供至联系人管理软件或外 部装置。此外, 相机 210 可被重新优化至更近的固定聚焦位置, 这为视频会议提供了足够高 的图像质量, 同时有助于 OCR 任务。可替换地, 相机 210 还可通过使用专用的波前相位修改 而具备扩展景深 (“EDoF” ) 能力, 专用的波前相位修改诸如在 Cathey 等人的第 5,748,371 号美国专利中公开, 其全部内容通过引用并入本文。当围绕视频会议与 OCR 应用之间的性 能折衷而进行设计时, EDoF 能力的增加可为系统设计者提供更多的灵活性。
     现在结合图 2 参照图 3, 图 3 是示出处理方法 300 的流程图, 在一个实施方式中, 处理方法 300 可由图 2 的计算机系统 200 执行。处理方法 300 开始于步骤 310, 在步骤 310 中, 捕捉名片的图像。在计算机系统 200 中, 步骤 310 由网络相机或笔记本电脑相机 210 执 行。在步骤 320 中, 对步骤 310 中所生成的图像数据 315( 用箭头表示 ) 进行预处理。预处 理步骤 320 调节图像数据 315 以提高 OCR 结果的精度。在步骤 330 中, 对被调节的图像数 据 325( 用箭头表示 ) 执行 OCR, 从而生成被解码文本数据 335( 也用箭头表示 )。方法 300 可被认为在步骤 330 之后结束, 或者可替换地, 方法 300 可继续到达可选的后处理步骤 340, 后处理步骤 340 可例如包括通过联系人管理软件对被解码文本数据 335 进行分析。 现在结合图 3 转向图 4, 图 4 示出了预处理步骤 320 的示例性实施方式的进一步细 节。如图 4 所示, 预处理步骤 320 包括在步骤 410 中将基于对象 (OB) 的滤波器应用于图像 数据 315。与一般的锐化滤波器相反, OB 滤波器以具体到对象的方式将图像数据锐化。在 本实施例中, 待成像的对象为名片中的字符。其它对象, 诸如但不限于条形码、 生物识别图 案或生物样本中的荧光微球, 也可用作目标对象。步骤 410 提供被滤波的图像数据 415。在 步骤 420 中, 对被滤波的图像数据应用自适应量化, 以产生输出数据 325( 同样见图 3)。
     图 5 和图 6 分别示出子步骤 410 和子步骤 420 的示例性实施方式的进一步细节。 具体地, 步骤 410 将 OB 滤波器应用于图像数据 315, 其中, OB 滤波器已经针对特定种类的待 成像对象进行了优化, 例如根据方法 500( 图 5)。步骤 420 包括对步骤 410 所产生的被滤波 图像数据 415 应用自适应块式量化, 如图 6 中进一步详细描述。
     图 5 中示出用于构建 OB 滤波器的示例性方法 500。方法 500 开始于步骤 510, 在 步骤 510 中识别目标对象。例如, 在这种情况下, 已知目标对象将包括存在于名片中的字母 数字字符。随后, 在步骤 520 中创建对象数据组。在名片的示例中, 步骤 520 收集数据, 该 数据包括, 例如, 通常在名片上所发现的在字体大小 ( 例如, 6pt 至 14pt)、 字体风格 ( 例如, 常规、 粗体和斜体 ) 和字体类型 ( 例如, Arial 和 Times New Roman) 的范围内的字母数字 符号。在步骤 530 中, 使用相机 ( 例如, 诸如相机 210 的网络相机或笔记本电脑相机 ) 获取 一组聚焦图像 ( 即 “期望组” )。例如, 步骤 530 包括对待近聚焦的相机的焦点进行调整, 从 而可以通过 OCR 软件对期望组进行解码而无需任何预处理。应注意的是, 对相机的正常预 期使用而言, 使相机近聚焦是不现实的, 因为近聚焦的相机无法在大于 65cm 的预期用途的 共轭距离下产生高质量的图像。 应理解, 本文所涉及的相机为数码相机, 该数码相机将每个 图像设置为一帧像素, 其中每个像素由来自光学图像的数字化的光强度信息组成。数字化 的光强度信息可称为具有选自一组 “灰度等级” 的值的 “图像数据” 。虽然灰度等级通常指
     示从黑色 ( 例如, 灰度等级为 0) 向白色 ( 例如, 灰度等级为 255, 使用 8 位精度 ) 过渡的光 强度, 但这些等级可以代表数字化颜色信息的可能性也是本文所计划的。
     继续参照图 5, 方法 500 前进到步骤 540, 在步骤 540 中, 用网络相机或笔记本电脑 相机在其默认焦点位置 ( 即预期用途的共轭距离, 大于 65cm) 获取对象数据组的一组散焦 图像 ( 即 “检测组” )。最终, 在步骤 550 中, 基于所需数据组和检测数据组的分析构建 OB 滤 波器。例如, 可使用约束最小二乘 ( “CLS” ) 滤波器设计技术来构建 OB 滤波器 ( 诸如 Scott E.Umbaugh 所著的 “Computer Imaging : Digital Image Analysis and Processing( 计算 机成像 : 数字图像分析与处理 )” , CRC Press, Taylor and Francis Group, Boca Raton, FL, 2005 中所描述 )。所产生的 OB 滤波器在图 4 的步骤 410 中被用作基于对象的滤波器。
     在一个实施方式中, 例如在制造者对相机 210 进行最初标定的过程中, 方法 500 仅 执行一次。所产生的 OB 滤波器的参数随后可储存至相机 210 的非易失性存储器中以供后 续使用。
     现在结合图 4 参照图 6 和图 7, 示出了根据一个实施方式的步骤 420 的进一步细 节。作为一个示例, 自适应块式量化过程被应用于被滤波的图像数据 415, 以将被滤波的图 像转换为三值 (ternary)( 即三等级 ) 图像。换句话说, 用因子 β 对被滤波的图像进行内 插, 以实现二值超分辨率, 其中 β 为内插因子并通常在 1 至 3 的范围内。β 可例如为使用 者设定的变量或可为预定的出厂设定。 在本文中可意识到, 虽然本实施方式基于三值量化, 但在某些应用中二值 ( 即二等级 ) 量化也能够满足需要。 如图 6 所示, 自适应块式量化应用步骤 420 开始于被滤波的图像数据 415 的输入。 被滤波的图像数据 415 被引导至步骤 610, 其中, 图像数据 415 被定义为一系列 n×m 块 ( 每 个这种块由 dnm(i, j) 表示 ), 每个 dnm(i, j) 由支持 N×M 块 ( 由 DNM(i, j) 表示 ) 包围, 这两 种块均包围像素 (i, j), 其中 i 和 j 为下标变量。如图 7 所示, n 和 m 分别为包围像素 (i, j)730 的框 720 的像素高度和宽度, 而 N 和 M 分别为包围像素 (i, j) 的较大支持框 710 的 像素高度和宽度 ; 因此, N > n 且 M > m。尽管图 7 示出围绕像素 (i, j)730 居中的支持框 710(DNM(i, j)) 和 n×m 块 720(dnm(i, j)), 但这种居中并不是在所有情况下都是需要和可能 的 ( 例如, 当像素 (i, j)730 足够靠近图像边缘且框 710 或框 720 将延伸经过边缘时 )。为 了使分辨率最大化, 可使 n 和 m 较小, 但较小的 n 和 m 会导致计算成本的增加, 因为必须将 被滤波的图像数据 415 划分为更多块。n 和 m 的典型值为 2 至 5。为了提高精度, 可使 N 和 M 较大, 但是较大的 N 和 M 会降低空间分辨率。N 和 M 的典型值为 15 至 30。每个块 DNM(i, j) 的特征被用于为每个块 dnm(i, j) 的自适应处理提供特定图像环境, 如现在将要描述的那 样。
     在步骤 610 之后进行步骤 620, 在步骤 620 中, 最小像素灰度值 minI = min(DNM(i, j)) 且最大像素灰度值 maxI = max(DNM(i, j)) 被分别定义为 N×M 块内的图像数据的最小和 最大像素灰度值。同样, 灰度变量 intI 和 midI 被分别定义为 intI = (maxI-minI), midI =
     (maxI+minI)×(0.5), 以及其中总和代表 DNM(i, j) 中所有像素 (i, j)的灰度值。为了完成步骤 620, 灰度区间 I 被定义为 I = [minI, maxI]。
     在步骤 620 之后进行步骤 630, 步骤 630 将不同的灰度阈值 d 阈值与 (maxI-minI) 进行比较。d 阈值是处理对比度阈值, 处理对比度阈值用于确定块 DNM(i, j) 内的对比度是否足够显著以至于在 DNM(i, j) 中还需要强化处理, 并且可例如为使用者设定的变量、 预定出 厂设定或可从被滤波的图像数据 415 确定。实际上, d 阈值应大于被滤波的图像数据 415 中 的噪声, 使得数据的预处理不由噪声单独引起。例如, d 阈值通常应约三倍于被滤波的图像数 据 415 中的噪声标准偏差 ( 可例如通过计算被滤波的图像数据 415 中 “空白” 部分 ( 诸如 名片图像的背景区域 ) 的标准偏差来确定 )。
     在决定步骤 630 中, 如果 (maxI-minI) < d 阈值, 则块 dnm(i, j) 对应于均匀范围。看 待该问题的一种方法是, 支持块 DNM(i, j) 中的像素值之间的对比度确定了 dnm(i, j) 的像素 是否应被单独量化, 或能够全部作为一组而被设定为高灰度值或低灰度值。如果 DNM(i, j) 具有低对比度, 则 (maxI-minI) < d 阈值, 故全部 dnm(i, j) 可作为一组而被简单设定为高灰度 值或低灰度值。在这种情况下, 步骤 420 进行另一决定步骤 640, 步骤 640 将 meanI 与联合 灰度阈值 U 阈值比较, U 阈值可例如为使用者设定的变量、 预定的出厂设定或可从被滤波的图像 数据 415 确定。U 阈值通常表示印刷文本 ( 例如, 字母和数字 ) 的灰度值与上面印有这种文 本的背景之间的中点。例如, U 阈值可通过对被滤波的图像数据 415 的灰度值进行测绘并 且记录对应于文本和背景的灰度值的数据中的峰值 P1、 P2 来确定。在这种情况下, U 阈值可 被定义为 (P1+P2)/2。
     决定步骤 640 以及取决于决定步骤 640 的步骤开始将输出数据分配至输出数据表 示, 输出数据表示可以与被滤波的图像数据 415 被输入步骤 420 时的原始灰度相对应, 或可 以不与之相对应。例如, 利用 “最低” 、 “中间” 和 “最高” 灰度值 ( 见图 8) ; 这些值可以按照 原始灰度单位 ( 例如, 对于 8 位灰度来说为 0-255) 或可以按照不同的单位。也就是说, 在 一种情况下, 输出数据可表示为最低等级的 0、 中间等级的 0.5 以及最高等级的 1, 或在不同 情况下 ( 例如, 8 位输出 ) 表示为最低等级的 0、 中间等级的 127 以及最高等级的 255。在 下面的示例中假设 8 位输出, 但可利用其它输出数据表示也是显而易见的。输出数据表示 的选择可包括对于特定 OCR 处理的适合性 ( 例如, 考虑 OCR 处理最佳地利用何种形式的数 据 )。
     如果, 在决定步骤 640 中, meanI ≤ U 阈值, 则 dnm(i, j) 的图像数据在步骤 642 中被 量化为最低灰度等级 ( 例如 0)。如果 meanI > U 阈值, 则 dnm(i, j) 的图像数据在步骤 644 中 被量化为最高灰度等级 ( 例如 255)。
     可替换地, 在决定步骤 630 中, 如果 (maxI-minI) ≥ d 阈值, 则步骤 420 前进至步骤 650, 在步骤 650 中, 根据范围分析将块 dnm(i, j) 量化, 如图 8 中的细节所描述的那样。看待 该问题的一种方法是, 当支持块 DNM(i, j) 中有足够对比度时, 则 dnm(i, j) 的像素应单独评 估并量化。
     现在参照图 8, 步骤 650 开始于步骤 810, 在步骤 810 中, 区间 I 的百分比 α 被选 择并用 I′= [minI′, maxI′ ] 表示, 其中, 最小区间值 minI′和最大区间值 maxI′被定义 为:
     minI′= midI-(intI×α×0.5)/100, 和
     maxI′= midI-(intI×α×0.5)/100。
     由于 α 定义用于搜索最佳 t* 的区间 I 的百分比 ( 见下文 ), 所以理想的 α 为 100, 然而在许多情况下, 为了降低计算成本并保持精度, 可利用 10 至 50 范围内的 α 值。α 的 成功选择可由系统设计者通过利用具有不同图像数据 ( 例如, 在各种照明条件下从多种类型和条件的名片所获取 ) 的特殊成像器所提供的图像数据来检验步骤 650 的执行而确定。
     继续至步骤 820, 对于区间 I′的每个值而言, 两个分类可被定义为高于或低于灰 度阈值 t。也就是说, 两个分类为
     分类 1 = ( 块 DNM(i, j) 中的值 ) < t, 以及
     分类 2 = ( 块 DNM(i, j) 中的值 ) ≥ t。
     表达这些分类的另一种方式为
     分类 1 = [minI′, t],
     分类 2 = [t, maxI′ ]。
     为了完成步骤 820, t* 被选为使量 [std( 分类 1)-std( 分类 2)] 的绝对值最小化 的阈值, 其中 std() 表示公知的标准差公式。 t* 可以通过多种方式确定, 诸如通过对 t 的所 有可能的值 ( 已知例如 t 必须落入 I′内 ) 计算类别 1、 类别 2 和 [std( 分类 1)-std( 分类 2)], 或通过使用搜索算法。
     另一变量 midWidth 被定义 ; midWidth 可例如为使用者设定的变量或可为预定的 出厂设定, 并通常位于 1%至 5%的动态范围内 ( 例如, 在 0 至 255 的灰度系统中, 约2至 10 灰度单位 )。midWidth 确定 t* 周围的像素灰度值的区间宽度, t* 将被设置为三值量化 中的中灰值。midWidth 的成功选择可由系统设计者通过利用具有不同图像数据 ( 例如, 在 各种照明条件下从各种类型和条件的名片所获取 ) 的特殊成像器所提供的图像数据来检 验步骤 650 的执行而确定。步骤 830 随后定义三种不同的灰度范围 ( 假设灰度等级从 0 至 255) : 灰度范围 1 : [0, t*-midWidth)
     灰度范围 2 : [t*-midWidth, t*+midWidth]
     灰度范围 3 : (t*+midWidth, 255]。
     决定步骤 840 使用这三个范围来确定块 dnm(i, j) 的每个像素的灰度范围, 并且步 骤 650 根据每个上述像素的灰度值所落入的范围而前进至不同的动作。例如, 如果在步骤 840 中发现 dnm(i, j) 的像素落入范围 1 内, 则步骤 850 将该像素的值重设为最低灰度等级 ( 例如 0)。如果在步骤 840 中发现像素落入范围 3 内, 则步骤 860 将该像素的值重设为最 高灰度等级 ( 例如 255)。如果在步骤 840 中发现像素落入范围 3 内, 则步骤 870 将该像素 的值重设为中间等级 ( 例如, 在 8 位输出系统中为 127)。在步骤 850、 860 和 870 中的任何 一个之后, 步骤 650 前进至决定步骤 880 以确定是否还有 dnm(i, j) 中的其它像素有待处理。 如果是, 则步骤 650 返回步骤 840 以处理其它像素 ; 如果不是, 则步骤 650 完成并返回步骤 660( 图 6)。
     因此, 步骤 840 至 880 将块 dnm(i, j) 中的每个像素的数据量化为三个值之一 : 最 低灰度值、 中间灰度值或最高灰度值。
     返回参照图 6, 当步骤 650( 图 8) 完成时, 步骤 420 返回步骤 660, 在步骤 660 中, 对待分析的被滤波图像数据中是否还剩余其它 n×m 块作出决定。如果决定 660 的答案为 “是” , 则步骤 420 返回步骤 610, 在步骤 610 中选择另一块。如果决定步骤 660 的答案为 “否” , 则将结果作为被调节的图像数据 325 输出至 OCR 处理。
     虽然本公开描述的示例涉及为后续 OCR 处理而对网络相机或笔记本电脑相机所 捕捉的图像进行的预处理, 但本领域技术人员应意识到, 本文所描述和要求的处理可应用
     于除 OCR 之外的为了各种任务而进行的图像数据预处理。预处理算法本身不同于标准锐化 和降噪滤波器, 因为锐化滤波器是基于对象的, 并且在步骤 420 中所执行的自适应量化算 法使用局部图像数据背景的图像统计, 因此量化本身适合可变背景和 / 或字体对比度。算 法可用于其它基于任务的成像系统应用, 这些成像系统应用可受益于所捕捉图像的预处理 以提高任务性能。 例如, 上述预处理算法可并入基于任务的成像系统, 其中, 成像光学器件、 预处理和图像信号处理针对即将到来的特定任务而共同优化。 本文所描述的对这些图像的 方法的应用可因此被认为落入所公开的实施方式的范围内。 因此, 应注意, 上面的说明书中 所包含的或附图中所示出的内容应被解释为示意性而非限制性的。

基于对象的光学字符识别预处理算法.pdf_第1页
第1页 / 共19页
基于对象的光学字符识别预处理算法.pdf_第2页
第2页 / 共19页
基于对象的光学字符识别预处理算法.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《基于对象的光学字符识别预处理算法.pdf》由会员分享,可在线阅读,更多相关《基于对象的光学字符识别预处理算法.pdf(19页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102422308 A (43)申请公布日 2012.04.18 CN 102422308 A *CN102422308A* (21)申请号 201080019810.1 (22)申请日 2010.03.08 61/157,904 2009.03.06 US G06K 9/38(2006.01) (71)申请人 全视技术有限公司 地址 美国加利福尼亚州 (72)发明人 阿米特阿什克 约瑟夫C达格尔 (74)专利代理机构 北京英赛嘉华知识产权代理 有限责任公司 11204 代理人 余朦 王艳春 (54) 发明名称 基于对象的光学字符识别预处理算法 (57) 摘要 对对象。

2、的散焦图像进行预处理的方法, 包括 : 将基于对象的锐化滤波器应用于散焦图像以产生 更清晰的图像 ; 以及使用块式量化将更清晰的图 像量化。用于从印刷于对象上的字母数字信息生 成被解码文本数据的系统, 包括获取字母数字信 息的图像数据的相机。 该系统还包括预处理器, 该 预处理器 (a) 执行图像数据的块式量化以形成被 调节的图像数据, 并且 (b) 对被调节的图像数据 执行光学字符识别以生成被解码文本数据。 (30)优先权数据 (85)PCT申请进入国家阶段日 2011.11.03 (86)PCT申请的申请数据 PCT/US2010/026535 2010.03.08 (87)PCT申请的公。

3、布数据 WO2010/102289 EN 2010.09.10 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 7 页 附图 8 页 CN 102422320 A1/3 页 2 1. 对对象的散焦图像进行预处理的方法, 所述方法包括 : 将基于对象的锐化滤波器应用于所述散焦图像以产生更清晰的图像 ; 以及 使用块式量化将所述更清晰的图像量化。 2. 如权利要求 1 所述的方法, 其中, 将所述更清晰的图像量化的步骤包括 : 将灰度阈值 d阈值和 U阈值定义为具有最高灰度等级和最低灰度等级的灰度内的值 ; 将所述更清晰的图像划分为一。

4、系列 nm 块, 其中, 每个 nm 块是高度为 n 个像素且宽 度为 m 个像素的图像数据像素块 ; 定义与每个 nm 块相对应的支持 NM 块, 其中, 每个 NM 块是高度为 N 个像素且宽 度为 M 个像素的图像数据像素块, N n 且 M m, 并且 所述 NM 块包围所述 nm 块 ; 以及 对于每个特定 nm 块 : 将 maxI定义为与所述特定 nm 块相对应的所述支持 NM 块内的最大像素灰度值, 将 minI定义为与所述特定 nm 块相对应的所述支持 NM 块内的最小像素灰度值, 对于所述 NM 块中的所有像素 (i, j), 定义 如果 (maxI-minI) d阈值且 。

5、meanI U阈值, 则将所述特定 nm 块中的所有像素设定为 所述最高灰度等级, 以及 如果 (maxI-minI) d阈值且 meanI U阈值, 则将所述特定 nm 块中的所有像素设定为 所述最低灰度等级。 3. 如权利要求 2 所述的方法, 还包括 : 定义百分比 ; 定义值的区间 I minI, max I , 其中 minI (maxI+minI)(0.5)-(maxI-minI)0.5)/100, 和 maxI (maxI+minI)(0.5)+(maxI-minI)0.5)/100 ; 以及 定义使量 std( 分类 1)-std( 分类 2) 最小的所述区间 I内的阈值 t*。

6、, 其中, 分类 1 包含落入区间minI, t*内的所述NM块中的像素值, 分类2包含落入区间t*, maxI 内的所述 NM 块中的像素值。 4. 如权利要求 3 所述方法, 还包括 : 定义参数 midWidth ; 将所述特定 nm 块中的值小于 (t*-midWidth) 的所有像素量化为所述最低灰度值 ; 将所述特定nm块中的值小于(t*+midWidth)的所有像素量化为所述最高灰度值 ; 以 及 将所述特定 nm 块中的值大于 (t*-midWidth) 且小于 (t*+midWidth) 的所有像素量 化为中间灰度值。 5. 如权利要求 1 所述的方法, 其中, 应用所述基于。

7、对象的锐化滤波器包括 : 获取所述对象的一组聚焦图像 ; 获取所述对象的一组散焦图像 ; 以及 权 利 要 求 书 CN 102422308 A CN 102422320 A2/3 页 3 利用约束最小二乘 (CLS) 滤波器设计技术基于所述一组聚焦图像和所述一组散焦图 像构建所述基于对象的锐化滤波器。 6. 用于从印刷于对象上的字母数字信息生成被解码文本数据的系统, 包括 : 相机, 获取所述字母数字信息的图像数据 ; 以及 预处理器, (a) 执行所述图像数据的块式量化以形成被调节的图像数据, 并且 (b) 对所 述被调节的图像数据执行光学字符识别以生成所述被解码文本数据。 7. 如权利要。

8、求 6 所述的系统, 其中, 所述预处理器在执行所述块式量化之前执行所述 图像数据的基于对象的滤波。 8.如权利要求7所述的系统, 其中, 所述预处理器利用约束最小二乘(CLS)滤波器设计 技术从一组聚焦图像和一组散焦图像生成滤波器以执行所述基于对象的滤波。 9. 如权利要求 6 所述的系统, 其中, 所述相机为网络相机和笔记本电脑相机中的一种, 所述预处理器为笔记本电脑和台式电脑中的一种。 10. 如权利要求 7 所述的系统, 其中, 所述预处理器利用联系人管理软件处理所述被解 码文本。 11. 如权利要求 6 所述的系统, 其中, 所述预处理器通过以下步骤执行所述块式量化 : 将所述图像数。

9、据划分为一系列 nm 块, 其中, 每个 nm 块是高度为 n 个像素且宽度为 m 个像素的图像数据像素块 ; 定义与每个 nm 块相对应的支持 NM 块, 其中, 每个 NM 块是高度为 N 个像素且宽 度为 M 个像素的图像数据像素块, N n 且 M m, 并且 所述 NM 块包围所述 nm 块 ; 以及 对于每个特定 nm 块 : 将 maxI定义为与所述特定 nm 块相对应的所述支持 NM 块内的最大像素灰度值, 将 minI定义为与所述特定 nm 块相对应的所述支持 NM 块内的最小像素灰度值, 对所述 NM 块中的所有像素 (i, j), 定义 如果 (maxI-minI) d阈。

10、值且 meanI U阈值, 则将所述 nm 块中的所有像素设定为所述 最高灰度等级, 以及 如果 (maxI-minI) d阈值且 meanI U阈值, 则将所述特定 nm 块中的所有像素设定为 所述最低灰度等级。 12. 如权利要求 11 所述的系统, 其中, 所述预处理器通过以下步骤执行所述块式量化 : 利用百分比 定义值的区间 I minI, max I , 其中 minI (maxI+minI)(0.5)-(maxI-minI)0.5)/100, 和 maxI (maxI+minI)(0.5)+(maxI-minI)0.5)/100 ; 定义使量std(分类1)-std(分类2)最小的。

11、所述区间I内的阈值t*, 其中, 分类1包 含落入区间 minI, t* 内的所述 NM 块中的像素值, 分类 2 包含落入区间 t*, max I 内的所述 NM 块中的像素值 ; 以及 利用参数 midWidth 将所述特定 nm 块中的值小于 (t*-midWidth) 的所有像素量化为所述最低灰度值, 将所述特定nm块中的值小于(t*+midWidth)的所有像素量化为所述最高灰度值, 以 权 利 要 求 书 CN 102422308 A CN 102422320 A3/3 页 4 及 将所述特定 nm 块中的值大于 (t*-midWidth) 且小于 (t*+midWidth) 的所。

12、有像素量 化为中间灰度值。 权 利 要 求 书 CN 102422308 A CN 102422320 A1/7 页 5 基于对象的光学字符识别预处理算法 0001 相关申请的交叉引用 0002 本申请要求于 2009 年 3 月 6 日提交的第 61/157,904 号美国临时专利申请的优先 权, 其全部内容通过引用并入本文。 背景技术 0003 虽然用于光学字符识别 ( “OCR” ) 的软件和专用设备已成为商用, 但仍然需要专用 硬件。 例如, 图1示出包括专用名片图像捕捉相机110(用块110表示)的OCR系统100。 相 机 110 被配置为捕捉感兴趣对象 ( 例如名片 ) 的图像并。

13、生成图像数据 115( 用箭头表示 )。 在现有的系统中, 相机 110 通常附加在标准电脑外部的设备上, 并且专用于捕捉所需图像 ( 例如名片图像 )。为了优化图像捕捉条件, 诸如共轭距离和照明, 相机 110 常常包括用于 以远离相机的特定距离和角度保持名片的硬件。相机 110 还可以是包括从中提供名片的 槽、 内部光源和图像捕捉装置的箱型结构。图像数据 115 随后被提供至计算机 120, 计算机 120 包括安装其上的 OCR 软件。计算机 120 随后对图像数据 115 执行 OCR 处理并提供输出 125。输出 125 例如是所捕捉图像、 以及使用 OCR 软件从图像提取的数据 (。

14、 诸如被整理成能 够提供至可用的联系人管理应用的格式的名片所有者的姓名和联系信息 ) 的显示。 0004 应认识到, 诸如图 1 所示的附加设备可能被消费者认为是笨重、 昂贵且不理想的。 发明内容 0005 对对象的散焦图像进行预处理的方法, 包括 : 将基于对象的锐化滤波器应用于散 焦图像以产生更清晰的图像 ; 以及使用块式量化将更清晰的图像量化。 0006 用于从印刷于对象上的字母数字信息生成被解码文本数据的系统, 包括获取字母 数字信息的图像数据的相机。该系统还包括预处理器, 该预处理器 (a) 执行图像数据的块 式量化以形成被调节的图像数据, 并且 (b) 对被调节的图像数据执行光学字。

15、符识别, 以生 成被解码文本数据。 附图说明 0007 本公开可通过参照以下结合下面简要描述的附图的详细描述来理解。应注意, 出 于清楚说明的目的, 附图中的某些元件可能未按比例绘制。 0008 图 1 是示出现有技术的名片 OCR 系统的框图 ; 0009 图 2 是示出根据一个实施方式的包括预处理的名片 OCR 系统的框图 ; 0010 图 3 是示出根据一个实施方式的使用图 2 的名片 OCR 系统执行 OCR 的方法的流程 图 ; 0011 图 4 是示出图 3 所示的预处理步骤的进一步细节的流程图 ; 0012 图5是示出根据一个实施方式的在图4所示的预处理步骤中使用的基于对象的滤 。

16、波器的细节的流程图 ; 0013 图 6 示出根据一个实施方式的使用块式自适应量化使图像量化的内插过程 ; 说 明 书 CN 102422308 A CN 102422320 A2/7 页 6 0014 图 7 是示出根据一个实施方式的用于图 6 的量化过程的块的识别的框图 ; 0015 图8是示出根据一个实施方式的在图6的量化过程中使用的范围分析步骤的流程 图。 具体实施方式 0016 虽然存在商用的专用名片 OCR 设备、 硬件和软件, 但是它们通常利用具有专用扫 描仪和 / 或 “近聚焦” 的专用相机形式的专用硬件。本文中所使用的用语 “近聚焦” 意味着 相机被调整以使相对靠近相机的对象。

17、处于最佳焦距内。对于网络相机或笔记本电脑相机, 这意味着相机将被调整为聚焦于距相机约 15cm 至 25cm 处的对象上, 而不同于这种相机通 常将聚焦(例如, 以捕捉台式机或笔记本电脑使用者的图像, 例如适于视频会议)的典型的 65cm的距离。 这种相机中的某些包括名片保持器以确保名片稳定地保持在距用于OCR输入 图像捕捉的相机的最佳距离处。但是近聚焦相机 ( 在可用时 ) 仅作为传统网络相机的次等 替代品。例如, 它们特有的近聚焦意味着对象在视频会议的通常范围内的将模糊不清。因 此, 期望无须使用用于名片 OCR 的专用设备。 0017 由于相机与移动通信装置、 笔记本电脑和独立的计算机系。

18、统 ( 例如网络相机 ) 的 结合变得越来越普遍, 故此时可以认识到, 使用已经存在的笔记本电脑相机或网络相机对 名片执行 OCR 将是有利的。通过这种方式, 使用者将能够从他们已有的网络相机、 笔记本电 脑相机和具有集成相机的其他装置获得额外的功能, 而不需要花钱购买额外的硬件。 0018 据了解, OCR 一般在清晰图像, 即在成像的字母和数字中提供高对比度、 界限清楚 的线条和空间的图像的情况下最佳地工作。 典型的光学系统当成像对象位于对应于光学系 统的最佳焦距的共轭距离处时提供清晰图像。 在最佳焦距处对对象成像的这种系统具有用 于高空间频率 ( 对应于小图像细节 ) 的较高调制传递函数。

19、, 因此提供清晰图像。然而, 笔记 本电脑相机和网络相机通常使用针对视频会议应用(例如, 针对约为65cm的共轭距离处的 对象 ) 优化的固定焦距, 因此不能在近的范围 ( 诸如名片 OCR 所需要的范围 ) 内产生清晰 图像。 当目前可用的笔记本电脑相机或网络相机被用于对近的范围(例如, 15cm至25cm的 共轭距离 ) 内的名片成像以使名片基本填充相机的视场时, 其结果为无益于 OCR 的具有高 空间频率下的低调制传递函数的散焦图像。当名片放置在 65cm 或更大的共轭距离 ( 即, 网 络相机或笔记本电脑相机的普通设计焦距 ) 处时, 所捕捉的图像是清晰的, 但图像内的名 片放大率非常。

20、小, 此外, 线条和空间的界定也受损, 图像同样无益于 OCR。 0019 本文描述的算法对来自网络相机或笔记本电脑相机的未经处理的散焦图像执行 预处理, 因而使用内置网络相机或笔记本电脑相机允许名片 OCR 具有合适的精度。预处理 的图像数据被提供至执行实际 OCR 的外部软件。 0020 在一个实施方式中, 本文描述的预处理算法结合现有笔记本电脑相机和网络相机 并结合现有 OCR 软件工作, 以提供与由未经预处理的图像所获得的结果相比具有更高精度 的 OCR 结果。 0021 图 2 中示出根据一个实施方式的利用基于对象的预处理的 OCR 系统的一个示例。 图 2 示出包括网络相机或笔记本。

21、电脑相机 210 的计算机系统 200。计算机系统 200 可例如 是用于预处理和 OCR 的具有网络相机的台式计算机系统、 具有集成相机的笔记本电脑、 或 具有集成相机和足够处理能力的任何装置。相机 210 捕捉名片的图像并向计算机系统 200 说 明 书 CN 102422308 A CN 102422320 A3/7 页 7 内的处理器 220 提供图像数据 215( 用箭头表示 ) 以进行预处理和 OCR。图像数据 215 可 例如为相机 210 所捕捉的未经处理的图像数据。可选地, 例如相机 210 可包括锐化或边缘 增强的处理能力。处理器 220 被配置为对图像数据 215 执行预。

22、处理程序, 并被配置为执行 OCR 以产生输出数据 225( 用箭头表示 )。输出数据 225 例如被提供至联系人管理软件或外 部装置。此外, 相机 210 可被重新优化至更近的固定聚焦位置, 这为视频会议提供了足够高 的图像质量, 同时有助于 OCR 任务。可替换地, 相机 210 还可通过使用专用的波前相位修改 而具备扩展景深 (“EDoF” ) 能力, 专用的波前相位修改诸如在 Cathey 等人的第 5,748,371 号美国专利中公开, 其全部内容通过引用并入本文。当围绕视频会议与 OCR 应用之间的性 能折衷而进行设计时, EDoF 能力的增加可为系统设计者提供更多的灵活性。 00。

23、22 现在结合图 2 参照图 3, 图 3 是示出处理方法 300 的流程图, 在一个实施方式中, 处理方法 300 可由图 2 的计算机系统 200 执行。处理方法 300 开始于步骤 310, 在步骤 310 中, 捕捉名片的图像。在计算机系统 200 中, 步骤 310 由网络相机或笔记本电脑相机 210 执 行。在步骤 320 中, 对步骤 310 中所生成的图像数据 315( 用箭头表示 ) 进行预处理。预处 理步骤 320 调节图像数据 315 以提高 OCR 结果的精度。在步骤 330 中, 对被调节的图像数 据 325( 用箭头表示 ) 执行 OCR, 从而生成被解码文本数据 。

24、335( 也用箭头表示 )。方法 300 可被认为在步骤330之后结束, 或者可替换地, 方法300可继续到达可选的后处理步骤340, 后处理步骤 340 可例如包括通过联系人管理软件对被解码文本数据 335 进行分析。 0023 现在结合图3转向图4, 图4示出了预处理步骤320的示例性实施方式的进一步细 节。如图 4 所示, 预处理步骤 320 包括在步骤 410 中将基于对象 (OB) 的滤波器应用于图像 数据 315。与一般的锐化滤波器相反, OB 滤波器以具体到对象的方式将图像数据锐化。在 本实施例中, 待成像的对象为名片中的字符。其它对象, 诸如但不限于条形码、 生物识别图 案或生。

25、物样本中的荧光微球, 也可用作目标对象。步骤 410 提供被滤波的图像数据 415。在 步骤 420 中, 对被滤波的图像数据应用自适应量化, 以产生输出数据 325( 同样见图 3)。 0024 图 5 和图 6 分别示出子步骤 410 和子步骤 420 的示例性实施方式的进一步细节。 具体地, 步骤 410 将 OB 滤波器应用于图像数据 315, 其中, OB 滤波器已经针对特定种类的待 成像对象进行了优化, 例如根据方法 500( 图 5)。步骤 420 包括对步骤 410 所产生的被滤波 图像数据 415 应用自适应块式量化, 如图 6 中进一步详细描述。 0025 图 5 中示出用。

26、于构建 OB 滤波器的示例性方法 500。方法 500 开始于步骤 510, 在 步骤 510 中识别目标对象。例如, 在这种情况下, 已知目标对象将包括存在于名片中的字母 数字字符。随后, 在步骤 520 中创建对象数据组。在名片的示例中, 步骤 520 收集数据, 该 数据包括, 例如, 通常在名片上所发现的在字体大小 ( 例如, 6pt 至 14pt)、 字体风格 ( 例如, 常规、 粗体和斜体 ) 和字体类型 ( 例如, Arial 和 Times New Roman) 的范围内的字母数字 符号。在步骤 530 中, 使用相机 ( 例如, 诸如相机 210 的网络相机或笔记本电脑相机 。

27、) 获取 一组聚焦图像 ( 即 “期望组” )。例如, 步骤 530 包括对待近聚焦的相机的焦点进行调整, 从 而可以通过 OCR 软件对期望组进行解码而无需任何预处理。应注意的是, 对相机的正常预 期使用而言, 使相机近聚焦是不现实的, 因为近聚焦的相机无法在大于 65cm 的预期用途的 共轭距离下产生高质量的图像。 应理解, 本文所涉及的相机为数码相机, 该数码相机将每个 图像设置为一帧像素, 其中每个像素由来自光学图像的数字化的光强度信息组成。数字化 的光强度信息可称为具有选自一组 “灰度等级” 的值的 “图像数据” 。虽然灰度等级通常指 说 明 书 CN 102422308 A CN 。

28、102422320 A4/7 页 8 示从黑色 ( 例如, 灰度等级为 0) 向白色 ( 例如, 灰度等级为 255, 使用 8 位精度 ) 过渡的光 强度, 但这些等级可以代表数字化颜色信息的可能性也是本文所计划的。 0026 继续参照图 5, 方法 500 前进到步骤 540, 在步骤 540 中, 用网络相机或笔记本电脑 相机在其默认焦点位置 ( 即预期用途的共轭距离, 大于 65cm) 获取对象数据组的一组散焦 图像 ( 即 “检测组” )。最终, 在步骤 550 中, 基于所需数据组和检测数据组的分析构建 OB 滤 波器。例如, 可使用约束最小二乘 ( “CLS” ) 滤波器设计技术。

29、来构建 OB 滤波器 ( 诸如 Scott E.Umbaugh 所著的 “Computer Imaging : Digital Image Analysis and Processing( 计算 机成像 : 数字图像分析与处理)” , CRC Press, Taylor and Francis Group, Boca Raton, FL, 2005 中所描述 )。所产生的 OB 滤波器在图 4 的步骤 410 中被用作基于对象的滤波器。 0027 在一个实施方式中, 例如在制造者对相机210进行最初标定的过程中, 方法500仅 执行一次。所产生的 OB 滤波器的参数随后可储存至相机 210 的。

30、非易失性存储器中以供后 续使用。 0028 现在结合图 4 参照图 6 和图 7, 示出了根据一个实施方式的步骤 420 的进一步细 节。作为一个示例, 自适应块式量化过程被应用于被滤波的图像数据 415, 以将被滤波的图 像转换为三值 (ternary)( 即三等级 ) 图像。换句话说, 用因子 对被滤波的图像进行内 插, 以实现二值超分辨率, 其中 为内插因子并通常在 1 至 3 的范围内。 可例如为使用 者设定的变量或可为预定的出厂设定。 在本文中可意识到, 虽然本实施方式基于三值量化, 但在某些应用中二值 ( 即二等级 ) 量化也能够满足需要。 0029 如图 6 所示, 自适应块式量。

31、化应用步骤 420 开始于被滤波的图像数据 415 的输入。 被滤波的图像数据415被引导至步骤610, 其中, 图像数据415被定义为一系列nm块(每 个这种块由 dnm(i, j) 表示 ), 每个 dnm(i, j) 由支持 NM 块 ( 由 DNM(i, j) 表示 ) 包围, 这两 种块均包围像素 (i, j), 其中 i 和 j 为下标变量。如图 7 所示, n 和 m 分别为包围像素 (i, j)730 的框 720 的像素高度和宽度, 而 N 和 M 分别为包围像素 (i, j) 的较大支持框 710 的 像素高度和宽度 ; 因此, N n 且 M m。尽管图 7 示出围绕像素。

32、 (i, j)730 居中的支持框 710(DNM(i, j) 和 nm 块 720(dnm(i, j), 但这种居中并不是在所有情况下都是需要和可能 的 ( 例如, 当像素 (i, j)730 足够靠近图像边缘且框 710 或框 720 将延伸经过边缘时 )。为 了使分辨率最大化, 可使 n 和 m 较小, 但较小的 n 和 m 会导致计算成本的增加, 因为必须将 被滤波的图像数据 415 划分为更多块。n 和 m 的典型值为 2 至 5。为了提高精度, 可使 N 和 M 较大, 但是较大的 N 和 M 会降低空间分辨率。N 和 M 的典型值为 15 至 30。每个块 DNM(i, j) 的。

33、特征被用于为每个块 dnm(i, j) 的自适应处理提供特定图像环境, 如现在将要描述的那 样。 0030 在步骤 610 之后进行步骤 620, 在步骤 620 中, 最小像素灰度值 minI min(DNM(i, j)且最大像素灰度值maxImax(DNM(i, j)被分别定义为NM块内的图像数据的最小和 最大像素灰度值。同样, 灰度变量 intI和 midI被分别定义为 intI (maxI-minI), midI (maxI+minI)(0.5), 以及其中总和代表 DNM(i, j) 中所有像素 (i, j) 的灰度值。为了完成步骤 620, 灰度区间 I 被定义为 I minI, 。

34、maxI。 0031 在步骤 620 之后进行步骤 630, 步骤 630 将不同的灰度阈值 d 阈值与 (maxI-minI) 进行比较。d阈值是处理对比度阈值, 处理对比度阈值用于确定块 DNM(i, j) 内的对比度是否 说 明 书 CN 102422308 A CN 102422320 A5/7 页 9 足够显著以至于在 DNM(i, j) 中还需要强化处理, 并且可例如为使用者设定的变量、 预定出 厂设定或可从被滤波的图像数据 415 确定。实际上, d阈值应大于被滤波的图像数据 415 中 的噪声, 使得数据的预处理不由噪声单独引起。例如, d阈值通常应约三倍于被滤波的图像数 据 。

35、415 中的噪声标准偏差 ( 可例如通过计算被滤波的图像数据 415 中 “空白” 部分 ( 诸如 名片图像的背景区域 ) 的标准偏差来确定 )。 0032 在决定步骤 630 中, 如果 (maxI-minI) d阈值, 则块 dnm(i, j) 对应于均匀范围。看 待该问题的一种方法是, 支持块 DNM(i, j) 中的像素值之间的对比度确定了 dnm(i, j) 的像素 是否应被单独量化, 或能够全部作为一组而被设定为高灰度值或低灰度值。如果 DNM(i, j) 具有低对比度, 则 (maxI-minI) d阈值, 故全部 dnm(i, j) 可作为一组而被简单设定为高灰度 值或低灰度值。

36、。在这种情况下, 步骤 420 进行另一决定步骤 640, 步骤 640 将 meanI与联合 灰度阈值U阈值比较, U阈值可例如为使用者设定的变量、 预定的出厂设定或可从被滤波的图像 数据 415 确定。U阈值通常表示印刷文本 ( 例如, 字母和数字 ) 的灰度值与上面印有这种文 本的背景之间的中点。例如, U 阈值可通过对被滤波的图像数据 415 的灰度值进行测绘并 且记录对应于文本和背景的灰度值的数据中的峰值 P1、 P2 来确定。在这种情况下, U阈值可 被定义为 (P1+P2)/2。 0033 决定步骤640以及取决于决定步骤640的步骤开始将输出数据分配至输出数据表 示, 输出数据。

37、表示可以与被滤波的图像数据415被输入步骤420时的原始灰度相对应, 或可 以不与之相对应。例如, 利用 “最低” 、“中间” 和 “最高” 灰度值 ( 见图 8) ; 这些值可以按照 原始灰度单位 ( 例如, 对于 8 位灰度来说为 0-255) 或可以按照不同的单位。也就是说, 在 一种情况下, 输出数据可表示为最低等级的0、 中间等级的0.5以及最高等级的1, 或在不同 情况下 ( 例如, 8 位输出 ) 表示为最低等级的 0、 中间等级的 127 以及最高等级的 255。在 下面的示例中假设 8 位输出, 但可利用其它输出数据表示也是显而易见的。输出数据表示 的选择可包括对于特定 OC。

38、R 处理的适合性 ( 例如, 考虑 OCR 处理最佳地利用何种形式的数 据 )。 0034 如果, 在决定步骤 640 中, meanI U阈值, 则 dnm(i, j) 的图像数据在步骤 642 中被 量化为最低灰度等级 ( 例如 0)。如果 meanI U阈值, 则 dnm(i, j) 的图像数据在步骤 644 中 被量化为最高灰度等级 ( 例如 255)。 0035 可替换地, 在决定步骤 630 中, 如果 (maxI-minI) d阈值, 则步骤 420 前进至步骤 650, 在步骤 650 中, 根据范围分析将块 dnm(i, j) 量化, 如图 8 中的细节所描述的那样。看待 该。

39、问题的一种方法是, 当支持块 DNM(i, j) 中有足够对比度时, 则 dnm(i, j) 的像素应单独评 估并量化。 0036 现在参照图 8, 步骤 650 开始于步骤 810, 在步骤 810 中, 区间 I 的百分比 被选 择并用 I minI, maxI 表示, 其中, 最小区间值 minI和最大区间值 maxI被定义 为 : 0037 minI midI-(intI0.5)/100, 和 0038 maxI midI-(intI0.5)/100。 0039 由于定义用于搜索最佳t*的区间I的百分比(见下文), 所以理想的为100, 然而在许多情况下, 为了降低计算成本并保持精度,。

40、 可利用 10 至 50 范围内的 值。 的 成功选择可由系统设计者通过利用具有不同图像数据 ( 例如, 在各种照明条件下从多种类 说 明 书 CN 102422308 A CN 102422320 A6/7 页 10 型和条件的名片所获取 ) 的特殊成像器所提供的图像数据来检验步骤 650 的执行而确定。 0040 继续至步骤 820, 对于区间 I的每个值而言, 两个分类可被定义为高于或低于灰 度阈值 t。也就是说, 两个分类为 0041 分类 1 ( 块 DNM(i, j) 中的值 ) t, 以及 0042 分类 2 ( 块 DNM(i, j) 中的值 ) t。 0043 表达这些分类的。

41、另一种方式为 0044 分类 1 minI, t, 0045 分类 2 t, maxI 。 0046 为了完成步骤 820, t* 被选为使量 std( 分类 1)-std( 分类 2) 的绝对值最小化 的阈值, 其中std()表示公知的标准差公式。 t*可以通过多种方式确定, 诸如通过对t的所 有可能的值 ( 已知例如 t 必须落入 I内 ) 计算类别 1、 类别 2 和 std( 分类 1)-std( 分类 2), 或通过使用搜索算法。 0047 另一变量 midWidth 被定义 ; midWidth 可例如为使用者设定的变量或可为预定的 出厂设定, 并通常位于 1至 5的动态范围内 (。

42、 例如, 在 0 至 255 的灰度系统中, 约 2 至 10 灰度单位 )。midWidth 确定 t* 周围的像素灰度值的区间宽度, t* 将被设置为三值量化 中的中灰值。midWidth 的成功选择可由系统设计者通过利用具有不同图像数据 ( 例如, 在 各种照明条件下从各种类型和条件的名片所获取 ) 的特殊成像器所提供的图像数据来检 验步骤 650 的执行而确定。步骤 830 随后定义三种不同的灰度范围 ( 假设灰度等级从 0 至 255) : 0048 灰度范围 1 : 0, t*-midWidth) 0049 灰度范围 2 : t*-midWidth, t*+midWidth 005。

43、0 灰度范围 3 : (t*+midWidth, 255。 0051 决定步骤 840 使用这三个范围来确定块 dnm(i, j) 的每个像素的灰度范围, 并且步 骤 650 根据每个上述像素的灰度值所落入的范围而前进至不同的动作。例如, 如果在步骤 840 中发现 dnm(i, j) 的像素落入范围 1 内, 则步骤 850 将该像素的值重设为最低灰度等级 ( 例如 0)。如果在步骤 840 中发现像素落入范围 3 内, 则步骤 860 将该像素的值重设为最 高灰度等级 ( 例如 255)。如果在步骤 840 中发现像素落入范围 3 内, 则步骤 870 将该像素 的值重设为中间等级 ( 例。

44、如, 在 8 位输出系统中为 127)。在步骤 850、 860 和 870 中的任何 一个之后, 步骤650前进至决定步骤880以确定是否还有dnm(i, j)中的其它像素有待处理。 如果是, 则步骤 650 返回步骤 840 以处理其它像素 ; 如果不是, 则步骤 650 完成并返回步骤 660( 图 6)。 0052 因此, 步骤 840 至 880 将块 dnm(i, j) 中的每个像素的数据量化为三个值之一 : 最 低灰度值、 中间灰度值或最高灰度值。 0053 返回参照图 6, 当步骤 650( 图 8) 完成时, 步骤 420 返回步骤 660, 在步骤 660 中, 对待分析的。

45、被滤波图像数据中是否还剩余其它 nm 块作出决定。如果决定 660 的答案为 “是” , 则步骤 420 返回步骤 610, 在步骤 610 中选择另一块。如果决定步骤 660 的答案为 “否” , 则将结果作为被调节的图像数据 325 输出至 OCR 处理。 0054 虽然本公开描述的示例涉及为后续 OCR 处理而对网络相机或笔记本电脑相机所 捕捉的图像进行的预处理, 但本领域技术人员应意识到, 本文所描述和要求的处理可应用 说 明 书 CN 102422308 A CN 102422320 A7/7 页 11 于除 OCR 之外的为了各种任务而进行的图像数据预处理。预处理算法本身不同于标准。

46、锐化 和降噪滤波器, 因为锐化滤波器是基于对象的, 并且在步骤 420 中所执行的自适应量化算 法使用局部图像数据背景的图像统计, 因此量化本身适合可变背景和 / 或字体对比度。算 法可用于其它基于任务的成像系统应用, 这些成像系统应用可受益于所捕捉图像的预处理 以提高任务性能。 例如, 上述预处理算法可并入基于任务的成像系统, 其中, 成像光学器件、 预处理和图像信号处理针对即将到来的特定任务而共同优化。 本文所描述的对这些图像的 方法的应用可因此被认为落入所公开的实施方式的范围内。 因此, 应注意, 上面的说明书中 所包含的或附图中所示出的内容应被解释为示意性而非限制性的。 说 明 书 C。

47、N 102422308 A CN 102422320 A1/8 页 12 图 1( 现有技术 ) 说 明 书 附 图 CN 102422308 A CN 102422320 A2/8 页 13 图 2 说 明 书 附 图 CN 102422308 A CN 102422320 A3/8 页 14 图 3 说 明 书 附 图 CN 102422308 A CN 102422320 A4/8 页 15 图 4 说 明 书 附 图 CN 102422308 A CN 102422320 A5/8 页 16 图 5 说 明 书 附 图 CN 102422308 A CN 102422320 A6/8 页 17 图 6 说 明 书 附 图 CN 102422308 A CN 102422320 A7/8 页 18 图 7 说 明 书 附 图 CN 102422308 A CN 102422320 A8/8 页 19 图 8 说 明 书 附 图 CN 102422308 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1