一种智能阅读器及其实现方法.pdf

摘要
申请专利号：	CN200910076391.4	申请日：	2009.01.15
公开号：	CN101493996A	公开日：	2009.07.29
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G09B5/04; G09B21/00; G06K9/20	主分类号：	G09B5/04
申请人：	北方工业大学
发明人：	付晓玲; 童立靖; 鲁远耀; 宋丽华; 王景中
地址：	100144北京市石景山区晋元庄路5号
优先权：
专利代理机构：	北京众合诚成知识产权代理有限公司	代理人：	童晓琳
PDF下载：	PDF下载

内容摘要

本发明公开了图像识别技术领域中一种智能阅读器及其实现方法。技术方案是，智能阅读器包括资料获取模块、图像处理模块、文字识别模块、语音合成模块、发音模块、存储管理模块和控制模块；智能阅读器的实现方法包括从图像传感器获取图像信息；对图像信息进行预处理；采用软件OCR进行文字识别；图像反置判断；图像反置报警提示，重新放置文字资料，并重新识别；图像没有反置，将图像信息中的文字转化成txt文件并输出至语音合成模块；采用语音合成软件TTS，对OCR识别后的文字进行语音输出。本发明能够准确、快速、方便地将获取的文本图像信息转化成语音信息。

权利要求书

1、  一种智能阅读器，其特征是所述阅读器包括资料获取模块、图像处理模块、文字识别模块、语音合成模块、发音模块、存储管理模块和控制模块；其中，所述控制模块分别与资料获取模块和发音模块相连，分别对图像的获取和文字的发音进行控制；存储管理模块分别与资料获取模块、图像处理模块、文字识别模块、语音合成模块相连，用于临时存储图像文字处理过程中产生的临时信息；资料获取模块、图像处理模块、文字识别模块、语音合成模块、发音模块顺序相连，实现图像文字到语音文字的转化。

2、  根据权利要求1所述的一种智能阅读器，其特征是所述资料获取模块安装有图像传感器，采用拍摄输入方式获取图像信息。

3、  根据权利要求1所述的一种智能阅读器，其特征是所述图像处理模块包含有版面校正模块和版面分析模块；其中，版面校正模块用于对采用拍摄输入方式获取图像时，产生的透视变形与扭曲变形进行校正；版面分析模块用于将图像中的文字与图像中的图形和表格分离开来。

4、  根据权利要求1所述的一种智能阅读器，其特征是所述控制模块安装有控制键盘，控制键盘上安装有10个功能按键，分别是“●”、“‖”、“+/-”、“～”、“↑”、“↓”、“⊙”、“■”、“◇”；每个功能键上都带有盲文，便于盲人触摸识别。

5、  一种如权利要求1所述的智能阅读器的实现方法，其特征是所述方法包括系列步骤：
步骤1：启动智能阅读器，通过驱动软件，从图像传感器获取图像信息；
步骤2：对获取的图像信息进行预处理；
步骤3：采用字符识别软件OCR，对处理后图像信息中的文字进行识别；
步骤4：判断图像是否反置；
步骤5：如果图像反置，则发出报警声提示用户重新放置文字资料，并重新识别；
步骤6：如果图像没有反置，则将图像信息中的文字转化成txt文件并输出至语音合成模块；
步骤7：采用语音合成软件TTS，对OCR识别后的文字进行语音输出。

6、  根据权利要求5所述的一种智能阅读器的实现方法，其特征是所述步骤2还包括下列步骤：
步骤21：采用嵌入式图像二值化算法对图像进行二值化处理，获取图像中的文字信息；
步骤22：采用倾斜校正、桶形失真校正、扭曲变形校正算法对图像中的文字进行畸变校正；
步骤23：采用自顶向下方法或自底向上方法或混合型方法进行版面分析，使得图像中的图形、表格、文字分离开来。

说明书

一种智能阅读器及其实现方法
技术领域
本发明属于图像识别技术领域，尤其涉及一种智能阅读器及其实现方法。
背景技术
人类获取信息的方式有多种，包括文字、图像、语音等。然而，对于盲人、弱视群体、老年人、文盲与半文盲等人群，通过文字获取信息十分困难。如果能够有一种携带方便，使用简单的智能阅读器，将上述人群看到的文字转化成语音播放出来，则可以为上述人群的日常生活提供极大的便利。
发明内容
本发明针对盲人、弱视群体、老年人、文盲与半文盲等群体阅读文字信息不便的问题，提出一种智能阅读器及其实现方法，用于解决上述群体在日常生活中获取文字信息不便的问题。
本发明的技术方案是，一种智能阅读器，其特征是所述阅读器包括资料获取模块、图像处理模块、文字识别模块、语音合成模块、发音模块、存储管理模块和控制模块；其中，所述控制模块分别与资料获取模块和发音模块相连，分别对图像的获取和文字的发音进行控制；存储管理模块分别与资料获取模块、图像处理模块、文字识别模块、语音合成模块相连，用于临时存储图像文字处理过程中产生的临时信息；资料获取模块、图像处理模块、文字识别模块、语音合成模块、发音模块顺序相连，实现图像文字到语音文字的转化。
所述资料获取模块安装有图像传感器，采用拍摄输入方式获取图像信息。
所述图像处理模块包含有版面校正模块和版面分析模块；其中，版面校正模块用于对采用拍摄输入方式获取图像时，产生的透视变形与扭曲变形进行校正；版面分析模块用于将图像中的文字与图像中的图形和表格分离开来。
所述控制模块安装有控制键盘，控制键盘上安装有10个功能按键，分别是“●”、“”、“‖”、“+/-”、“～”、“↑”、“↓”、“⊙”、“■”、“◇”；每个功能键上都带有盲文，便于盲人触摸识别。
一种智能阅读器的实现方法，其特征是所述方法包括系列步骤：
步骤1：启动智能阅读器，通过驱动软件，从图像传感器获取图像信息；
步骤2：对获取的图像信息进行预处理；
步骤3：采用字符识别软件OCR，对处理后图像信息中的文字进行识别；
步骤4：判断图像是否反置；
步骤5：如果图像反置，则发出报警声提示用户重新放置文字资料，并重新识别；
步骤6：如果图像没有反置，则将图像信息中的文字转化成txt文件并输出至语音合成模块；
步骤7：采用语音合成软件TTS，对OCR识别后的文字进行语音输出。
所述步骤2还包括下列步骤：
步骤21：采用嵌入式图像二值化算法对图像进行二值化处理，获取图像中的文字信息；
步骤22：采用倾斜校正、桶形失真校正、扭曲变形校正算法对图像中的文字进行畸变校正；
步骤23：采用自顶向下方法或自底向上方法或混合型方法进行版面分析，使得图像中的图形、表格、文字分离开来。
本发明的效果在于，通过本发明，盲人、弱视群体、老年人、文盲与半文盲等群体在不需要外界帮助的情况下，能够准确、快速、方便地获取文字信息。
附图说明
图1是本发明提供的一种智能阅读器的结构图。
图2是本发明提供的一种智能阅读器的实现方法的流程图。
具体实施方式
下面结合附图，对优选实施例作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。
图1是本发明提供的一种智能阅读器的结构图。图1中，本发明提供的智能阅读器包括资料获取模块、图像处理模块、文字识别模块、语音合成模块、发音模块、存储管理模块和控制模块；其中，所述控制模块分别与资料获取模块和发音模块相连，分别对图像的获取和文字的发音进行控制；存储管理模块分别与资料获取模块、图像处理模块、文字识别模块、语音合成模块相连，用于临时存储图像文字处理过程中产生的临时信息；资料获取模块、图像处理模块、文字识别模块、语音合成模块、发音模块顺序相连，实现图像文字到语音文字的转化。
各模块具体功能描述如下：
资料获取模块：资料获取采用拍照方式获得纸质资料上的数据信息，主要功能是实现光电转换，将获得纸质文字资料的图像信息进行存储，并调用图像处理模块进行下一步处理。资料获取模块安装有图像传感器，进行图像采集，并把采集的数据传回设备。图像传感器可以使用摄像头、工业相机，数码相机、摄像机等图像采集设备。
图像处理模块：对获取的用户图片资料进行处理和转化，采用成熟的图像处理技术对包含文字的图片进行分割获取纸质资料上的数据信息并存储，然后将结果送入文字识别模块。图像处理模块包含有版面校正模块和版面分析模块；其中，版面校正模块用于对采用拍摄输入方式获取图像时，产生的透视变形与扭曲变形进行校正；版面分析模块用于将图像中的文字与图像中的图形和表格分离开来。
文字识别模块：采用OCR的识别软件，将经过处理的图像内容进行字符识别处理，并将识别后的结果进行智能判断其整体行文有意义的程度，并根据判断结果，决定输出文字资料至语音合成模块，或进行图像旋转处理并重新识别，如果出现用户反置情况发报警声提示用户重新放置文字资料。
语音合成模块：语音合成模块采用语音合成模块TTS，对送入的文本数据进行处理将其转化为语音信号，传给发音模块。同时根据用户的控制做到实时响应使用者的阅读控制命令。
发音模块：发音模块包括变声变调模块和扬声器，主要功能是将语音合成单元传送过来的语音信息进行声音处理并输出。
存储单元：存储模块的主要功能是缓存系统操作过程中的图像数据信息和文本数据信息，并要具有一定的缓存管理功能。
控制模块：控制模块主要功能是响应使用者的控制命令。由于设计目标为“一键式”阅读器，所以从获取文本信息开始到发音为默认自动系统设置，增设功能控制键盘。控制键盘上安装有10个功能按键，分别是“●”、“”“‖”、“+/-”、“～”、“↑”、“↓”、“⊙”、“■”、“◇”；每个功能键上都带有盲文，便于盲人触摸识别。控制键盘上个键盘的功能描述如下表1：

(表1：键盘功能描述表)
本发明还提供了一种基于上述智能阅读器的实现方法。图2是本发明提供的一种智能阅读器的实现方法的流程图。图2中，步骤1：启动智能阅读器，通过驱动软件，从图像传感器获取图像信息。驱动软件是嵌入本智能阅读器的一个软件，它的作用是把智能阅读器的指令传达给图像传感器硬件。
步骤2：对获取的图像信息进行预处理，其中包括三个过程：
(1)采用嵌入式图像二值化算法对图像进行二值化处理，获取图像中的文字信息。
(2)采用倾斜校正、桶形失真校正、扭曲变形校正算法对图像中的文字进行畸变校正。
(3)采用自顶向下方法或自底向上方法或混合型方法进行版面分析，使得图像中的图形、表格、文字分离开来。自顶向下的方法是从整个图像入手，重视全局图像信息，将整篇文本图像划分为若干区域，再根据文本图像的层次化结构信息，将主区域继续划分。自底向上方法是从图像细节入手，重视局部图像信息，将图像小区域逐步合并成较大区域，因此它是一个合并过程。由于重视图像细节，使得这类方法适合特别复杂的版面，混合型方法是融合上述两种方法，或者以其他技术手段为依托的版面分析方法。
步骤3：文字识别模块中，采用字符识别软件OCR，对处理后图像信息中的文字进行识别。经过上一步骤图像信息进行预处理后，已经将文字信息整理出来，利用OCR软件，可以快速将文字信息形成体txt文件。
步骤4：判断图像是否反置。
步骤5：如果图像反置，则发出报警声提示用户重新放置文字资料，并重新识别。
步骤6：如果图像没有反置，则将图像信息中的文字转化成txt文件并输出至语音合成模块。
步骤7：采用语音合成软件TTS，对OCR识别后的文字进行语音输出。
本发明提供的智能阅读器采用微处理器作为中央处理单元，微处理器可以是CPU、DSP等器件；在进行图像到文字的转化时，利用嵌入在智能阅读器中的软件实现，软件具有升级能力，因此本发明的智能阅读器具有很大的灵活性。另外，控制键盘上安装的按键都有盲文，这位盲人使用提供了便利。
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。