《图像翻译系统及图像翻译方法.pdf》由会员分享,可在线阅读,更多相关《图像翻译系统及图像翻译方法.pdf(11页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103699527 A (43)申请公布日 2014.04.02 CN 103699527 A (21)申请号 201310707608.3 (22)申请日 2013.12.20 G06F 17/28(2006.01) G06K 9/20(2006.01) (71)申请人 上海合合信息科技发展有限公司 地址 200433 上海市杨浦区国定路 335 号 3 号楼 7 楼 B 区 (72)发明人 丁凯 (54) 发明名称 图像翻译系统及图像翻译方法 (57) 摘要 本发明公开了一种图像翻译系统及图像翻译 方法。首先通过文字识别技术对文本图像中的文 字进行识别, 然后再利。
2、用语言检测技术对识别出 的文字进行语言检测, 紧接着再利用地理信息等 辅助信息进一步优化语言检测的结果从而确定文 本图像的源语言。最后再通过机器翻译技术将文 本翻译成目标语言。 而整个过程中, 用户仅仅需要 将文本图像输入到系统中, 即可以得到最终的翻 译结果和文本图像本身的源语言信息。 (51)Int.Cl. 权利要求书 1 页 说明书 7 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书7页 附图2页 (10)申请公布号 CN 103699527 A CN 103699527 A 1/1 页 2 1. 一种图像翻译系统, 其特征在于, 包。
3、括 : 图像获取模块, 获取包含待翻译内容的图像 ; 文字识别模块, 对待翻译内容进行文字识别 ; 定位模块, 确定图像翻译系统所在的位置 ; 语言识别模块, 根据所述定位模块所确定的图像翻译系统所在的位置信息, 对待翻译 内容的源语言进行识别 ; 翻译模块, 将待翻译的内容由源语言翻译成目标语言。 2. 根据权利要求 1 所述的图像翻译系统, 其特征在于, 所述图像翻译系统基于移动数 据通信终端平台。 3. 根据权利要求 1 所述的图像翻译系统, 其特征在于, 所述图像获取模块包括摄像头 或者扫描设备, 对包含待翻译内容进行拍照或扫描以获取包含翻译内容的图像。 4. 一种采用如权利要求 1-。
4、3 中任意一项所述的图像翻译系统实现的图像翻译方法, 其 特征在于, 包括以下步骤 : 第一步, 获取包含待翻译内容的图像 ; 第二步, 对待翻译内容的源语言以及待翻译内容的文字进行识别, 根据所述图像翻译 系统所在的位置信息, 以该位置的常用语言作为待翻译内容的源语言或者源语言的优先选 择语言 ; 第三步, 将待翻译的内容由源语言翻译成目标语言。 5. 根据权利要求 4 所述的图像翻译方法, 其特征在于, 所述第一步中采用对待翻译内 容进行拍摄的方式获取包含待翻译内容的图像。 6. 根据权利要求 4 所述的图像翻译方法, 其特征在于, 所述第一步之后, 对待翻译内容 在所获取的图像中进行选定。
5、, 之后第二步中对图像中选中部分内容进行文字识别。 7. 根据权利要求 4 所述的图像翻译方法, 其特征在于, 所述第二步中, 先对待翻译内容 的文字进行识别, 根据文字识别结果识别待翻译内容的源语言, 如果源语言的识别结果为 多个, 再根据所述图像翻译系统所在的位置信息, 如果该位置的常用语言在多个识别结果 之中, 则将该常用语言作为待翻译内容的源语言或者源语言的优先选择语言。 8. 根据权利要求 4 所述的图像翻译方法, 其特征在于, 所述第二步中, 根据所述图像翻 译系统所在的位置信息, 确定该位置的常用语言, 如果该位置的常用语言为多个, 再根据对 待翻译内容的文字识别的结果在该多个常。
6、用语言中识别待翻译内容的源语言或者源语言 的优先选择语言。 9. 根据权利要求 4-8 中任意一项所述的图像翻译方法, 其特征在于, 如果所述源语言 或者源语言的优先选择语言为多个, 在多个源语言或者源语言的优先选择语言之中包含有 用户在以前选择过的源语言, 则将该选择过的源语言作为待翻译内容的源语言或者源语言 的优先选择语言。 10.根据权利要求9所述的图像翻译方法, 其特征在于, 如果存在多个以前选择过的源语 言, 则将以前选择次数最多的源语言作为待翻译内容的源语言或者源语言的优先选择语言。 11. 根据权利要求 9 所述的图像翻译方法, 其特征在于, 如果存在多个以前选择过的源 语言, 。
7、则将以前翻译内容最多的源语言作为待翻译内容的源语言或者源语言的优先选择语 言。 权 利 要 求 书 CN 103699527 A 2 1/7 页 3 图像翻译系统及图像翻译方法 技术领域 0001 本发明涉及一种翻译系统, 尤其是一种图像翻译系统。本发明还涉及一种图像翻 译方法。 背景技术 0002 随着电脑的普及, 翻译工作已经越来越多的由电脑取代人工来完成。虽然翻译结 果目前还不能称为完美, 但是翻译质量已经在明显的逐步提高。 0003 最为传统的机器翻译方法需要用户以文本输入待翻译的内容, 之后用户可设定将 该部分内容由哪种源语言翻译成哪种目标语言, 然后电脑根据用户的设定对待翻译的文本。
8、 进行翻译并显示翻译结果。 0004 近来, 随着智能手机的普及以及文字识别技术的提高, 已经有人发明了更加便捷 的及其翻译方法, 如公开号为 CN101339617A 的中国发明专利公开文本中, 公开了拍照后对 拍照内容进行文字识别, 然后进行翻译的技术方案。 0005 现有主流的文字识别技术提供商已经能做到对全球 50 多种语言的文字识别率做 到 95% 以上, 对于一些主要语言, 如中文, 英文, 法文, 德文等, 文字识别率可以做到 98% 以 上。 0006 随着全球化的不断深入, 出国旅游和接触外文文档已经越来越普遍, 因此对文本 翻译的需求也越来越强烈。目前的文本翻译系统主要是基。
9、于两种方式, 一种是需要用户手 动输入文字进行翻译, 另外一种就是通过利用智能手机, 平板电脑等带摄像头的设备对文 字进行拍照形成文本图像, 然后再对文本图像进行识别和翻译。 显然, 依赖用户手动输入文 本的方式由于其繁琐的输入方式已经越来越不能满足用户的需求了。另外一方面, 目前的 基于文本图像的文字识别和翻译系统有一个非常明显的缺点就是需要用户手动的选择文 本图像本身的源语言。如果用户需要翻译不同语言的文本图像, 就需要不断的对文本图像 源语言进行切换, 这种操作会是非常繁琐和不便的。 更甚至于, 如果用户不知道文本图像本 身的源语言, 那么翻译系统就没法工作了。 发明内容 0007 本发。
10、明所要解决的技术问题是提供一种图像翻译系统, 以及采用这种图像翻译系 统实现的图像翻译方法, 使得用户可以以一种更加便捷自然的交互方式获取文本图像的翻 译结果, 避免频繁的切换文本图像源语言的繁琐操作, 同时也避免当无法获知文本图像源 语言时, 无法进行翻译的情况, 大大提升基于文本图像的翻译系统的用户体验。 0008 为解决上述技术问题, 本发明图像翻译系统的技术方案是, 包括 : 图像获取模块, 获取包含待翻译内容的图像 ; 文字识别模块, 对待翻译内容进行文字识别 ; 定位模块, 确定图像翻译系统所在的位置 ; 语言识别模块, 根据所述定位模块所确定的图像翻译系统所在的位置信息, 对待翻。
11、译 说 明 书 CN 103699527 A 3 2/7 页 4 内容的源语言进行识别 ; 翻译模块, 将待翻译的内容由源语言翻译成目标语言。 0009 本发明还公开了一种采用上述图像翻译系统实现的图像翻译方法, 其技术方案 是, 包括以下步骤 : 第一步, 获取包含待翻译内容的图像 ; 第二步, 对待翻译内容的源语言以及待翻译内容的文字进行识别, 根据所述图像翻译 系统所在的位置信息, 以该位置的常用语言作为待翻译内容的源语言或者源语言的优先选 择语言 ; 第三步, 将待翻译的内容由源语言翻译成目标语言。 0010 本发明通过将文字识别技术与自动语言检测技术相结合, 对文本图像的语言类型 进。
12、行自动检测, 从而实现了一种无需设定源语言的文本图像的自动翻译系统, 一方面简化 了操作流程, 使得操作更加便捷和自然, 另一方面在需要对多种不同语言的文本图像进行 翻译时候, 可以避免繁琐的不断切换文本图像的源语言就是的操作。与此同时也解决了如 果用户错误的选择了文本图像的源语言或者根本不清楚文本图像的源语言就会造成翻译 错误或者无法翻译的问题, 极大的方便了用户。 附图说明 0011 下面结合附图和实施例对本发明作进一步详细的说明 : 图 1 为本发明图像翻译系统的示意图 ; 图 2 为本发明一个实施例的流程图。 具体实施方式 0012 本发明公开了一种图像翻译系统, 包括 : 图像获取模。
13、块, 获取包含待翻译内容的图像 ; 文字识别模块, 对待翻译内容进行文字识别 ; 定位模块, 确定图像翻译系统所在的位置 ; 语言识别模块, 根据所述定位模块所确定的图像翻译系统所在的位置信息, 对待翻译 内容的源语言进行识别 ; 翻译模块, 将待翻译的内容由源语言翻译成目标语言。 0013 所述图像翻译系统基于移动数据通信终端平台, 如图 1 所示, 例如基于计算机系 统的手机, 尤其是智能手机, 还有平板电脑等。 0014 所述图像获取模块包括摄像头或者扫描设备, 对包含待翻译内容进行拍照或扫描 以获取包含翻译内容的图像。 0015 本发明还公开了一种采用上述图像翻译系统实现的图像翻译方法。
14、, 包括以下步 骤 : 第一步, 获取包含待翻译内容的图像 ; 第二步, 对待翻译内容的源语言以及待翻译内容的文字进行识别, 根据所述图像翻译 系统所在的位置信息, 以该位置的常用语言作为待翻译内容的源语言或者源语言的优先选 择语言 ; 用户可以对包括源语言的优先选择语言的多个语言进行选择, 以确认最终选定的 说 明 书 CN 103699527 A 4 3/7 页 5 源语言 ; 所述常用语言可以是该地方的官方语言, 也可以是该地方被普遍使用的其它语言。 0016 第三步, 将待翻译的内容由源语言翻译成目标语言。 0017 所述第一步中采用对待翻译内容进行拍摄的方式获取包含待翻译内容的图像。。
15、 0018 所述第一步之后, 对待翻译内容在所获取的图像中进行选定, 之后第二步中对图 像中选中部分内容进行文字识别。 0019 所述第二步中, 所述第二步中, 先对待翻译内容的文字进行识别, 根据文字识别结 果识别待翻译内容的源语言, 如果源语言的识别结果为多个, 再根据所述图像翻译系统所 在的位置信息, 如果该位置的常用语言在多个识别结果之中, 则将该常用语言作为待翻译 内容的源语言或者源语言的优先选择语言。 例如, 对于不同语言的相同单词, 仅仅是文字识 别无法判定其具体是哪个语言。而本实施例中根据图像翻译系统所在的位置信息, 就可以 判定或优先判定该单词更可能是哪个语言, 毕竟用户在某。
16、地接触该地的常用语言的概率更 大。 0020 或者, 所述第二步中, 根据所述图像翻译系统所在的位置信息, 确定该位置的常用 语言, 如果该位置的常用语言为多个, 再根据对待翻译内容的文字识别的结果在该多个常 用语言中识别待翻译内容的源语言或者源语言的优先选择语言。 有的地方会有多种常用语 言, 因此仅凭地理位置判断语言可能会有多个结果。在采用地理位置判断该地的常用语言 之后, 还可根据文字识别结果在多个常用语言的范围之内做出选择。例如, 在香港, 中文和 英文都是当地的常用语言, 在本实施例中的图像翻译系统识别到地理位置信息显示香港之 后, 确定语言的选择范围可能在中文和英文之中而可能不包括。
17、日文、 韩文、 法文、 德文等语 言, 再根据文字识别的结果具体是中文字符还是英文字符, 来确定待翻译内容的源语言或 者源语言的优先选择语言, 从而大大提高了语言识别的准确率。 0021 如果所述源语言或者源语言的优先选择语言为多个, 在多个源语言或者源语言的 优先选择语言之中包含有用户在以前选择过的源语言, 则将该选择过的源语言作为待翻译 内容的源语言或者源语言的优先选择语言。 0022 如果存在多个以前选择过的源语言, 则将以前选择次数最多的源语言作为待翻译 内容的源语言或者源语言的优先选择语言。 0023 或者, 如果存在多个以前选择过的源语言, 则将以前翻译内容最多的源语言作为 待翻译。
18、内容的源语言或者源语言的优先选择语言。 0024 如果是作为待翻译内容的源语言, 则系统可直接对这些内容进行翻译 ; 如果是作 为源语言的优先选择语言, 还需要经过用户的选择进行最终的确认。 在用户的选择过程中, 会提示用户该优先选择源语言的内容, 以便于用户的选择。 0025 全球化的浪潮正在席卷世界的每一个角落, 几乎所有的国家的人民都获得了比以 前多得多的出国的机会, 而接触到外国人和外文文档几乎是一件非常稀松平常的事情。然 而由于语言和文字的隔阂, 对很多人来说完全无障碍的阅读外文文字还是一件比较困难的 事情。因此一种基于文本图像的翻译系统有着非常广泛的应用前景。 0026 但是, 目。
19、前商用的基于文本图像的翻译系统均不够智能化, 需要人手动的选择文 本图像的源语言。当需要对多种不同语言的文本图像进行翻译时, 不断切换文本图像的源 语言是一种非常繁琐的操作。更有甚者, 如果用户错误的选择了文本图像的源语言或者根 本不清楚文本图像的源语言, 就会造成翻译错误或者无法翻译的情况。 说 明 书 CN 103699527 A 5 4/7 页 6 0027 因此, 通过本发明提供的技术方案, 省去了用户手动输入文本图像源语言的步骤, 使得整个系统更加智能, 用户的操作也更加便捷和自然。 与此同时, 也可以解决用户误输入 或者不知道文本图像源语言的情况下, 导致翻译错误或者无法翻译的问题。
20、。 0028 本发明可以有效的提升用户获取外文信息的效率, 有利于与其他国家的人进行更 便捷的交流, 从而进一步对多个国民经济行业以及加快融入全球化带来显著的信息流动和 价值提升, 具有巨大的潜在价值和影响。 0029 图 2 所示为本发明的一个实施例, 如图 2 所示 : 步骤 101 : 用户选择需要翻译的目标语言。 0030 步骤 102 : 用户利用手机摄像头拍摄文本, 获取文本图像 步骤 103 : 用户手动选择需要翻译的文本在文本图像中的区域。该文本可以是整幅文 本图像中的某一个或几个特定的单词, 也可以是特定的一句话, 或者是一个文本块乃至整 个文本图像。 0031 所述步骤 1。
21、01 至步骤 103 只是一个常用的获取所需的文本图像的人机交互技术, 已经广泛的应用于各种手机软件中, 在此不作赘述。 0032 步骤 201 : 接受来自用户输入模块中用户选定的需要翻译的文本区域图像。 0033 步骤 202 : 利用文字识别技术对文本区域内的文字图像进行识别, 获取识别后的 文字。 0034 步骤 203 : 根据文字识别技术得到的识别结果, 判断识别结果是否可信。如可信, 进入步骤 204。如果不可信, 返回 “无法识别, 请重新拍摄” 的信息。 0035 步骤 204 : 利用语言自动检测技术对识别出来的文字的语言进行自动检测, 获取 该文字可能的语言类型列表, 以。
22、及每种语言对应的置信度。如果自动语言检测的结果只有 一种确定的语言, 则进入文本翻译模块中的步骤401。 如果语言自动检测的结果存在多种可 能的语言候选, 则进入辅助信息获取及语言检测优化模块中的步骤 301。 0036 所述步骤 202 和步骤 203 均涉及到文字识别相关的技术。步骤 202 是利用文字识 别技术对文本区域内的文字图像进行识别, 获取识别后的文字和识别结果的置信度。而步 骤 203 则是根据步骤 202 得到的识别后的文字及置信度来判断识别结果是否可信。如果识 别结果很可信, 进入步骤 204。如果不可信, 返回 “无法识别, 请重新拍摄” 的信息。一般而 言, 这文本图像。
23、中的文字识别对整个系统至关重要, 需要非常高的识别率。另外, 由于并不 清楚文本的语言, 因此, 该文字识别技术需要在不知道文字语言的情况下, 将文字正确的识 别出来, 并且给出识别结果的置信度。这两个步骤涉及到的文字识别相关的技术均已经比 较成熟, 已经在很多产品和解决方案中商用。 0037 所述步骤 204 是利用语言自动检测技术对通过步骤 202 和步骤 203 得到的识别出 来的文字进行语言自动检测, 获取该文字可能的语言类型。由于用户选择的文字区域中的 文字的形式是多样的, 可能是仅仅是一个或者若干个单词, 也可能是一个句子, 甚至有可能 是一个文本块或者整个文本图像。因此语言检测的。
24、结果可能会出现如下两种情况 : 情况 1 : 语言自动检测技术的输出结果仅仅有一种确定的语言。这种情况一般出现在 用户选择的是一个文本块或者整个文本图像的情况。 在这种情况下, 由于文字信息较多, 可 以很准确的检测出文本图像的语言。当确定了文本图像的源语言后, 转到步骤 401。 0038 情况 2 : 语言自动检测技术按照置信度的大小输出了若干个可能的语言候选。这 说 明 书 CN 103699527 A 6 5/7 页 7 种情况一般出现在用户选择的仅仅是一个或者若干个单词的情况。由于在西文中, 存在很 多单词在多种不同的语言中均是合法的现象, 例如单词 devoir 既属于英语也属于法。
25、语。另 外一方面, 在日文和韩文文本中也会有中文字符的出现。因此仅仅只有一个或者若干个单 词信息, 语言检测技术很可能会得到若干个可能的语言候选。在这种情况下, 则转入步骤 301, 利用其他辅助信息对语言检测的结果进行优化。 0039 步骤 301 : 通过智能手机系统中与地理位置相关的 API(如 GPS, 蜂窝网信号, WIFI 等) 获取用户所在的位置信息, 精确到国家和城市即可。 0040 步骤 302 : 检查是否可以获得步骤 406 中用户反馈数据库中的数据, 如果用户反馈 数据库尚未创建或者无法获取信息, 则转到步骤 303。否则记录用户的反馈信息。 0041 步骤 303 :。
26、 根据步骤 204 中获取的文字的源语言类型极其置信度信息, 并结合步骤 301 和步骤 302 中的信息, 对检测到的文字语言类型的结果进行优化, 输出最终检测到的文 本图像的源语言类型。 0042 所述步骤 301 是指通过只能手机系统中的一些获取地理位置的 API, 来获取用户 的当前位置, 只需要精确到国家和省 (州) 即可。在目前常见的智能手机系统中, 获取位置 信息已经是一项非常成熟的技术, 广泛的应用于各种不同的软件中。 因此, 在这里就不详述 其技术原理。另外, 由于位置信息仅仅需要精确到国家和省 (州) 即可, 因此也不存在侵犯和 泄露用户隐私的问题。另外, 如果用户有特别需。
27、要, 例如在欧洲的一些袖珍国家, 整个国家 的面积可能也不及其它国家的一个省 (州) 大, 因此也可以使得手机定位更加精确, 从而获 取准确的当地语言。 0043 所述步骤 302 是获取步骤 406 生成的用户反馈数据库中的数据。步骤 406 中生成 的用户反馈数据库中主要记录了用户在之前使用该系统的的操作过程。通过该数据库, 系 统可以获取用户之前使用该系统时, 每一次翻译的时间, 内容以及文本的源语言。 0044 所述步骤 303 是利用步骤 204, 301 和 302 中所获得的信息, 对文本图像的语言检 测的结果进行优化。步骤 204 可以获得文本图像可能的源语言以及每种可能语言对。
28、应的置 信度。而步骤 301 可以获取用户当前的位置, 步骤 302 可以获取用户之前的翻译内容。利 用这些信息, 可以对检测到的当前文本图像的语言进行优化。具体方法如下 : 假设, 用户所在国家和省 (州) 使用的语言集为 A, 从用户反馈数据库中获知的用户在某 一个时间段 (例如当前时间之前 6 小时) 内翻译的文本图像的语言集为 B。注意, 由于某一 个地方的常用语言可能有多重, 因此语言集 A 中可能包含了多种语言。同样的道理, 用户可 能之前翻译了多种语言的文本, 也可能在该时间段内没有使用系统做任何翻译, 因此语言 集 B 可能存在多种语言, 也可能不存在任何语言。同时步骤 204。
29、 通过自动语言检测技术获 得的当前文本图像可能的语言类型集 C。注意, 语言 C 中至少包含一种语言, 也可能包含多 种语言。假设语言集 d 为语言集 A,B,C 的交集, 注意如果不存在任何一种语言同时存在于 语言集 A,B,C 中, 那么语言集 d 为空集。后面的定义类似。假设语言集 e 为语言集 A 与语 言集 C 的交集, 假设语言集 f 为语言集 B 与 C 的交集, 语言集 g 为语言集 A 与 B 的交集, 则 文本图像的语言优化策略如下 : 规则 1) 如果语言集 d 不为空集, 且仅有一种语言, 那么将该语言确定为当前文本图像 的语言类型, 转到步骤 401。 0045 规则。
30、 2) 如果语言集 d 不为空集, 且存在多种语言, 那么将语言集 d 中的语言作为 说 明 书 CN 103699527 A 7 6/7 页 8 候选语言。由于语言集 d 中的语言必然存在于语言集 C 中, 因此接着查找这些候选语言在 语言集 C 中对应的置信度, 取置信度最高的语言确定为当前文本图像的语言类型, 转到步 骤 401。 0046 规则 3) 如果语言集 d 为空集, 且语言集 e 不为空集。如果语言集 e 中仅有一种语 言, 则将该语言确定为当前文本图像的语言类型, 转到步骤 401。 0047 规则 4) 如果语言集 d 为空集, 且语言集 e 不为空集。如果语言集 e 中。
31、存在多种 语言, 那么将语言集 e 中的语言作为候选语言。由于语言集 e 中的语言必然存在于语言集 C 中, 因此接着查找这些候选语言在语言集 C 中对应的置信度, 取置信度最高的语言确定为 当前文本图像的语言类型, 转到步骤 401。 0048 规则 5) 如果语言集 d 与语言集 e 均为空集, 语言集 f 不为空集, 且语言集 f 中仅 有一种语言, 则将该语言确定为当前文本图像的语言类型, 转到步骤 401。 0049 规则 6) 如果语言集 d 与语言集 e 均为空集, 语言集 f 不为空集, 且语言集 f 中存 在多种语言, 那么将语言集 f 中的语言作为候选语言。由于语言集 f 。
32、中的语言必然存在于 语言集C中, 因此接着查找这些候选语言在语言集C中对应的置信度, 取置信度最高的语言 确定为当前文本图像的语言类型, 转到步骤 401。 0050 规则 7) 如果语言集 d,e,f 均为空集, 语言集 g 不为空集, 且语言集 g 中仅有一种 语言, 则将该语言确定为当前文本图像的语言类型, 转到步骤 401。 0051 规则 8) 如果语言集 d,e,f 均为空集, 语言集 g 不为空集, 且语言集 g 中存在多种 语言, 那么将语言集 g 中的语言作为候选语言。接着利用用户之前的翻译记录, 查找候选语 言中, 翻译内容最多的语言确定为当前文本图像的语言类型, 转到步骤。
33、 401。 0052 规则 9) 如果语言集 d,e,f, g 均为空集, 则直接将步骤 204 检测到的多种可能的语 言以及每种语言的置信度均记录下来, 转入步骤 401。 0053 步骤 401 : 接收来自前面两个模块中获取的文本图像的文字信息和检测到的语言 类型信息 步骤 402 : 根据机器翻译技术和自动检测出来的语言类型将文本图像中的文字信息翻 译成目标语言。 0054 步骤 403: 针对检测出多种可能的源语言类型, 对相同的翻译结果进行整合。 0055 步骤 404 : 在手机界面上展示翻译结果和自动检测到的文本图像的语言类型 步骤 405 : 用户对展示的翻译结果进行确认和修。
34、改 步骤 406 : 记录用户的确认和修改操作的时间和操作内容, 创建和更新用户反馈数据 库。 0056 步骤 407 : 结束 所述步骤401和步骤402是利用机器翻译技术对识别得到的文字和检测到的文本图像 的语言信息进行处理, 得到最终的翻译文本。由于自动语言检测和辅助信息优化后得到的 文本图像的语言类型可能只有一种, 也可能存在多种可能的语言。因此这一步需要分以下 两种情况来处理 : 情况 1: 当自动检测出来的源语言类型仅有一种, 则可以直接通过机器学习技术将识 别出的文字从源语言翻译成需要的目标语言, 然后进入步骤 404 ; 情况 2: 如果自动检测出文本图像的源语言类型存在多种,。
35、 则根据不同的源语言类型, 说 明 书 CN 103699527 A 8 7/7 页 9 进行识别出来的文本进行多次翻译, 并记录每一种翻译及其对应的源语言的类型, 进入步 骤 403。 0057 所述步骤 403 是指当由于检测出多种可能的源语言类型而导致的翻译结果存在 多种时, 对相同的翻译结果进行整合。 虽然有些单词或者文字可能在多种语言中均合法, 但 是将其翻译成某种特定的目标语言后, 其含义是一样的。例如西文中的 “social” 一词, 它 既是英语单词, 同时也是西班牙语单词, 但是无论将其当作哪种语言, 其翻译成中文后的意 思是一样的, 都是 “社会的” 的意思。因此会出现多种。
36、翻译结果中, 语言类型不同, 但是其翻 译内容是一致的情况。 对于这种情况, 系统将相同的翻译结果进行整合, 即根据检测到的语 言类型的置信度, 选择置信度最高的检测语言作为检测到的语言类型, 同时将多种相同的 翻译结果整合成一种。 0058 所述步骤 404 是系统将翻译的结果和检测出来的文本图像的语言类型展示到手 机屏幕上。如果翻译结果只有一个, 则直接在手机屏幕上展示翻译结果和检测到的文本图 像的语言类型。如果翻译结果含有多个, 则将多种翻译结果均显示到手机屏幕上供用户选 择, 显示的顺序是根据翻译结果的置信度进行降序排序得到的。 0059 所述步骤 405 是用户对展示的结果进行确认和。
37、修改。从而获得最终确定的翻译结 果。 根据文字识别、 源语言检测和翻译的结果的不同形式, 这一步骤需要分成如下几种情况 进行处理 : 情况 1: 文字识别结果、 源语言检测结果仅有一种, 且是正确的, 用户只需对翻译结果 进行确认。 0060 情况 2: 文字识别结果错误, 则对文字识别结果进行手动修改, 同时系统自动返回 步骤 204, 针对新的文字内容自动进行重新的语言检测和翻译。 0061 情况 3: 文字识别正确, 源语言类型存在多种, 且正确的源语言类型在候选列表 中, 则用户选择正确的源语言类型并对翻译结果进行确认即可。 0062 情况 4 : 文字识别正确, 源语言类型判断错误,。
38、 则修改源语言类型, 系统自动根据 用户选择的源语言类型, 自动返回步骤 402 重新进行翻译, 以获得正确的翻译结果, 然后用 户再对新的正确的翻译结果进行确认。 0063 所述步骤 406 记录用户的确认和修改操作的时间和操作内容, 创建和更新用户反 馈数据库。当用户在步骤 405 对翻译结果进行确认和修改时, 系统会记录用户的操作时间 和操作内容。当用户反馈数据库不存在时, 则创建一个新的用户反馈数据库存储用户当前 确认操作的内容和时间。如果用户反馈数据库已经存在, 则对该数据库进行更新。 0064 综上所述, 本发明提出了一种无需设定源语言的文本图像自动翻译系统。首先通 过文字识别技术。
39、对文本图像中的文字进行识别, 然后再利用语言检测技术对识别出的文字 进行语言检测, 紧接着再利用其他辅助信息进一步优化语言检测的结果从而确定文本图像 的源语言。最后再通过机器翻译技术将文本翻译成目标语言。而整个过程中, 用户仅仅需 要将文本图像输入到系统中, 即可以得到最终的翻译结果和文本图像本身的源语言信息。 0065 以上所述仅为本发明的较佳实施例而已, 并非用以限定本发明的实质技术内容范 围, 本发明的实质技术内容是广义的定义于申请的权利要求范围中, 任何他人完成的技术 实体或方法, 若是与申请的权利要求范围所定义的完全相同, 也或是一种等效的变更, 均将 被视为涵盖于该权利要求范围之中。 说 明 书 CN 103699527 A 9 1/2 页 10 图 1 说 明 书 附 图 CN 103699527 A 10 2/2 页 11 图 2 说 明 书 附 图 CN 103699527 A 11 。