语音翻译系统和语音翻译方法.pdf

上传人:b*** 文档编号:4054358 上传时间:2018-08-13 格式:PDF 页数:38 大小:3.60MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410471689.6

申请日:

2014.09.16

公开号:

CN104516876A

公开日:

2015.04.15

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/28申请公布日:20150415|||实质审查的生效IPC(主分类):G06F 17/28申请日:20140916|||公开

IPC分类号:

G06F17/28; G10L15/26

主分类号:

G06F17/28

申请人:

株式会社东芝

发明人:

降幡建太郎; 住田一男; 釜谷聪史

地址:

日本东京都

优先权:

2013-205869 2013.09.30 JP

专利代理机构:

北京市中咨律师事务所11247

代理人:

宛丽宏; 杨晓光

PDF下载: PDF下载
内容摘要

根据一个实施例,语音翻译系统包括第一终端装置,包括第一语音输入单元,其被配置为输入由第一用户讲的第一语言的第一语音,并且将第一语音转换为第一语音信号;第二终端装置,包括第二语音输入单元,其被配置为输入由第二用户讲的第二语言的第二语音,并将第二语音转换为第二语音信号;语音识别装置,被配置为接收第一语音信号和第二语音信号,将第一语音信号识别为第一识别文本并将第二语音信号识别为第二识别文本;机器翻译装置,被配置为接收第一识别文本和第二识别文本,将第一识别文本翻译为第二语言的第一翻译文本,并将第二识别文本翻译为第一语言的第二翻译文本;控制装置;其中,第一终端装置接收(a)作为第一识别文本和第二翻译文本的第一语言的第一文本集合,和(b)作为第二识别文本和第一翻译文本的第二语言的第二文本集合,并且包括第一显示单元,其被配置为显示第一文本集合和第二文本集合;第二终端装置接收第二文本集合中的至少一个文本,并包括被配置为显示第二文集合中的至少一个文本的第二显示单元。

权利要求书

权利要求书
1.  一种语音翻译系统,包括:
第一终端装置,包括第一语音输入单元,其被配置为输入由第一用户 讲的第一语言的第一语音,并且将所述第一语音转换为第一语音信号;
第二终端装置,包括第二语音输入单元,其被配置为输入由第二用户 讲的第二语言的第二语音,并且将所述第二语音转换为第二语音信号;
语音识别装置,其被配置为接收所述第一语音信号和所述第二语音信 号,将所述第一语音信号识别为第一识别文本,并将所述第二语音信号识 别为第二识别文本;
机器翻译装置,其被配置为接收所述第一识别文本和所述第二识别文 本,将所述第一识别文本翻译为所述第二语言的第一翻译文本,并将所述 第二识别文本翻译为所述第一语言的第二翻译文本;
控制装置;
其中,第一终端装置接收(a)作为所述第一识别文本和所述第二翻译 文本的所述第一语言的第一文本集合,和(b)作为所述第二识别文本和所 述第一翻译文本的所述第二语言的第二文本集合,并包括被配置为显示所 述第一文本集合和所述第二文本集合的第一显示单元;
所述第二终端装置接收所述第二文本集合中的至少一个文本,并且包 括被配置为显示所述第二文本集合中的至少一个文本的第二显示单元。

2.  根据权利要求1的系统,其中所述机器翻译装置进一步包括:
反向翻译单元,其被配置为将所述第一语言的所述第二翻译文本反向 翻译为所述第二语言的第二反向翻译文本;
所述第二显示单元显示第二文本集合和所述第二语言的所述第二反向 翻译文本的第三文本集合中的至少一个文本。

3.  根据权利要求1的系统,进一步包括:
第三终端装置,包括第三语音输入单元,其被配置为输入由第三用户 讲的第三语言的第三语音,并将所述第三语音转换为第三语音信号;
所述语音识别装置接收所述第三语音信号,并将所述第三语音信号识 别为第三识别文本;
所述机器翻译装置接收所述第三识别文本和所述第一识别文本,进一 步包括第三机器翻译单元,所述第三机器翻译单元被配置为将所述第三识 别文本翻译为所述第一语言的第三翻译文本,并且将所述第一识别文本翻 译为所述第三语言的第四翻译文本;
所述第一显示单元显示(a)所述第二文本集合和所述第三语言的第三 文本集合中的至少一个文本集合,其中所述第三文本集合为所述第三识别 文本和所述第四翻译文本,和(b)作为所述第一文本集合和所述第三翻译 文本的所述第一语言的第四文本集合;
所述第三终端装置进一步包括被配置为显示所述第三文本集合中的至 少一个文本的第三显示单元。

4.  根据权利要求1的系统,其中所述第一终端装置进一步包括第一显 示选择单元,其被配置为接收从显示在所述第一显示单元上的所述第一文 本集合和所述第二集文本中的文本选择;
所述控制装置包括第一显示控制单元,其被配置为如果所述第一显示 选择单元接收所述选择,则控制在所述第二显示单元上显示所述第二文本 集合中的至少一个文本。

5.  根据权利要求1的系统,其中所述第二显示单元显示所述第一文本 集合中的至少一个文本,
所述第一终端装置进一步包括第二显示选择单元,其配置为接收是否 在所述第一显示单元上显示所述第二文本集合的选择;
所述控制装置进一步包括显示控制单元,其被配置为如果所述第二显 示选择单元接收所述第二文本被显示的选择,则控制所述第一文本集合不 被显示在所述第二显示单元上。

6.  根据权利要求1的系统,其中所述控制装置进一步包括第一确认指 引单元,其被配置为当所述第二文本集合被显示在所述第二显示单元上时, 显示所述第二语言的通知消息。

7.  根据权利要求1的系统,其中所述控制装置进一步包括第二确认指 引单元,其被配置为当所述第二文本集合被显示在所述第二显示单元上时, 振动所述第二终端装置和/或输出确认声音。

8.  根据权利要求1的系统,其中所述语音识别装置输出识别文本和表 示语音识别处理的可信程度的识别似然度;
所述控制装置进一步包括第二识别显示判定单元,其被配置为基于所 述识别似然度判断是否在所述第二显示单元上显示所述第二识别文本。

9.  根据权利要求1的系统,其中所述控制单元进一步包括第二反向转 换显示判定单元,其被配置为基于所述第二识别文本和所述第二反向翻译 文本之间的重合度,判断是否显示所述第二显示单元。

10.  根据权利要求1的系统,其中所述控制单元进一步包括第一显示 判定单元,其被配置为基于所述第一终端装置和所述第二终端装置之间的 距离,判断是否在所述第一显示单元显示所述第二文本集合。

11.  根据权利要求1的系统,其中所述控制单元进一步包括第一显示 判定单元,其被配置为基于第二用户能够读取所述第一显示装置的可读性, 判断是否在所述第一显示单元上显示所述第二文本集合。

12.  根据权利要求1的系统,其中所述第二终端装置是便携式的。

13.  根据权利要求1的系统,其中所述第一显示单元上的第一尺寸的 显示区域大于所述第二显示单元上的第二尺寸的显示区域。

14.  一种语音翻译方法,包括:
输入由第一用户讲的第一语言的第一语音;
将所述第一语音转换为第一语音信号;
输入由第二用户讲的第二语言的第二语音;
将所述第二语音转换为第二语音信号;
接收所述第一语音信号和所述第二语音信号;
将所述第一语音信号识别为第一识别文本;
将所述第二语音信号识别为第二识别文本;
接收所述第一识别文本和所述第二识别文本;
将所述第一识别文本翻译为所述第二语言的第一翻译文本;
将所述第二识别文本翻译为所述第一语言的第二翻译文本;
接收(a)作为所述第一识别文本和所述第二翻译文本的所述第一语言 的第一文本集合,和(b)作为所述第二识别文本和所述第一翻译文本的所 述第二语言的第二文本集合;
显示所述第一文本集合和所述第二文本集合;
接收所述第二文本集合中的至少一个文本;
显示所述第二文本集合中的至少一个文本。

说明书

说明书语音翻译系统和语音翻译方法
技术领域
在此描述的实施例大致涉及语音翻译系统和关联的方法。
背景技术
随着近年来文化和经济的全球化,机器翻译装置提出了对支持在讲不 同语言的人之间的通信的期望。目前,实行的是运行在移动终端(例如, 智能电话)上的语音翻译应用软件,和提供语音翻译功能的Web服务。
根据用户的通信方式,这些语音翻译系统分为以下两组。第一系统是 语音交换式系统,其中用户讲源语言,而用户听到翻译结果——目标语言。 第二系统是显示器结合使用式系统,其中用户确认显示器以读取所识别的 文本和所翻译的文本,以便检查用户的语音是否被正确地处理,然后讲出 对话。
不幸的是,不可能使用现有技术进行语音识别和机器翻译而没有错误。 于是,一些反馈的功能是必要的。反馈功能向用户显示识别结果和翻译结 果,该识别结果和翻译结果不是必需准确,因为用户清楚地进行重新表述、 猜测其他用户的对话的意愿、和提问。
因此,当用户可以看到显示器时,相比于语音交换式,显示器结合使 用式语音翻译系统对于用户更可靠。
根据用户的浏览方式,在该浏览方式中用户与何人看到何尺寸类型的 显示器,显示器结合使用式语音翻译系统进一步分为以下两组。
第一系统是显示器共享式系统,其中,用户们在一起看到一个终端设 备的相同显示器,并讲对话。第二系统是单独屏幕式系统,其中每个用户 看到在各自的终端中的每个显示器,并讲对话。
利用显示器共享式语音翻译系统的问题是,如果某个用户的终端装置 被其他用户共享,该其他用户很难操作该终端装置。
考虑商店的员工与来到该商店的外国来访者使用显示器共享式同时语 音翻译系统(例如,平板电脑)进行对话的情况。员工在操作该平板电脑 方面很有经验。但是第一次的来访者在该操作方面没有经验。因此,访来 访者操作该平板电脑是很困难的。
类似的问题不仅在显示器的操作上存在,还在向麦克风输入音频的方 式上存在。例如,语音识别的精度受影响于用户的对话的音量、在麦克风 和用户的嘴之间的距离、以及麦克风被用户手持的方式。因此,如果用户 没有使用麦克风的经验,语音识别的准确性可能会变得更糟。
在上面的情况中,商店的员工可以将他们的讲话输入平板电脑。另一 方面,对于外国来访者而言输入他们的讲话很难。因此,如果来访者有他 们通常使用的终端设备(例如,智能电话),那么有望在系统中实现语音 识别的准确性的改进。
如上面解释的,常规的显示器共享式系统和单独屏幕式系统不能够解 决上述缺点。
为了解决上述缺点,语音翻译系统需要考虑(a)在终端装置中的显示 器尺寸的差异,(b)用户是否一起看相同的显示器的共享显示器的可能性, 和(c)终端装置的语音输入单元的用户体验适应性。
特别是近几年来,各种形式的个人信息终端装置(例如,智能电话和 平板电脑)正迅速普及。因此,就如何结合各种终端而言,解决上述缺点 需求非常强烈。
发明内容
实施例提供一种能够实现一个终端可以被用户双方看到而另一终端仅 可以被一个用户看到的面对面服务或面对面交谈的语音翻译系统。
根据一个实施例,语音翻译系统包括第一终端装置,其包括第一语音 输入单元,所述第一语音输入单元被配置为输入由第一用户讲的第一语言 的第一语音,并且将所述第一语音转换为第一语音信号;第二终端装置, 其包括第二语音输入单元,所述第二语音输入单元被配置为输入由第二用 户讲的第二语言的第二语音,并将所述第二语音转换为第二语音信号;语 音识别装置,其被配置为接收所述第一语音信号和所述第二语音信号,将 所述第一语音信号识别为第一识别文本并将所述第二语音信号识别为第二 识别文本;机器翻译装置,其被配置为接收所述第一识别文本和所述第二 识别文本,将所述第一识别文本翻译为所述第二语言的第一翻译文本,并 将所述第二识别文本翻译为所述第一语言的第二翻译文本;控制装置;其 中,所述第一终端装置接收(a)作为所述第一识别文本和所述第二翻译文 本的第一语言的第一文本集合,和(b)作为所述第二识别文本和所述第一 翻译文本的第二语言的第二文本集合,并且包括第一显示单元,其被配置 为显示第一文本集合和第二文本集合;第二终端装置接收所述第二文本集 合中的至少一个文本,并包括第二显示单元,其被配置为显示所述第二文 集合中的所述至少一个文本。
根据至少一个实施例的语音翻译系统,第一终端装置显示第一文本集 合和第二文本集合,并且所述第二终端装置显示所述第二文本集合中的至 少一个文本。因此,语音翻译系统可以提供一个终端可以被用户双方看到 而另一终端仅可以被一个用户看到的面对面服务或面对面交谈。
附图说明
图1示出了一个实施例的语音翻译系统;
图2示出了语音翻译系统的概观;
图3示出了第一终端装置200中的第一显示单元220的图片;
图4A至4C示出了第二终端装置300中的第二显示单元320的图片;
图5示出了语音翻译系统的操作;
图6示出了语音翻译系统的另一操作;
图7示出了语音翻译系统的另一操作;
图8示出了语音翻译系统的另一操作;
图9示出了语音翻译系统的另一操作;
图10示出了语音翻译系统的另一操作;
图11示出了语音翻译系统的另一操作;
图12A和12B示出了语音翻译系统的另一操作;
图13图示了语音翻译系统的操作的流程图;
图14图示了语音翻译系统的操作的另一流程图;
图15图示了语音翻译系统的操作的另一流程图;
图16图示了语音翻译系统的操作的另一流程图;
图17图示了语音翻译系统的操作的另一流程图;
图18图示了语音翻译系统的操作的另一流程图;
图19图示了语音翻译系统的操作的另一流程图;
图20图示了语音翻译系统的操作的另一流程图;
图21图示了语音翻译系统的操作的另一流程图;
图22A至22D示出了在存储装置130中与终端和用户有关的表;以及
图23示出了在存储装置130中的对话历史表。
具体实施方式
以下将参考所附的附图描述语音翻译系统的各种实施例。
在一个实施例中,描述系统和方法,其中第一语言是日语,而第二语 言是英语。但机器翻译的方向不限于上述情况。翻译可以是在任意两种或 两种以上的语言或方言之间执行。
图1示出了一个实施例的语音翻译系统。语音翻译系统包括语音识别 装置110,其直接或间接地接收第一语言的第一语音信号及第二语言的第 二语音信号,并将第一语音信号和第二语音信号分别识别为第一识别文本 和第二识别文本;机器翻译装置120,其从装置110直接或间接地接收第 一识别文本和第二识别文本,并将第一识别文本和第二识别文本分别翻译 为第二语言的第一翻译文本和第一语言的第二翻译文本,并具有将第二翻 译文本翻译为第二语言的第二反向翻译文本的反向翻译单元121;存储装 置130;第一终端装置200;第二终端装置300和控制装置400。
装置130存储终端信息表、用户信息表、语言信息表、发言历史表、 终端使用表、语音输入语言表、显示语言表、和对话历史表。这些细节将 在下文中参照图22来描述。
装置200包括第一语音输入单元210、第一显示单元220、第一显示选 择单元230和第二显示选择单元240,第一语音输入单元210输入由第一 语言(日语)的第一用户讲的第一次语音并将第一语音转换为第一语音信 号;第一显示单元220具有第一显示区域221和第二显示区域222,所述 第一显示区域221显示作为第一识别文本和第二翻译文本的第一语言的第 一文本集合,并且第二显示区域222显示作为第二识别文本和翻译文本的 第二语言的第二文本集合;第一显示选择单元230接收从显示在单元220 上的第一文本集合和第二文本集合中的文本选择;并且第二显示选择单元 240接收对区域222是否显示在单元220上的选择。
装置300包括第二语音输入单元310和第二显示单元320,第二语音 输入单元310输入由第二语言(英语)的第二用户讲的第二语音并将第二 语音转换为第二语音信号;并且第二显示单元320具有第三显示区域321、 第四显示区域322和第五显示区域323,第三显示区域321直接或间接地 接收第二文本集合中的至少一个文本并显示第二文本中的至少一个文本, 第四显示区域322显示与最近的发言对应的第二识别文本和对应的第二反 向翻译文本,第五显示区域323显示与显示在区域321上的第一语言的文 本对应的第二语言的文本。
装置400包括第一显示控制单元410、第二显示控制单元420、第一显 示判定单元430、第二显示判定单元440、第一确认指引单元450,和第二 确认指引单元460。在这种情况下,词“直接”意味着多个装置直接连接, 或多个软件模块是在一个硬件上实现的,而词“间接”的意思是“通过有 线或无线网络”。
图2示出了在装置200是平板电脑而装置300是小于装置200的智能 电话计算机的情况下的语音翻译系统的概观。
装置110、装置120,装置130和装置400被包括在一个服务器中。装 置200和装置300通过有线或无线网络与该服务器通信。装置130可以建 立在装置400中。
装置200的实例具有触摸屏显示器和麦克风。当触摸屏显示器是电容 式显示器时,装置200具有指点功能和显示功能,所述指点功能检测区域 通过被用户的手指接触该区域而被指点(point),并且所述显示功能显示 字母、图片,等等。
装置300的实例也具有触摸屏显示器和麦克风。由于装置300的显示 区域小于装置200的显示区域,装置300显示比装置200少的信息。
例如,讲日语的第一用户(以下,称为Hanako(花子)),在装置 200的麦克风(平板电脑)中输入她的语音,而讲英语的第二用户(以下, 称为Jack(杰克))在装置300(智能手机)的麦克风中输入他的语音。 华子和杰克看着装置200(平板电脑)的大显示器进行交互式对话。他们 在每个装置200或300的麦克风中输入他们的语音。
图3示出了装置200中的第一显示单元220的图片。单元220具有第 一显示区域、第二显示区域以及英语显示键,所述第一显示区域显示与花 子的语音对应的所识别的日语文本和与杰克的英语语音对应的所翻译的日 语文本,所述第二显示区域显示与杰克的语音对应的所识别的英语文本和 与花子的日语语音对应的所翻译的英语文本,并且所述英语显示键切换区 域222的显示/不显示。
图4A至4C示出了在装置300中的第二显示单元320的图片。单元 320有第三显示区域321、第四显示区域322、第五显示区域323以及日语 显示键324,第三显示区域321显示与杰克的语音对应的所识别的英语文 本和与花子的日语语音对应的所翻译的英语文本,第四显示区域322显示 与最新的杰克的语音对应的所识别的文本、与他最新的语音对应的反向翻 译文本、确认是否接受所识别的文本的OK(确定)/Cancel(取消)按钮, 第五显示区域323显示与显示在区域321上的日语文本对应的英语文本, 并且日语显示键324切换区域323的显示或不显示。
当没有足够的显示区域来显示区域321、322和323时,区域322可以 不显示,以便在图4B中显示区域323。
或者,单元320可以不显示区域321,而在区域323上显示与区域322 的识别文本对应的所翻译的日语文本,也就是说,单元320具有区域322、 区域323和日语显示键324。
图5至图12解释了这一实施例的例子,其中,作为店员(讲日语)的 第一用户面对面服务作为顾客的第二用户(讲英语)。
图5示出了当第一用户讲日语的语音「いらっしゃいませ!」 (Irassyaimase!)(欢迎光临!)时装置200和300的显示内容。单元220 显示所识别的日语文本「いらっしゃいませ!」(Irassyaimase!)和所翻 译的英语文本“Welcome!”,单元320只显示所翻译的英语文本 “Welcome!”
图6至图12示出了其中第一用户和第二用户具有对话的实施例的例 子。
图6示出讲英语的人讲出发言的例子。单元310输入发言“I want to  buy a mirror-less camera”(我想买无反相机)。装置110执行语音识别 过程,并输出识别文本“I want bye there come here”(我想再见那里来这 里),和识别似然度(在这种情况下,“0.1”)。单元430将识别似然度 与预定的阈值(在这种情况下,“0.8”)相比较,然后判定所识别的文本 “I want bye there come here.”是错误的,因为识别似然度小于阈值。装 置120不执行机器翻译过程。单元220显示识别文本而单元320的区域322 显示识别文本“I want bye there come here”。
当英语用户看单元220或看看别处于是没有看单元322时(也就是说, 英语用户没看到识别的文本“I want bye there come here”),第一确认指 引单元450需要督促由英语用户进行的检查。单元450控制单元220的区 域222以显示系统确认消息“Please check your smartphone.”(请检查你 的智能电话)。第二确认指引单元460控制智能电话300振动或输出对于 英语用户的报警。此外,区域为日语用户显示日语的系统消息「ただいま 確認中です···」(tadaima kakunintyu desu…)(现在确认中……), 这意味着让英语用户确认的状态。
区域321显示英语消息“Checking now……”(正在检查……),这 表明系统提示英语用户检查所识别的文本“I want bye there come here”。 当英语用户轻敲(tap)键“Cancel”(取消)时,所识别的文本将在区域 222和区域223被清除,确认消息被清除,而且显示在区域221和321上 的英语消息“Checking now……”被清除。
另一方面,当英语用户轻敲键“OK”时,显示在区域322上的识别文 本被清除,机器翻译处理被执行,所翻译的文本显示在区域221上。
图7示出了当英语用户重新表述时的例子。
装置110执行对重新表述的发言的语音识别过程,并输出所识别的文 本和识别似然度(1.0)。单元430判定该识别是正确的,因为识别似然度 比阈值(0.8)大。装置120翻译所识别的文本并输出所翻译的文本,并且 反向翻译单元121反向翻译所翻译的文本并输出反向翻译的文本。
单元440将所接收的文本与反向翻译的文本相比较,并计算重合度(在 这种情况下,“0.86”)。单元440将重合度与预定的阈值(在这种情况 下,“0.8”)相比较,由于重合度大于阈值,并判定所翻译的文本是正确 的。区域222显示所翻译的文本「ミラーレスデジカメを買いたいのです が。」(mira-lesu dejikame wo kaitai no desuga.)(想买无反光镜数码相 机。)但所识别的文本和反向翻译的文本不显示。
图8示出了交互式对话的进展的例子,日语用户讲出发言,并且英语 用户讲出另一发言。
英语使用者的发言“Someday,when my daughter grows up,I want to  show her the photos”(某一天,当我的女儿长大了,我想给她展示照片) 被输入。装置110执行语音识别处理,并输出所识别的文本和识别似然度 (1.0)。单元430判定识别似然度大于阈值。区域显示所识别的文本。装 置将所识别的文本翻译为所翻译的文本,并且单元121将所翻译的文本反 向翻译为反向翻译的文本。
单元440比较所识别的文本与反向翻译的文本,并计算重合度(在这 种情况下,“0.69”)。单元440比较重合度与阈值(在这种情况下,“0.8”), 由于重合度小于阈值,并判定所翻译的文本是错误的。当英语用户被督促 检查时,区域222显示确认消息“Please check your smartphone.”(请检 查您的智能电话),并且区域322显示所识别的文本和反向翻译的文本 “Someday,my daughter becomes large,I want to show the photos of that  time”(某一天,我的女儿变大,我想展示那时的照片)。此外,智能电 话振动和输出告警。
由于日本人被告知英语用户正在确认,区域221显示消息「ただいま 確認中です···」(tadaima kakunintyu desu…)(现在确认中……), 并且区域321将显示消息“Checking now...”(正在检查……)。
当用户轻敲键“Cancel”(取消)时,区域221、222、321、和322 被清除。另一方面,当用户轻敲键“OK”时,每个显示被清除,区域222 显示所翻译的文本。
图9显示该交互式对话进一步进展的例子。当日语用户从智能电话300 删除他/她的对话的一部分时,平板电脑200可以进行所选择的显示/删除。 在这种情况下,一个例子是,英语用户想要从智能电话删除对话「ちょっ と値は張りますが」(chotto neha harimasuga)(价格有点贵)。日语文 本「ちょっと値は張りますが」(chotto neha harimasuga)或相应的英语 文本“It’s a bit expensive”(这有些贵了)被轻敲,两个文本被突出显示 (参见图9中的“阴影”)。显示在区域321上的英语文本“It’s a bit  expensive”被删除,于是它被显示在图10中。如果日语用户轻敲所突出 显示的文本,则该文本被正常显示在平板电脑上,而且英语文本“It’s a bit  expensive”被再次显示在智能电话上。
以这种方式,在店员的装置200上选择不小心讲的或误解的对话就是 从顾客的装置300删除该对话。另一方面,可以将重要的对话留在顾客装 置300上。
图11示出了当在装置200中的英语显示键的复选框被清除时的例子。 在这种情况下,由于区域222是不显示的,区域221水平地变长,每个对 话被显示在区域221上的每一行处。因此,可以在区域221上显示更多的 对话历史。
图12A和12B示出了当装置300中的键“日语显示”324的复选框被 清除时的例子。如果装置200中的键“英语显示”223的复选框是否被清 除,则这仅仅是可选的。也就是说,如果在装置200中用于显示英语文本 的区域222被显示,则这是不可选的。
图12A示出了显示器向左边旋转90度,第一语言的区域321被显示 在显示器的左侧,而第二语言的区域323被显示在显示器的右侧。
图12B示出了第一语言的翻译文本也显示在区域322上,区域322显 示第二语言的识别文本和相应的反向翻译文本。
图13到21图示了的语音翻译系统的操作流程图。该流程图能够用于 在图5到12中所示的系统的操作。
图13图示了当装置200和装置300被连接时首先执行的流程图。在图 22中显示的表被做出并且值被设置为初始值。
在步骤102中,装置200和装置300被分别给予“1”和“2”作为终 端ID。装置200和300的用户名称和语言名称被获得。第一用户(花子) 和第二用户(杰克)被分别给予“1”和“2”作为用户ID。语言名称的对 应表(日语,英语)和语言ID(JP,EN)被预先存储在装置130中。图 22A显示在步骤102中做出的表。
在步骤103中,估计用户和终端之间的空间关系。在步骤104中,比 较终端尺寸的差异(详细地,终端的显示器尺寸),并确定每个用户使用 每个终端输入语音,并使用每个终端显示器输出。在这种情况下,假定日 语用户和英语用户都在观看日语用户的平板电脑200的较大的显示器,并 且英语用户拿着智能电话300并能够仅仅观看智能电话300的较小的显示 器(日语用户看不到较小的显示器)。日语用户通过平板电脑200的麦克 风输入语音。英语用户通过智能电话300的麦克风输入语音。图22B显示 出在这种情况下的终端使用表。
在语音输入语言的这种情况下,平板电脑的200只输入英语语音而智 能电话300只输入日语语音,并且在图22C中设置语音输入语言表。
另一方面,在显示语言的这种情况下,平板电脑200显示英语和日语 两者,而智能电话200仅显示日语,并且在图22D中设置显示语言表。
在步骤105中,平板电脑200和智能电话300的语音输入单元和显示 单元(用于检测轻敲)转移到输入接收状态。
图14图出了输入语音的流程图。
单元210检测语音输入(步骤201),然后步骤202从单元210接收 语音信息并将其输入至装置110。装置110将语音信息变换为所识别的文 本的过程是已知的。因为这个过程是已知的,为简洁起见略去详细的解释。
在步骤203中,装置110的处理结束,装置400接收所识别的文本和 识别似然度,向它们添加对话ID,把它们与用户ID和识别语言ID一起写 在装置130中的对话历史表中(参见图23中所示的第一行)。
在步骤204中,当终端ID是“1”时,处理去往S206。当终端ID是 “2”时,处理去往S205。
步骤205调用图15所示的装置400中的单元430的处理。
步骤206向装置200发送所识别的文本,并将其显示在单元220上。
步骤207在装置120中输入所识别的文本。S208接收所翻译的文本和 反向翻译的文本,并将它们写在图23中所示的对话历史表中。
装置120将第一语言文本翻译到第二语言文本的过程已知为各种技 术。因为可以应用他们的技术,省略详细的解释。
步骤209根据终端ID对处理进行分支。当终端ID是“1”,处理去 往S211。当终端ID是“2”时,处理去往S210。
S210调用图16所示的装置400的单元440的处理。
S211向装置200发送所翻译的文本并将它们显示在单元220上。
S212向装置300发送对话历史表中与语言ID“2”对应的识别文本或 翻译文本(即,第二语言文本),并将它们显示在单元320的区域321上。
当在步骤212中的显示处理结束后,处理再次转移到输入语音的等待 状态。
图15图示了第一显示判定单元430的流程图。
S302接收所识别的文本和识别似然度。
S303比较识别似然度与阈值(在这种情况下,“0.8”)。
当识别似然度小于阈值时,处理去往S304。
另一方面,当识别似然度大于阈值时,处理去往S306,并返回到调用 脚本的流程(图14所示的S205)。
步骤304向装置300发送所识别的文本,并控制所识别的文本和确认 键被显示在单元320的区域322上。
在步骤305中,装置300的单元320转移至输入确认键的等待状态。
如果装置300输入语音,则它可以设置确认显示以清除。
图16图示了第二显示判定单元440的流程图。
装置400接收所识别的文本和反向翻译的文本(S402)。
S403计算在所识别的文本和反向翻译的文本之间的重合度。
重合度的指数已知为各种技术。在这种情况下,指数是这样的值:(a) 在所识别的文本和反向翻译的文本二者中都包含的词的数量除以(b)在所 识别的文本中包含的词的总数量。当重合度小于阈值(在这种情况下, “0.8”),处理去往S405(S404)。
当重合度大于阈值时,处理返回到调用脚本(图14中所示的S210)。
S405在单元320的区域322上显示所识别的文本、反向翻译的文本和 确认键。
S406将装置300的单元320转移为输入确认键的等待状态。
图17图示了当用户轻敲单元220时的操作流程图。
S501将接收轻敲的等待状态转移至S502。如果语音文本(区域221 和区域222的文本)被轻敲,则处理去往S503。如果不是,则处理去往 S504。
S503调用装置中的单元410的流程图(在图18中示出)。
在S504中,如果轻敲为对第二语言显示键的轻敲,则处理去往S505。 如果轻敲是对除了第二语言显示键之外的区域的其他轻敲,则处理去往 S501。
步骤505调用装置400的单元420的流程图(在图20中示出)。
图18示出了装置400中的单元410的流程图。
S602标识在图23中的识别文本和翻译文本中的哪个对应于轻敲的文 本,并参考被识别的对话ID中的第二显示标志。如果第二显示标志是 “OFF”,处理去往S603。如果第二显示标志是“ON”,则处理去往S606。
S603将对话历史表中的第二显示标志重写为“ON”。
S604将单元220的与对话ID对应的第一和第二显示区域的文本显示 为突出的。
与单元320的对话ID对应的第二语言文本(也就是说,语言ID是“2” 的所识别的文本和所翻译的文本)被发送给装置300。第二语言文本被控 制为以对话ID的顺序被显示在单元320的区域321上。
S606将对话历史表中对话ID的第二显示标志重写为“OFF”。
S607将与对话ID对应的突出显示的文本返回为普通显示。
S608删除与单元320的对话ID对应的文本的显示。
S609返回到调用脚本的流程。
图19图示了设备400的单元420的流程图。
当第二语言显示键被轻敲时,S702参考在显示语言表中装置200第二 语言(英语,语言ID=EN)的列(EN,1)的值。如果值是“NO”,则 处理去往S703。如果值是“YES”,则处理去往S709。
步骤703将列(EN,1)的值重写为“YES”。
步骤704控制使得单元220显示区域222和第二语言(英语)的文本。
S705参考装置300(终端ID=2)的第一语言(日语,语言ID=JP) 的列(JP,2)的值。如果值是“YES”,则处理去往S706。如果值是“NO”, 则处理去往S708。
步骤706将列(JP,2)的值重写为“NO”。
在步骤707中,单元320控制使得显示第一语言文本的区域323是不 显示的。
S708控制使得第一语言显示键(日语显示键)不能被选择,并且处理 去往S711。
S709将列(EN,1)的值重写为“NO”。
S710控制使得单元220的区域222是不显示的,并且处理去往S711。
S711将单元320的第一语言显示键324(“日语显示”)设置为可选 的。
S712返回到调用脚本的流程。
图20图示了当用户轻敲装置300中的单元320时的流程图。
该处理从轻敲单元320的等待状态(S801)到S802。
如果单元320当前不是输入确认键的等待状态,则处理去往S803。如 果是,则处理去往S810。
S803判断是否针对第一语言显示键324被轻敲。如果是被轻敲,则处 理去往S804。如果不被轻敲,则处理去往S801。
S804判断键324是否是可选的。如果键不是可选的,则处理去往装置 400中的单元420的流程图的S708。
如果键324是可选的,处理去往S805。如果不是,该处理返回到S801。
S805参考在显示语言表中的列(JP,2)的值,因为装置300的第一 语言(日本)的显示集合被确认。如果列(JP,2)的值是“YES”,则处 理去往S808。如果是“NO”,则处理去往S806。
S806将列(JP,2)的值重写为“YES”。
S807显示区域323和第一语言文本,然后返回S801。
S808将列(JP,2)的值重写为“NO”。
S809不显示区域323,并且然后返回S801。
在步骤810中,当在轻敲确认键的等待状态中时如果轻敲了确认键, 则处理去往S811。如果没有,则处理返回S801。
S811调用确认键的流程图(如图21中所示)。
图21图示了当用户轻敲单元320的确认键时的流程图。
如果在S902中确认键是“OK”,则处理去往S905。如果键是 “CANCEL”,则处理去往S903。
S903清除区域322。
S906从单元220删除与显示在区域322上的对话ID对应的文本。
S905返回到调用脚本的流程。
根据至少一个上述实施例的语音翻译系统,第一终端装置显示第一文 本集合和第二文本集合,并且第二终端装置显示第二文本集合中的至少一 个文本。因此,语音翻译系统可以提供面对面服务或面对面交谈,其中一 个终端可以被用户双方看到,而另一终端仅可以被一个用户看到。
实施例的流程图图示了根据实施例的方法和系统。应理解,流程图图 示的每一个块,流程图图示中的块的组合,可以通过计算机程序指令实现。 这些计算机程序指令可以被加载到计算机或其它可编程装置上,以产生机 器,从而使得执行在计算机或其它可编程装置上的指令创建用于实现一个 或多个流程图块的部件。这些计算机程序指令还可以被存储在非瞬时计算 机可读存储器中,其可以指示计算机或其它可编程装置以特定的方式工作, 从而使得存储在非瞬时存储计算机可读存储器上的指令产生制品,包括实 现一个或多个流程图块的中说明的功能的指令装置。计算机程序指令也可 以被加载到计算机或其它可编程装置/设备,以致使在计算机或其它可编程 装置上将执行的一系列操作性步骤/行为,从而产生提供用于实现一个或多 个流程图块说明的功能的步骤/行为的计算机编程设备/装置。
尽管已经描述了某些实施例,这些实施例仅以举例的方式被呈现,而 不是为了限制本发明的范围。事实上,本文描述的新颖实施例可以以各种 其他形式实现;此外,在不背离本发明的精神的情况下,可以对在此描述 的实施例的形式进行各种省略、替代和变化。所附的权利要求和它们的等 同体意欲覆盖将落入本发明的精神范围内的这些形式或修改。
例如,考虑讲座的情况。当第一终端装置200是投影仪且第二终端装 置300是每个外国观众持有的终端时,类似于上面的实施例来使用语音翻 译系统。

语音翻译系统和语音翻译方法.pdf_第1页
第1页 / 共38页
语音翻译系统和语音翻译方法.pdf_第2页
第2页 / 共38页
语音翻译系统和语音翻译方法.pdf_第3页
第3页 / 共38页
点击查看更多>>
资源描述

《语音翻译系统和语音翻译方法.pdf》由会员分享,可在线阅读,更多相关《语音翻译系统和语音翻译方法.pdf(38页珍藏版)》请在专利查询网上搜索。

根据一个实施例,语音翻译系统包括第一终端装置,包括第一语音输入单元,其被配置为输入由第一用户讲的第一语言的第一语音,并且将第一语音转换为第一语音信号;第二终端装置,包括第二语音输入单元,其被配置为输入由第二用户讲的第二语言的第二语音,并将第二语音转换为第二语音信号;语音识别装置,被配置为接收第一语音信号和第二语音信号,将第一语音信号识别为第一识别文本并将第二语音信号识别为第二识别文本;机器翻译装置。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1