语音翻译装置和语音翻译方法.pdf

摘要
申请专利号：	CN201410468336.0	申请日：	2014.09.15
公开号：	CN104462069A	公开日：	2015.03.25
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/28申请公布日:20150325\|\|\|实质审查的生效IPC(主分类):G06F17/28申请日:20140915\|\|\|公开
IPC分类号：	G06F17/28; G10L15/26	主分类号：	G06F17/28
申请人：	株式会社东芝
发明人：	住田一男; 河村聪典; 釜谷聪史
地址：	日本东京都
优先权：	2013-192550 2013.09.18 JP
专利代理机构：	北京市中咨律师事务所11247	代理人：	杨晓光; 于静
PDF下载：	PDF下载

内容摘要

第一语音处理设备包含：第一语音输入单元以及第一语音输出单元。第二语音处理设备包含：第二语音输入单元以及第二语音输出单元。在第一语音处理设备和第二语音处理设备之间的服务器中，识别从第一语音输入单元发送的第一语言的语音。该翻译结果被回译成第一语言。回译结果的第一语音合成信号被发送给第一语音输出单元。翻译结果的第二语音合成信号被发送给第二语音输出单元。测量第二语音合成信号或第一语音合成信号的持续时间。基于该持续时间，通过使第一语音合成信号或第二语音合成信号的开始时间和结束时间同步，来输出第一语音合成信号或第二语音合成信号。

权利要求书

权利要求书
1.  一种用于翻译语音的装置，所述装置包括：
第一语音处理设备，所述第一语音处理设备包含：第一语音输入单元以捕获第一语言的语音，以及第一语音输出单元以输出所述第一语言的另一种语音；
第二语音处理设备，所述第二语音处理设备包含：第二语音输入单元以捕获第二语言的语音，以及第二语音输出单元以输出所述第二语言的另一种语音；以及
服务器，所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译；
所述服务器包括：
语音识别单元，所述语音识别单元被配置为识别从所述第一语音输入单元发送的所述第一语言的所述语音；
第一机器翻译单元，所述第一机器翻译单元被配置为将从所述语音识别单元输出的所述第一语言的语音识别结果翻译成所述第二语言；
第二机器翻译单元，所述第二机器翻译单元被配置为将从所述第一机器翻译单元输出的所述第二语言的翻译结果回译成所述第一语言；
第一语音合成单元，所述第一语音合成单元被配置为生成从所述第二机器翻译单元输出的回译结果的第一语音合成信号，以及将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音；
第二语音合成单元，所述第二语音合成单元被配置为生成从所述第一机器翻译单元输出的所述翻译结果的第二语音合成信号，以及将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音；以及
持续时间测量单元，所述持续时间测量单元被配置为测量所述第二语音合成信号的持续时间，或所述第一语音合成信号的持续时间；
其中基于所述持续时间，通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步，来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。

2.  根据权利要求1所述的装置，其中，
如果所述第二语音合成信号的所述持续时间用作标准，
则所述第一语音合成单元将所述第一语音合成信号的持续时间设置为所述第二合成信号的所述持续时间。

3.  根据权利要求1所述的装置，其中
如果所述第一语音合成信号的所述持续时间用作标准，
则所述第二语音合成单元将所述第二语音合成信号的持续时间设置为所述第一合成信号的所述持续时间。

4.  根据权利要求1所述的装置，其中
异步地操作所述语音识别单元、所述第一机器翻译单元、所述第二机器翻译单元、所述第一语音合成单元、所述第二语音合成单元以及所述持续时间测量单元。

5.  根据权利要求1所述的装置，还包括：
音量调节单元，所述音量调节单元被配置为，
如果输入到所述第一语音输入单元的语音的音量大于预定阈值，则降低从所述第一语音输出单元输出的所述第一语言的所述又一种语音的音量，以及，
如果输入到所述第一语音输入单元的所述语音的所述音量不大于所述预定阈值，则将所述第一语言的所述又一种语音的所述音量设置为正常水平。

6.  根据权利要求1所述的装置，还包括：
延时调节单元，所述延时调节单元被配置为基于所述语音识别结果的可靠性、所述翻译结果的可靠性以及所述回译结果的可靠性中的至少一个的可靠性，延时从所述第一语音输出单元输出的所述第一语言的所述又一种语音的所述开始时间。

7.  一种在语音翻译系统的服务器中用于翻译语音的方法，所述语音翻译系统包括：
第一语音处理设备，所述第一语音处理设备包含：第一语音输入单元以捕获第一语言的语音，以及第一语音输出单元以输出所述第一语言的另一种语音；
第二语音处理设备，所述第二语音处理设备包含：第二语音输入单元以捕获第二语言的语音，以及第二语音输出单元以输出所述第二语言的另一种语音；以及
所述服务器，所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译；
所述方法包括：
识别从所述第一语音输入单元发送的所述第一语言的所述语音；
将通过所述识别的所述第一语言的语音识别结果翻译成所述第二语言；
将通过所述翻译的所述第二语言的翻译结果回译成所述第一语言；
生成通过所述回译的回译结果的第一语音合成信号；
将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音；
生成所述翻译结果的第二语音合成信号；
将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音；
测量所述第二语音合成信号的持续时间，或所述第一语音合成信号的持续时间；以及
基于所述持续时间，通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步，来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。

说明书

说明书语音翻译装置和语音翻译方法
技术领域
本文中描述的实施例一般涉及语音翻译装置和语音翻译方法。
背景技术
近年来，随着文化和经济的全球化，在具有不同的母语的人之间支持交流的语音翻译装置是高度期待的。例如，与智能电话结合操作的语音翻译应用软件被商业化。此外，使用了呈现语音翻译功能的服务。
在这些应用软件和服务中，当用户以短单元(一个句子或若干句子)向语音翻译装置说出第一语音的语音时，通过语音识别功能将这个语音转变成对应于该语音的字符串。此外，第一语言(源语言)的这个字符串被翻译成第二语言(目标语言)的字符串。最后，通过语音合成功能，使用第二语言的语音读出作为翻译结果的这个字符串。这里，要求具有第一语言(源语言)的用户以短单元说话。在另一方面，要求具有第二语言(目标语言)的用户确认该短单元中的翻译结果，以及听合成的语音。因此，在使用此类应用软件的会话中，频繁地出现等待时间。因此，很难进行具有高响应性的会话。
此外，就用户而言，在没有限制要求用一个句子说话的情况下，期望会话的内容被传递给对方。然而，还没有提供此类功能。
此外，在语音识别或语音合成中，处理语音(诸如，语音输入或语音输出)的物理信号。因此，语音的物理持续时间成为处理时间的约束。这个约束被认为是经由语音翻译装置延时会话中的交互的响应性的原因。
图14示出了用户的话语(进入语音翻译装置)和在完成常规的语音输入后，来自语音翻译装置的翻译结果的语音输出之间的时间关系。
在图14中，水平轴表示时间转变。当用户A正在使用第一语言说话(t0～t1)时，这个语音被捕获(S900)。在完成说话时的定时后，确定并且输出语音识别结果(S910)。这个语音识别结果被输入和翻译成对于用户B能够理解的第二语言(S920)。这个机器翻译结果被输入以及合成为第二语言的语音(S930)。在当获得语音合成结果的定时(t2)处，合成的语音开始被输出给用户B，以及输出机器翻译的语音(S940)。因此，当用户A正在说话(t0～t1)时，没有从语音翻译装置将语音输出给用户B。在时间t2，用户B能够首次听到翻译结果。
在另一方面，当正在将语音输出给用户B(t2～t3)时，没有从语音翻译装置将语音输出给用户A。这个操作阻碍了互相位于远方不能直接听到各自语音的用户之间的会话。例如，当用户B在用户A正在说话期间说话时，或当用户A在语音正在被输出给用户B的期间说话时，在他们的语音中会出现冲突。
在另一方面，为了确认是否准确地执行了机器翻译，在JPA(专利公开)PH04-319769中提出了回译机器翻译的结果的语音翻译系统。在这个参考文献中，在识别了用户A的语音输入(第一语言)后，通过机器翻译功能将这个识别的结果翻译成第二语言。这个机器翻译结果被回译成第一语言，以及用户A确认这个回译结果是正确的还是不正确的。在这个确认后，这个机器翻译结果的合成语音被输出给用户B。然而，在这个参考文献中，每个步骤(语音输入、机器翻译、回译、语音合成)是按照顺序执行的。因此，每当执行每个步骤时，会出现等待时间。因此，在用户之间不能流畅地进行语音对话。
发明内容
实施例提供了在具有不同母语的人之间的语音对话中能够流畅交流的语音翻译装置和语音翻译方法。
根据一个实施例，语音翻译装置包含：第一语音处理设备、第二语音处理设备以及服务器。所述第一语音处理设备包含：第一语音输入单元以捕获第一语言的语音，以及第一语音输出单元以输出所述第一语言的另一种语音。所述第二语音处理设备包含：第二语音输入单元以捕获第二语言的语音，以及第二语音输出单元以输出所述第二语言的另一种语音。所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译。所述服务器包含：语音识别单元、第一机器翻译单元、第二机器翻译单元、第一语音合成单元、第二语音合成单元以及持续时间测量单元。所述语音识别单元被配置为识别从所述第一语音输入单元发送的所述第一语言的所述语音。所述第一机器翻译单元被配置为将从所述语音识别单元输出的所述第一语言的语音识别结果翻译成所述第二语言。所述第二机器翻译单元被配置为将从所述第一机器翻译单元输出的所述第二语言的翻译结果回译成所述第一语言。所述第一语音合成单元被配置为生成从所述第二机器翻译单元输出的回译结果的第一语音合成信号，以及将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音。所述第二语音合成单元被配置为生成从所述第一机器翻译单元输出的所述翻译结果的第二语音合成信号，以及将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音。所述持续时间测量单元被配置为测量所述第二语音合成信号的持续时间，或所述第一语音合成信号的持续时间。基于所述持续时间，通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步，来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。
根据实施例，能够提供能够在具有不同母语的人之间的语音对话中流畅交流的语音翻译装置和语音翻译方法。
附图说明
图1是语音翻译装置的硬件组件的一种示例。
图2是语音翻译装置的硬件组件的另一种示例。
图3是根据第一实施例的语音翻译装置的框图。
图4是根据第一实施例的语音翻译装置的处理的流程图。
图5是根据第一实施例的语音输入和语音输出之间的时间关系。
图6是根据第一实施例的语音输入和语音输出之间的时间关系(具有原始的语言语音的语音输出)。
图7A、7B和图7C是根据第二实施例的语音翻译装置的第一处理、第二处理以及第三处理的流程图。
图8是根据第二实施例的语音输入和语音输出之间的时间关系。
图9是根据第三实施例的语音翻译装置的框图。
图10是根据第三实施例的音量调节的处理的流程图。
图11是根据第三实施例的语音输入和语音输出之间的时间关系(具有原始的语言语音的语音输出)。
图12是根据第四实施例的语音翻译装置的框图。
图13是根据第四实施例的语音输入和语音输出之间的时间关系。
图14是根据常规技术的语音翻译系统的语音输入和语音输出之间的时间关系。
具体实施方式
图1是根据各种实施例的语音翻译装置的整体组件。用户终端A(100)是第一语音处理设备。用户终端A(100)是便携式壳体，该便携式壳体包含：扬声器111、显示器112、麦克风113以及语音输入按钮114。同样地，用户终端B(150)是第二语音处理设备。用户终端B(150)是便携式壳体，该便携式壳体包含：扬声器151、显示器152、麦克风153以及语音输入按钮154。扬声器111和扬声器151通过语音输出机器翻译结果和回译结果。显示器112和显示器152显示语音识别结果、机器翻译结果和回译结果。麦克风113和麦克风153捕获用户的话语。语音输入按钮114和语音输入按钮154指示开始捕获话语。
用户终端A(100)和用户终端B(150)经由网络200上的语音识别/翻译服务器420连接。通过上述组件，提供了通过便携式电子设备(诸如智能电话)的语音翻译系统。
图2是根据各种实施例的语音翻译装置的另一个示例。用户终端A(300)是第一语音处理设备。用户终端A(300)是个人计算机，该个人计算机包含：扬声器311、显示器312、麦克风313、语音输入按钮314以及相机315。同样地，用户终端B(350)是第二语音处理设备。用户终端B(350)是个人计算机，该个人计算机包含：扬声器351、显示器352、麦克风353、语音输入按钮354以及相机355。每个设备的功能与图1的每个设备的功能相同。相机315和相机355捕获以用户的面部为中心的身体的上半部分的图像。与图1的方式相同，用户终端A(300)和用户终端B(350)经由网络200上的语音识别/翻译服务器420连接，以及提供了语音翻译系统。网200可以无线通信或有线通信。这个示例等同于电视会议系统的硬件组件。
(第一实施例)
图3是根据第一实施例的语音翻译装置的主要组件的框图。
在图3的框图中，示出了图1的组件示例。然而，可以应用图2的组件示例。为了使用户A和用户B(位于远方)双向地交谈，用户终端A(100)包含：第一语音输入单元401和第一语音输出单元402。同样地，用户终端B(150)包含：第二语音输入单元411和第二语音输出单元412。用户终端A(100)的第一语音输入单元401相当于图1的麦克风113，以及第一语音输出单元402相当于图1的扬声器111。用户终端B(150)的第二语音输入单元411相当于图1的麦克风153，以及第二语音输出单元412相当于图1的扬声器151。
语音识别/翻译服务器420(位于两个终端之间的网络上)包含：第一语音识别单元421、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元234、第一语音合成单元425、第二语音合成单元426、持续时间测量单元430和控制单元440。
第一语音识别单元421接收和捕获从用户终端A(100)的第一语音输入单元401发送的第一语言(例如，日语)的语音。第二语音识别单元422接收和捕获从用户终端B(150)的第二语音输入单元411发送的第二语言(例如，英语)的语音。通过参考翻译词典(未在图中示出)，第一机器翻译单元423将第一语言的语音识别结果(由第一语音识别单元421识别)翻译成第二语言，以及将翻译结果输出给第二语音合成单元426。此外，为了回译，第一机器翻译单元423将第二语言的翻译结果输出给第二机器翻译单元424。通过参考翻译词典(未在图中示出)，第二机器翻译单元424将第二语言的语音识别结果(由第二语音识别单元422识别)翻译成第一语言，以及将翻译结果输出给第一语音合成单元425。此外，为了回译，第二机器翻译单元424将第二语言的翻译结果输出给第一机器翻译单元423。
第一语音合成单元425生成翻译结果或从第二机器翻译单元424输入的回译结果的语音合成信号(第一语言)，以及将语音合成信号输出给用户终端A(100)的第一语音输出设备402。第二语音合成单元426生成翻译结果或从第一机器翻译单元423输入的回译结果的语音合成信号(第二语言)，以及将语音合成信号输出给用户终端B(150)的第二语音输出设备412。持续时间测量单元430测量第一语言(从第一语音合成单元425输出)的语音合成信号的持续时间或第二语言(从第二语音合成单元426输出)的语音合成信号的持续时间。控制单元440控制这些所有单元的操作定时。此外，在语音翻译装置中，用户终端A(100)、用户终端B(150)以及语音识别/翻译服务器420分别装备有用于网络通信的通信设备(未在图中示出)。
接着，将说明在图3中示出的语音翻译装置的操作。
在图3中，当用户A经由用户终端A(100)使用第一语言(例如，日语)说话时，第一语音输入单元401捕获由用户A说出的语音。所捕获的语音被发送给网络上的语音识别/翻译服务器420。在以下说明中，为了简化，将省略用户终端A(100)和语音识别/翻译服务器420之间的通信的说明，以及用户终端B(150)和语音识别/翻译服务器420之间的通信的说明。
在语音识别/翻译服务器420中，第一语音识别单元421输入第一语言的语音(通过第一语音输入单元401捕获)，以及识别该语音。这个语音识别结果(第一语言)被输入给第一机器翻译单元423。第一机器翻译单元423输入该语音识别结果，以及执行从第一语言到第二语言(例如，英语)的机器翻译，以及将这个翻译结果输出给第二语音合成单元426。此外，为了回译，第一机器翻译单元423将翻译结果(第二语言)输出给第二机器翻译单元424。第二机器翻译单元424将翻译结果(第二语言)回译成原始的语言(第一语言)，以及将这个回译结果输出给第一语音合成单元425。
因此，通过输入从第一机器翻译单元423输出的翻译结果，第二语音合成单元426生成用户B能够听得见的语音合成信号(第二语言)。从用户终端B(150)的第二语音输出单元412输出第二语言的这个语音。同样地，通过输入从第二机器翻译单元424输出的翻译结果，第一语音合成单元425生成用户A能够听得见的语音合成信号(第一语言)。从用户终端A(100)的第一语音输出单元402输出第一语言的这个语音。
在正在操作语音输出时，持续时间测量单元430测量从第二语音合成单元426输出的第二语言的语音合成信号(即，翻译结果的语音信号)的持续时间。然后，当第一语音合成单元425基于测量结果，生成用户A能够听得见的第一语言的语音合成信号(即，回译结果的语音信号)时，第一语音合成单元425生成第一语言的语音合成信号，使得它的持续时间等于第二语言的语音合成信号的持续时间。
因此，使用相同的持续时间来输出从用户终端B(150)的第二语音输出单元412输出的翻译结果(第二语言)的语音，以及从用户终端A(100)的第一语音输出单元402输出的回译结果(第一语言)的语音。
在以上说明中，持续时间测量单元430测量从第二语音合成单元426输出的语音合成信号(第二语言)的持续时间。然而，通过测量从第一语音合成单元425输出的回译结果的语音合成信号(第一语言)的持续时间，语音合成信号(第二语言)的持续时间可以被调节为等于语音合成信号(第一语言)的持续时间。此外，通过测量语音合成信号(第二语言)和语音合成信号(第一语言)两者的持续时间，可以调节这些语音合成信号。简言之，如果语音合成信号(第二语言)的持续时间用作标准，则第一语音合成单元425将语音合成信号(第一语言)的持续时间调节为等于语音合成信号(第二语言)的持续时间。在另一方面，如果语音合成信号(第一语言)的持续时间用作标准，则第二语音合成单元426将语音合成信号(第二语言)的持续时间调节为等于语音合成信号(第一语言)的持续时间。
同样地，在图3中，当用户B经由用户终端B(150)使用第二语言(例如，英语)说话时，第二语音输入单元411捕获由用户B说出的语音。在语音识别/翻译服务器420中，第二语音识别单元422输入第二语言的语音(通过第二语音输入单元411捕获)，以及识别该语音。这个语音识别结果(第二语言)被输入给第二机器翻译单元424。第二机器翻译单元424输入该语音识别结果，以及执行从第二语言到第一语言(例如，日语)的机器翻译，以及将这个翻译结果输出给第一语音合成单元425。此外，为了回译，第二机器翻译单元424将翻译结果(第一语言)输出给第一机器翻译单元423。第一机器翻译单元423将翻译结果(第一语言)回译成第二语言，以及将这个回译结果输出给第二语音合成单元426。
因此，通过输入从第二机器翻译单元424输出的翻译结果，第一语音合成单元425生成用户A能够听得见的语音合成信号(第一语言)。从用户终端A(100)的第一语音输出单元402输出第一语言的这个语音。同样地，通过输入从第一机器翻译单元423输出的翻译结果，第二语音合成单元426生成用户B能够听得见的语音合成信号(第二语言)。从用户终端B(150)的第二语音输出单元412输出第二语言的这个语音。
在正在操作语音输出时，持续时间测量单元430测量从第一语音合成单元425输出的第一语言的语音合成信号(即，翻译结果的语音信号)的持续时间。然后，当第二语音合成单元426基于测量结果，生成用户B能够听得见的第二语言的语音合成信号(即，回译结果的语音信号)时，第二语音合成单元426生成第二语言的语音合成信号，使得它的持续时间等于第一语言的语音合成信号的持续时间。
因此，使用相同的持续时间来输出从用户终端A(100)的第一语音输出单元402输出的翻译结果(第一语言)的语音，以及从用户终端B(150)的第二语音输出单元412输出的回译结果(第二语言)的语音。
图4是图3中示出的语音翻译装置的处理的流程图。为简化说明，在图4中，捕获用户A的第一语言(例如，日语)的语音，以及这个语音被翻译成用户B的第二语言(例如，英语)。在处理用户B的话语的情况下，能够应用相同的流程图。
在图4中，在S510，等待按下用户终端A(100)的语音输入按钮114的操作(事件)。当按下语音输入按钮114时，将这个事件通知给S520。第一语音输入设备401和第一语音识别单元421被激活。在S520，第一语音识别单元421识别从第一语音输入设备401(麦克风113)捕获的用户A的话语。例如，通过检测这个语音的静音时间间隔(在预定的周期(T1)中，具有小功率的语音信号的一段时间持续)，第一语音识别设备421确定语音识别结果。
在S530，由第一语音识别单元421确定的语音识别结果被输入给第一机器翻译单元423。第一机器翻译单元423将该语音识别结果从用户A的第一语言(例如，日语)翻译成用户B的第二语言(例如，英语)。在S540，通过第一机器翻译单元423的第二语言(例如，英语)的翻译结果被输入给第二语音合成单元426。因此，第二语音合成单元426合成翻译结果(通过第一机器翻译单元423)的语音，该语音将被输出为第二语言。
接着，在S550，通过第一机器翻译单元423的翻译结果被输入给第二机器翻译设备424。第二机器翻译设备424将通过第一机器翻译单元423的第二语言(例如，英语)的翻译结果回译成第一语言(例如，日语)。通过第二机器翻译单元424的第一语言(例如，日语)的回译结果被输入给第一语音合成单元425。
在560，持续时间测量单元430测量在S540处获取的语音合成信号(第二语言)的持续时间。然后，第一语言合成单元425生成在S550处获取的回译结果(第一语言)的语音合成信号，使得它的持续时间等于由持续时间测量单元430测量的持续时间。最后，在S570，第二语音输出单元412输出在S540处获取的翻译结果(第二语言)的语音合成信号，以及第一语音输出单元402输出在S560处获取的回译结果(第一语言)的语音合成信号。简言之，从第二语音输出单元412输出的第二语言的表达的持续时间等于从第一语音输出单元402输出的第一语言的表达的持续时间。当完成S570的处理时，处理返回到S510，以及等待下一个事件。
图5示出了根据第一实施例的关于用户A的话语(第一语言)，从第二语音输出单元412输出的翻译结果(第二语言)的语音与从第一语音输出单元402输出的回译结果(第一语言)的语音之间的时间关系。
第一语音输入单元401捕获用户A的话语“HONJITSUWA NIHONKEIZAINO GENJYOUNITSUITE OHANASHISHIMASU”(日语)。同时，第一语音识别单元421识别这个话语。在此之后，通过图4中的S530～S560的处理，作为通过第一语音识别单元421获取的语音识别结果的机器翻译结果，生成语音合成信号“I’d like to talk about the current situation of Japan economy today”(英语)。此外，作为翻译结果的回译结果，生成语音合成信号“KYOU NIHONKEIZAINO GENJYOUNITSUITE HANASHITAI”(日语)。以相同的持续时间生成这两个语音合成信号。
因此，同步地输出从用户终端B的第二语音输出单元412(扬声器151)输出的翻译结果的语音，从用户终端A的第一语音输出单元402(扬声器111)输出的回译结果的语音。简言之，同时输出每个合成的语音。在图5中，分别匹配翻译结果的语音和回译结果的语音的输出开始时间t2和输出结束时间t3。
此外，如在图6中示出的，当第一语音输入单元401正在捕获用户A的语音(日语)时，第二语音输出单元412可以输出用户A的语音(日语)。因此，用户B能够确认用户A正在说话。
(第二实施例)
在第一实施例中，由第一语音识别单元421、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元424、第一语音合成单元425和第二语音合成单元426按照顺序来执行处理。然而，在第二实施例中，通过并行地操作这些单元，能够异步地执行处理。在以下说明中，参照图1和图3的硬件组件。
图7A～7C是第二实施例的操作的流程图。简言之，在并行地操作第一语音识别单元421、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元424、第一语音合成单元425和第二语音合成单元426的情况下，图7A～7C是流程图。
首先，通过按下用户终端A(100)的语音输入按钮(114)，开始图7A的流程图的处理。简言之，在S610，等待检测到按下语音输入按钮114的事件的出现(启动操作)。然后，当按下语音输入按钮114时，处理转到S611。在S611，检查第一语音输入单元401是否正在操作。如果没有正在操作，则在S613，激活第一语音输入单元401和第一语音识别单元421。如果在S611，第一语音输入单元401正在操作，则通过语音输入按钮114的关闭操作，在S615，停止第一语音输入单元401和第一语音识别单元421。
因此，通过语音输入按钮114的操作，控制来自用户终端A(100)的语音输入的启动/关闭。第一语音识别单元421识别由第一语音输入单元401顺序捕获的语音。然后，当检测到语音的静音时间间隔时，第一语音识别单元421确定已经输入的语音的识别结果，以及将识别结果输出给第一机器翻译单元423。
图7B是第一机器翻译单元423的操作的流程图。在S630，第一机器翻译单元423等待输入来自第一语音识别单元421的语音识别结果的事件的出现。然后，当从第一语音识别单元421接收到语音识别结果时，在S631，第一机器翻译单元423调用翻译/合成处理，以及在S630等待下一个事件。
图7C是执行在S631处调用的翻译/合成处理的流程图。首先，在S650，第一语音识别单元423的语音识别结果被输入给第一机器翻译单元423，以及从第一机器翻译单元423获得将语音识别结果翻译成用户B的第二语言的翻译结果。此外，在S651，该翻译结果(在S650处获得)被输入给第二语音合成单元426，以及从第二语音合成单元426获得第二语言的语音合成信号。此外，在S652，翻译结果(在S650处获得)被输入给第二机器翻译单元424，以及从第二机器翻译单元424获得回译结果。
接着，在S653，持续时间测量单元430测量从第二语音合成单元426输出的语音合成信号的持续时间。第一语音合成单元425生成从第二机器翻译单元424输出的回译结果的语音合成信号，使得它的持续时间等于由持续时间测量单元430测量的持续时间。然后，在S654，确定第一语音输出单元402是否正在输出语音。如果没有正在输出语音，则在S655，第二语音输出单元412输出翻译结果的语音。同时，第一语音输出单元402输出回译结果的语音。
图8示出了基于图7A～7C的流程图，在来自用户终端A(100)的语音、来自第二语音输出单元412的翻译结果的语音输出以及来自第一输出单元402的回译结果的语音输出之间的时间关系。
在图8中，从用户终端A(100)的第一语音输入单元401输入用户A的语音“HONJITSUWA NIHONKEIZAINO GENJYOUNITSUITE OHANASHISHIMASU”(日语)。假设在“HONJITSUWA”的结束时间t1后，存在(t2-t1)的静音时间间隔。这里，通过检测静音时间间隔，第一语音识别单元421确定能够输出语音识别结果(已经获得的)，以及向S610发送事件。在S610，接收该事件，以及调用翻译/合成处理。
在S650～S656，关于对应于“HONJITSUWA”的语音识别结果，生成“Today”(英语)的语音合成信号作为翻译结果，以及“KYOU”(日语)的语音合成信号作为回译结果。然后，在S655，这些语音合成信号被输出为语音(输出开始时间t2～输出结束时间t3)。
同样地，刚好在从用户终端A(100)输入跟在“HONJITSUWA”后的语音“NIHONKEIZAINO GENJYOUNITSUITE OHANASHISHIMASU”(日语)之后，检测到静音时间间隔。关于翻译结果“I’d like to talk about the current situation of Japan economy”(英语)和回译结果“NIHONKEIZAINO GENJYOUNITSUITE HANASHITAI”(日语)，在图8中的相同时间(输出开始时间t5～输出结束时间t6)输出它们的语音合成信号。
(第三实施例)
图9是根据第三实施例的语音翻译装置的框图。在第三实施例中，与第一实施例相比，区别在于装备了音量调节单元700。音量调节单元700能够调节从第一语音输出单元402和第二语音输出单元412输出的语音的音量。
图10是通过音量调节单元700的控制处理的流程图。为了简化说明，在图10中，仅示出调节第一语音输出单元402的音量的流程图。通过相同的流程图，能够调节第二语音输出单元412的音量。
首先，在S710，音量调节单元700确认第一语音输入单元401是否正在操作。如果第一语音输入单元700正在操作，则在S720，音量调节单元700测量第一语音输入单元401的音量。接着，在S730，音量调节单元700确定该音量是否高于预定阈值“th”。如果该音量高于阈值“th”，则在S740，音量调节单元700将语音的音量(从第一语音输出单元402输出的)降低到标准之下。在另一方面，如果该音量不高于阈值“th”，则在S750，音量调节单元700将语音的音量(从第一语音输出单元402输出的)设置到标准。然后，在音量调节单元700在时间W(在S760处先前确定的)中停顿后，在S710，音量调节单元700重复用于下一个翻译的语音处理。
通过控制音量调节单元700，能够使用便于用户A和用户B听的音量来输出语音。特别地，当第一语音输入单元401正在捕获语音时，如果该语音具有特定的音量(大)，则确定用户A正在说话，以及将第一语音输出单元401的音量降低到标准以下。在另一方面，如果语音(由第一语音输入单元401捕获的)不具有特定的音量(小)或静音，则确定用户A没有正在说话，以及将第一语音输出单元401的音量设置为标准。
此外，在通过音量调节单元700的音量调节中，在翻译用户A的语音后，当通过语音输出回译结果以反馈给用户A时，如果用户A还没有完成说话，则降低音量。
简言之，在图11的时间t2和时间t3之间的时间段中，第一语音输入单元401捕获用户A的语音。因此，当从第一语音输出装置402输出回译结果“KYOU”时，音量调节单元700将该语音的音量降低到标准之下。在另一方面，如果用户A没有正在说话(即，静音状态)，则音量调节单元700将该音量设置到标准。在图11中，在图11的时间t5和时间t6之间的时间段中，第一语音输入单元401没有输入语音。因此，音量调节单元700将回译结果“NIHONKEIZAINO GENJYOUNITSUITE HANASHITAI”(来自第一语音输出单元402)的合成语音的音量设置为标准。
在用户A说话期间，如果使用大音量输出回译结果以反馈给用户A，则使用户A混淆。然而，如上所述，在说话期间，通过使用小音量来输出回译结果以进行反馈，能够避免混淆。此外，能够实现回译结果的反馈输出、语音的连续输入、至对方的语音输出和回译结果的语音输出之间的同步。
(第四实施例)
图12是根据第四实施例的语音翻译装置的框图。在第四实施例中，基于语音翻译结果的可靠性，使翻译结果的语音输出和回译结果的语音输出延时。与第一实施例相比，装备了延时调节单元800。
延时调节单元800基于来自第一机器翻译单元423和第二机器翻译单元424的语音翻译结果的可靠性，使语音输出延时。简言之，如果可靠性低，则控制第一语音输出单元402，使得回译结果的语音输出的开始时间被设置在用户A的语音完成之后。
图13示出了根据第四实施例的语音输入和语音输出之间的时间关系。这里，基于通过第一机器翻译单元423的翻译结果以及通过第二机器翻译单元424的回译结果，设置延时时间以输出来自第一语音输出单元402的语音。
在第二实施例中，如上所述，从图8中的时间t2，经由第一语音输出单元402输出回译结果的语音。在另一方面，在第四实施例中，当在语音“HONJITSUWA”之后的静音时间间隔短时，如果延时调节单元800确定通过第一翻译单元423的翻译结果的可靠性低，则延时调节单元800在时间t2和时间t5之间的时间段中禁止来自第一语音输出单元402的语音输出，以及控制第一语音输出单元402在时间t5之后输出语音。此外，来自第二语音输出单元412的翻译结果的语音输出可以与第一语音输出单元402的输出同步被延时到时间t5。
简言之，在语音完成后，用户A在时间t5开始听到回译结果。因此，用户A识别到通过第一机器翻译单元423或通过第二机器翻译单元424的翻译结果的可靠性低，以及用户A能够在以下的话音中清晰地讲话。因此，能够流畅地执行经由语音翻译装置的两个用户之间的会话。
如上所述，根据第一实施例～第四实施例的语音翻译装置，当用户A的语音的翻译结果的合成语音被生成以及输出给用户B时，生成翻译结果的回译结果的合成语音，使得回译结果的合成语音的持续时间等于翻译结果的合成语音的持续时间。因此，与至用户B的语音(翻译结果)的输出同步，能够将语音(回译结果)输出给用户A。因此，能够避免用户A和用户B之间的语音的冲突。此外，用户A能够同时确认针对用户B而言是否正确地翻译了用户A的话音的内容。
在所公开的实施例中，能够由存储在计算机可读介质中的计算机程序来执行处理。
在实施例中，计算机可读介质可以是例如磁盘、软盘、硬盘、光盘(例如，CD-ROM，CD-R、DVD)、光磁盘(例如，MD)。然而，可以使用任何计算机可读介质，该计算机可读介质被配置为存储用于使得计算机执行上述处理的计算机程序。
此外，基于从存储设备安装到计算机的程序的指示，在计算机上操作的OS(操作系统)或MW(中间件软件)，诸如数据库管理软件或网络，可以执行每个处理的一部分以实现实施例。
此外，存储设备不限制于独立于计算机的设备。通过下载通过LAN或互联网传送的程序，包含存储程序的存储设备。此外，存储设备不限制于一个存储设备。在由多个存储设备来执行实施例的处理的情况下，多个存储设备被包含在存储设备中。
计算机可以根据存储在存储设备中的程序来执行实施例的每个处理阶段。计算机可以是诸如个人计算机或通过网络将多个处理装置连接的系统的一种装置。此外，计算机不限制于个人计算机。本领域的技术人员将了解的是，计算机包含信息处理器中的处理单元、微计算机等。简言之，能够使用程序来执行实施例中的功能的设备和装置一般被称为计算机。
虽然已经描述了某些实施例，但是这些实施例仅是通过示例来呈现的，已经不旨在限制本发明的范围。实际上，可以在各种其它形式中来具体化本文中描述的新颖实施例；此外，在不背离本发明的精神的情况下，可以在本文中描述的实施例的形式上做出各种删减、替换和改变。当将落入本发明的范围和精神内时，所附权利要求书和它们的等同旨在覆盖此类形式或修改。

资源描述

《语音翻译装置和语音翻译方法.pdf》由会员分享，可在线阅读，更多相关《语音翻译装置和语音翻译方法.pdf（28页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410468336.0(22)申请日 2014.09.152013-192550 2013.09.18 JPG06F 17/28(2006.01)G10L 15/26(2006.01)(71)申请人株式会社东芝地址日本东京都(72)发明人住田一男河村聪典釜谷聪史(74)专利代理机构北京市中咨律师事务所 11247代理人杨晓光于静(54) 发明名称语音翻译装置和语音翻译方法(57) 摘要第一语音处理设备包含：第一语音输入单元以及第一语音输出单元。第二语音处理设备包含：第二语音输入单元以及第二语音输出单元。在第一语音处理设备和第二。

2、语音处理设备之间的服务器中，识别从第一语音输入单元发送的第一语言的语音。该翻译结果被回译成第一语言。回译结果的第一语音合成信号被发送给第一语音输出单元。翻译结果的第二语音合成信号被发送给第二语音输出单元。测量第二语音合成信号或第一语音合成信号的持续时间。基于该持续时间，通过使第一语音合成信号或第二语音合成信号的开始时间和结束时间同步，来输出第一语音合成信号或第二语音合成信号。(30)优先权数据(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页说明书10页附图15页(10)申请公布号 CN 104462069 A(43)申请公布日 2015.03.2。

3、5CN 104462069 A1/2页21.一种用于翻译语音的装置，所述装置包括：第一语音处理设备，所述第一语音处理设备包含：第一语音输入单元以捕获第一语言的语音，以及第一语音输出单元以输出所述第一语言的另一种语音；第二语音处理设备，所述第二语音处理设备包含：第二语音输入单元以捕获第二语言的语音，以及第二语音输出单元以输出所述第二语言的另一种语音；以及服务器，所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译；所述服务器包括：语音识别单元，所述语音识别单元被配置为识别从所述第一语音输入单元发送的所述第一语言的所述语音；第一机器翻译单元，所述第一机器翻译单元被配置为将从所述语。

4、音识别单元输出的所述第一语言的语音识别结果翻译成所述第二语言；第二机器翻译单元，所述第二机器翻译单元被配置为将从所述第一机器翻译单元输出的所述第二语言的翻译结果回译成所述第一语言；第一语音合成单元，所述第一语音合成单元被配置为生成从所述第二机器翻译单元输出的回译结果的第一语音合成信号，以及将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音；第二语音合成单元，所述第二语音合成单元被配置为生成从所述第一机器翻译单元输出的所述翻译结果的第二语音合成信号，以及将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音；以及持续时间测量单元，所述持续时间测。

5、量单元被配置为测量所述第二语音合成信号的持续时间，或所述第一语音合成信号的持续时间；其中基于所述持续时间，通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步，来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。2.根据权利要求1所述的装置，其中，如果所述第二语音合成信号的所述持续时间用作标准，则所述第一语音合成单元将所述第一语音合成信号的持续时间设置为所述第二合成信号的所述持续时间。3.根据权利要求1所述的装置，其中如果所述第一语音合成信号的所述持续时间用作标准，则所述第二语音合成单元将所述第二语音合成信号的持续时间。

6、设置为所述第一合成信号的所述持续时间。4.根据权利要求1所述的装置，其中异步地操作所述语音识别单元、所述第一机器翻译单元、所述第二机器翻译单元、所述第一语音合成单元、所述第二语音合成单元以及所述持续时间测量单元。5.根据权利要求1所述的装置，还包括：音量调节单元，所述音量调节单元被配置为，如果输入到所述第一语音输入单元的语音的音量大于预定阈值，则降低从所述第一语权利要求书CN 104462069 A2/2页3音输出单元输出的所述第一语言的所述又一种语音的音量，以及，如果输入到所述第一语音输入单元的所述语音的所述音量不大于所述预定阈值，则将所述第一语言的所述又一种语音的所述音量设置为正常。

7、水平。6.根据权利要求1所述的装置，还包括：延时调节单元，所述延时调节单元被配置为基于所述语音识别结果的可靠性、所述翻译结果的可靠性以及所述回译结果的可靠性中的至少一个的可靠性，延时从所述第一语音输出单元输出的所述第一语言的所述又一种语音的所述开始时间。7.一种在语音翻译系统的服务器中用于翻译语音的方法，所述语音翻译系统包括：第一语音处理设备，所述第一语音处理设备包含：第一语音输入单元以捕获第一语言的语音，以及第一语音输出单元以输出所述第一语言的另一种语音；第二语音处理设备，所述第二语音处理设备包含：第二语音输入单元以捕获第二语言的语音，以及第二语音输出单元以输出所述第二语言的另一种语音；以及。

8、所述服务器，所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译；所述方法包括：识别从所述第一语音输入单元发送的所述第一语言的所述语音；将通过所述识别的所述第一语言的语音识别结果翻译成所述第二语言；将通过所述翻译的所述第二语言的翻译结果回译成所述第一语言；生成通过所述回译的回译结果的第一语音合成信号；将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音；生成所述翻译结果的第二语音合成信号；将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音；测量所述第二语音合成信号的持续时间，或所述第一语音合成信号的持续时间；以及基于所述持。

9、续时间，通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步，来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。权利要求书CN 104462069 A1/10页4语音翻译装置和语音翻译方法技术领域0001 本文中描述的实施例一般涉及语音翻译装置和语音翻译方法。背景技术0002 近年来，随着文化和经济的全球化，在具有不同的母语的人之间支持交流的语音翻译装置是高度期待的。例如，与智能电话结合操作的语音翻译应用软件被商业化。此外，使用了呈现语音翻译功能的服务。0003 在这些应用软件和服务中，当用户以短单元(一个句。

10、子或若干句子)向语音翻译装置说出第一语音的语音时，通过语音识别功能将这个语音转变成对应于该语音的字符串。此外，第一语言(源语言)的这个字符串被翻译成第二语言(目标语言)的字符串。最后，通过语音合成功能，使用第二语言的语音读出作为翻译结果的这个字符串。这里，要求具有第一语言(源语言)的用户以短单元说话。在另一方面，要求具有第二语言(目标语言)的用户确认该短单元中的翻译结果，以及听合成的语音。因此，在使用此类应用软件的会话中，频繁地出现等待时间。因此，很难进行具有高响应性的会话。0004 此外，就用户而言，在没有限制要求用一个句子说话的情况下，期望会话的内容被传递给对方。然而，还没有提供此类功能。。

11、0005 此外，在语音识别或语音合成中，处理语音(诸如，语音输入或语音输出)的物理信号。因此，语音的物理持续时间成为处理时间的约束。这个约束被认为是经由语音翻译装置延时会话中的交互的响应性的原因。0006 图14示出了用户的话语(进入语音翻译装置)和在完成常规的语音输入后，来自语音翻译装置的翻译结果的语音输出之间的时间关系。0007 在图14中，水平轴表示时间转变。当用户A正在使用第一语言说话(t0t1)时，这个语音被捕获(S900)。在完成说话时的定时后，确定并且输出语音识别结果(S910)。这个语音识别结果被输入和翻译成对于用户B能够理解的第二语言(S920)。这个机器翻译结果被输入以及合。

12、成为第二语言的语音(S930)。在当获得语音合成结果的定时(t2)处，合成的语音开始被输出给用户B，以及输出机器翻译的语音(S940)。因此，当用户A正在说话(t0t1)时，没有从语音翻译装置将语音输出给用户B。在时间t2，用户B能够首次听到翻译结果。0008 在另一方面，当正在将语音输出给用户B(t2t3)时，没有从语音翻译装置将语音输出给用户A。这个操作阻碍了互相位于远方不能直接听到各自语音的用户之间的会话。例如，当用户B在用户A正在说话期间说话时，或当用户A在语音正在被输出给用户B的期间说话时，在他们的语音中会出现冲突。0009 在另一方面，为了确认是否准确地执行了机器翻译，在JPA(专。

13、利公开)PH04-319769中提出了回译机器翻译的结果的语音翻译系统。在这个参考文献中，在识别了用户A的语音输入(第一语言)后，通过机器翻译功能将这个识别的结果翻译成第二语言。这个机器翻译结果被回译成第一语言，以及用户A确认这个回译结果是正确的还是不正确说明书CN 104462069 A2/10页5的。在这个确认后，这个机器翻译结果的合成语音被输出给用户B。然而，在这个参考文献中，每个步骤(语音输入、机器翻译、回译、语音合成)是按照顺序执行的。因此，每当执行每个步骤时，会出现等待时间。因此，在用户之间不能流畅地进行语音对话。发明内容0010 实施例提供了在具有不同母语的人之间的语音对话中。

14、能够流畅交流的语音翻译装置和语音翻译方法。0011 根据一个实施例，语音翻译装置包含：第一语音处理设备、第二语音处理设备以及服务器。所述第一语音处理设备包含：第一语音输入单元以捕获第一语言的语音，以及第一语音输出单元以输出所述第一语言的另一种语音。所述第二语音处理设备包含：第二语音输入单元以捕获第二语言的语音，以及第二语音输出单元以输出所述第二语言的另一种语音。所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译。所述服务器包含：语音识别单元、第一机器翻译单元、第二机器翻译单元、第一语音合成单元、第二语音合成单元以及持续时间测量单元。所述语音识别单元被配置为识别从所述第一语音。

15、输入单元发送的所述第一语言的所述语音。所述第一机器翻译单元被配置为将从所述语音识别单元输出的所述第一语言的语音识别结果翻译成所述第二语言。所述第二机器翻译单元被配置为将从所述第一机器翻译单元输出的所述第二语言的翻译结果回译成所述第一语言。所述第一语音合成单元被配置为生成从所述第二机器翻译单元输出的回译结果的第一语音合成信号，以及将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音。所述第二语音合成单元被配置为生成从所述第一机器翻译单元输出的所述翻译结果的第二语音合成信号，以及将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音。所述持续时间测。

16、量单元被配置为测量所述第二语音合成信号的持续时间，或所述第一语音合成信号的持续时间。基于所述持续时间，通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步，来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。0012 根据实施例，能够提供能够在具有不同母语的人之间的语音对话中流畅交流的语音翻译装置和语音翻译方法。附图说明0013 图1是语音翻译装置的硬件组件的一种示例。0014 图2是语音翻译装置的硬件组件的另一种示例。0015 图3是根据第一实施例的语音翻译装置的框图。0016 图4是根据第一实施例的语音翻译装置的处。

17、理的流程图。0017 图5是根据第一实施例的语音输入和语音输出之间的时间关系。0018 图6是根据第一实施例的语音输入和语音输出之间的时间关系(具有原始的语言语音的语音输出)。0019 图7A、7B和图7C是根据第二实施例的语音翻译装置的第一处理、第二处理以及第三处理的流程图。说明书CN 104462069 A3/10页60020 图8是根据第二实施例的语音输入和语音输出之间的时间关系。0021 图9是根据第三实施例的语音翻译装置的框图。0022 图10是根据第三实施例的音量调节的处理的流程图。0023 图11是根据第三实施例的语音输入和语音输出之间的时间关系(具有原始的语言语音的语音输出。

18、)。0024 图12是根据第四实施例的语音翻译装置的框图。0025 图13是根据第四实施例的语音输入和语音输出之间的时间关系。0026 图14是根据常规技术的语音翻译系统的语音输入和语音输出之间的时间关系。具体实施方式0027 图1是根据各种实施例的语音翻译装置的整体组件。用户终端A(100)是第一语音处理设备。用户终端A(100)是便携式壳体，该便携式壳体包含：扬声器111、显示器112、麦克风113以及语音输入按钮114。同样地，用户终端B(150)是第二语音处理设备。用户终端B(150)是便携式壳体，该便携式壳体包含：扬声器151、显示器152、麦克风153以及语音输入按钮154。扬声器。

19、111和扬声器151通过语音输出机器翻译结果和回译结果。显示器112和显示器152显示语音识别结果、机器翻译结果和回译结果。麦克风113和麦克风153捕获用户的话语。语音输入按钮114和语音输入按钮154指示开始捕获话语。0028 用户终端A(100)和用户终端B(150)经由网络200上的语音识别/翻译服务器420连接。通过上述组件，提供了通过便携式电子设备(诸如智能电话)的语音翻译系统。0029 图2是根据各种实施例的语音翻译装置的另一个示例。用户终端A(300)是第一语音处理设备。用户终端A(300)是个人计算机，该个人计算机包含：扬声器311、显示器312、麦克风313、语音输入按钮3。

20、14以及相机315。同样地，用户终端B(350)是第二语音处理设备。用户终端B(350)是个人计算机，该个人计算机包含：扬声器351、显示器352、麦克风353、语音输入按钮354以及相机355。每个设备的功能与图1的每个设备的功能相同。相机315和相机355捕获以用户的面部为中心的身体的上半部分的图像。与图1的方式相同，用户终端A(300)和用户终端B(350)经由网络200上的语音识别/翻译服务器420连接，以及提供了语音翻译系统。网200可以无线通信或有线通信。这个示例等同于电视会议系统的硬件组件。0030 (第一实施例)图3是根据第一实施例的语音翻译装置的主要组件的框图。0031 在图。

21、3的框图中，示出了图1的组件示例。然而，可以应用图2的组件示例。为了使用户A和用户B(位于远方)双向地交谈，用户终端A(100)包含：第一语音输入单元401和第一语音输出单元402。同样地，用户终端B(150)包含：第二语音输入单元411和第二语音输出单元412。用户终端A(100)的第一语音输入单元401相当于图1的麦克风113，以及第一语音输出单元402相当于图1的扬声器111。用户终端B(150)的第二语音输入单元411相当于图1的麦克风153，以及第二语音输出单元412相当于图1的扬声器151。0032 语音识别/翻译服务器420(位于两个终端之间的网络上)包含：第一语音识别单元421。

22、、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元234、第一语音合成单元425、第二语音合成单元426、持续时间测量单元430和控制单元440。说明书CN 104462069 A4/10页70033 第一语音识别单元421接收和捕获从用户终端A(100)的第一语音输入单元401发送的第一语言(例如，日语)的语音。第二语音识别单元422接收和捕获从用户终端B(150)的第二语音输入单元411发送的第二语言(例如，英语)的语音。通过参考翻译词典(未在图中示出)，第一机器翻译单元423将第一语言的语音识别结果(由第一语音识别单元421识别)翻译成第二语言，以及将翻译结果输出给第。

23、二语音合成单元426。此外，为了回译，第一机器翻译单元423将第二语言的翻译结果输出给第二机器翻译单元424。通过参考翻译词典(未在图中示出)，第二机器翻译单元424将第二语言的语音识别结果(由第二语音识别单元422识别)翻译成第一语言，以及将翻译结果输出给第一语音合成单元425。此外，为了回译，第二机器翻译单元424将第二语言的翻译结果输出给第一机器翻译单元423。0034 第一语音合成单元425生成翻译结果或从第二机器翻译单元424输入的回译结果的语音合成信号(第一语言)，以及将语音合成信号输出给用户终端A(100)的第一语音输出设备402。第二语音合成单元426生成翻译结果或从第一机器翻。

24、译单元423输入的回译结果的语音合成信号(第二语言)，以及将语音合成信号输出给用户终端B(150)的第二语音输出设备412。持续时间测量单元430测量第一语言(从第一语音合成单元425输出)的语音合成信号的持续时间或第二语言(从第二语音合成单元426输出)的语音合成信号的持续时间。控制单元440控制这些所有单元的操作定时。此外，在语音翻译装置中，用户终端A(100)、用户终端B(150)以及语音识别/翻译服务器420分别装备有用于网络通信的通信设备(未在图中示出)。0035 接着，将说明在图3中示出的语音翻译装置的操作。0036 在图3中，当用户A经由用户终端A(100)使用第一语言(例如，日。

25、语)说话时，第一语音输入单元401捕获由用户A说出的语音。所捕获的语音被发送给网络上的语音识别/翻译服务器420。在以下说明中，为了简化，将省略用户终端A(100)和语音识别/翻译服务器420之间的通信的说明，以及用户终端B(150)和语音识别/翻译服务器420之间的通信的说明。0037 在语音识别/翻译服务器420中，第一语音识别单元421输入第一语言的语音(通过第一语音输入单元401捕获)，以及识别该语音。这个语音识别结果(第一语言)被输入给第一机器翻译单元423。第一机器翻译单元423输入该语音识别结果，以及执行从第一语言到第二语言(例如，英语)的机器翻译，以及将这个翻译结果输出给第二语。

26、音合成单元426。此外，为了回译，第一机器翻译单元423将翻译结果(第二语言)输出给第二机器翻译单元424。第二机器翻译单元424将翻译结果(第二语言)回译成原始的语言(第一语言)，以及将这个回译结果输出给第一语音合成单元425。0038 因此，通过输入从第一机器翻译单元423输出的翻译结果，第二语音合成单元426生成用户B能够听得见的语音合成信号(第二语言)。从用户终端B(150)的第二语音输出单元412输出第二语言的这个语音。同样地，通过输入从第二机器翻译单元424输出的翻译结果，第一语音合成单元425生成用户A能够听得见的语音合成信号(第一语言)。从用户终端A(100)的第一语音输出单元。

27、402输出第一语言的这个语音。0039 在正在操作语音输出时，持续时间测量单元430测量从第二语音合成单元426输出的第二语言的语音合成信号(即，翻译结果的语音信号)的持续时间。然后，当第一语音说明书CN 104462069 A5/10页8合成单元425基于测量结果，生成用户A能够听得见的第一语言的语音合成信号(即，回译结果的语音信号)时，第一语音合成单元425生成第一语言的语音合成信号，使得它的持续时间等于第二语言的语音合成信号的持续时间。0040 因此，使用相同的持续时间来输出从用户终端B(150)的第二语音输出单元412输出的翻译结果(第二语言)的语音，以及从用户终端A(100)的第。

28、一语音输出单元402输出的回译结果(第一语言)的语音。0041 在以上说明中，持续时间测量单元430测量从第二语音合成单元426输出的语音合成信号(第二语言)的持续时间。然而，通过测量从第一语音合成单元425输出的回译结果的语音合成信号(第一语言)的持续时间，语音合成信号(第二语言)的持续时间可以被调节为等于语音合成信号(第一语言)的持续时间。此外，通过测量语音合成信号(第二语言)和语音合成信号(第一语言)两者的持续时间，可以调节这些语音合成信号。简言之，如果语音合成信号(第二语言)的持续时间用作标准，则第一语音合成单元425将语音合成信号(第一语言)的持续时间调节为等于语音合成信号(第二语言。

29、)的持续时间。在另一方面，如果语音合成信号(第一语言)的持续时间用作标准，则第二语音合成单元426将语音合成信号(第二语言)的持续时间调节为等于语音合成信号(第一语言)的持续时间。0042 同样地，在图3中，当用户B经由用户终端B(150)使用第二语言(例如，英语)说话时，第二语音输入单元411捕获由用户B说出的语音。在语音识别/翻译服务器420中，第二语音识别单元422输入第二语言的语音(通过第二语音输入单元411捕获)，以及识别该语音。这个语音识别结果(第二语言)被输入给第二机器翻译单元424。第二机器翻译单元424输入该语音识别结果，以及执行从第二语言到第一语言(例如，日语)的机器翻译，。

30、以及将这个翻译结果输出给第一语音合成单元425。此外，为了回译，第二机器翻译单元424将翻译结果(第一语言)输出给第一机器翻译单元423。第一机器翻译单元423将翻译结果(第一语言)回译成第二语言，以及将这个回译结果输出给第二语音合成单元426。0043 因此，通过输入从第二机器翻译单元424输出的翻译结果，第一语音合成单元425生成用户A能够听得见的语音合成信号(第一语言)。从用户终端A(100)的第一语音输出单元402输出第一语言的这个语音。同样地，通过输入从第一机器翻译单元423输出的翻译结果，第二语音合成单元426生成用户B能够听得见的语音合成信号(第二语言)。从用户终端B(150)的。

31、第二语音输出单元412输出第二语言的这个语音。0044 在正在操作语音输出时，持续时间测量单元430测量从第一语音合成单元425输出的第一语言的语音合成信号(即，翻译结果的语音信号)的持续时间。然后，当第二语音合成单元426基于测量结果，生成用户B能够听得见的第二语言的语音合成信号(即，回译结果的语音信号)时，第二语音合成单元426生成第二语言的语音合成信号，使得它的持续时间等于第一语言的语音合成信号的持续时间。0045 因此，使用相同的持续时间来输出从用户终端A(100)的第一语音输出单元402输出的翻译结果(第一语言)的语音，以及从用户终端B(150)的第二语音输出单元412输出的回译结果。

32、(第二语言)的语音。0046 图4是图3中示出的语音翻译装置的处理的流程图。为简化说明，在图4中，捕获用户A的第一语言(例如，日语)的语音，以及这个语音被翻译成用户B的第二语言(例如，说明书CN 104462069 A6/10页9英语)。在处理用户B的话语的情况下，能够应用相同的流程图。0047 在图4中，在S510，等待按下用户终端A(100)的语音输入按钮114的操作(事件)。当按下语音输入按钮114时，将这个事件通知给S520。第一语音输入设备401和第一语音识别单元421被激活。在S520，第一语音识别单元421识别从第一语音输入设备401(麦克风113)捕获的用户A的话语。例如，。

33、通过检测这个语音的静音时间间隔(在预定的周期(T1)中，具有小功率的语音信号的一段时间持续)，第一语音识别设备421确定语音识别结果。0048 在S530，由第一语音识别单元421确定的语音识别结果被输入给第一机器翻译单元423。第一机器翻译单元423将该语音识别结果从用户A的第一语言(例如，日语)翻译成用户B的第二语言(例如，英语)。在S540，通过第一机器翻译单元423的第二语言(例如，英语)的翻译结果被输入给第二语音合成单元426。因此，第二语音合成单元426合成翻译结果(通过第一机器翻译单元423)的语音，该语音将被输出为第二语言。0049 接着，在S550，通过第一机器翻译单元423。

34、的翻译结果被输入给第二机器翻译设备424。第二机器翻译设备424将通过第一机器翻译单元423的第二语言(例如，英语)的翻译结果回译成第一语言(例如，日语)。通过第二机器翻译单元424的第一语言(例如，日语)的回译结果被输入给第一语音合成单元425。0050 在560，持续时间测量单元430测量在S540处获取的语音合成信号(第二语言)的持续时间。然后，第一语言合成单元425生成在S550处获取的回译结果(第一语言)的语音合成信号，使得它的持续时间等于由持续时间测量单元430测量的持续时间。最后，在S570，第二语音输出单元412输出在S540处获取的翻译结果(第二语言)的语音合成信号，以及第一。

35、语音输出单元402输出在S560处获取的回译结果(第一语言)的语音合成信号。简言之，从第二语音输出单元412输出的第二语言的表达的持续时间等于从第一语音输出单元402输出的第一语言的表达的持续时间。当完成S570的处理时，处理返回到S510，以及等待下一个事件。0051 图5示出了根据第一实施例的关于用户A的话语(第一语言)，从第二语音输出单元412输出的翻译结果(第二语言)的语音与从第一语音输出单元402输出的回译结果(第一语言)的语音之间的时间关系。0052 第一语音输入单元401捕获用户A的话语“HONJITSUWA NIHONKEIZAINO GENJYOUNITSUITE OHANA。

36、SHISHIMASU”(日语)。同时，第一语音识别单元421识别这个话语。在此之后，通过图4中的S530S560的处理，作为通过第一语音识别单元421获取的语音识别结果的机器翻译结果，生成语音合成信号“Id like to talk about the current situation of Japan economy today”(英语)。此外，作为翻译结果的回译结果，生成语音合成信号“KYOU NIHONKEIZAINO GENJYOUNITSUITE HANASHITAI”(日语)。以相同的持续时间生成这两个语音合成信号。0053 因此，同步地输出从用户终端B的第二语音输出单元412(。

37、扬声器151)输出的翻译结果的语音，从用户终端A的第一语音输出单元402(扬声器111)输出的回译结果的语音。简言之，同时输出每个合成的语音。在图5中，分别匹配翻译结果的语音和回译结果的语音的输出开始时间t2和输出结束时间t3。0054 此外，如在图6中示出的，当第一语音输入单元401正在捕获用户A的语音(日说明书CN 104462069 A7/10页10语)时，第二语音输出单元412可以输出用户A的语音(日语)。因此，用户B能够确认用户A正在说话。0055 (第二实施例)在第一实施例中，由第一语音识别单元421、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元424、第一。

38、语音合成单元425和第二语音合成单元426按照顺序来执行处理。然而，在第二实施例中，通过并行地操作这些单元，能够异步地执行处理。在以下说明中，参照图1和图3的硬件组件。0056 图7A7C是第二实施例的操作的流程图。简言之，在并行地操作第一语音识别单元421、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元424、第一语音合成单元425和第二语音合成单元426的情况下，图7A7C是流程图。0057 首先，通过按下用户终端A(100)的语音输入按钮(114)，开始图7A的流程图的处理。简言之，在S610，等待检测到按下语音输入按钮114的事件的出现(启动操作)。然后，当按下语音输。

39、入按钮114时，处理转到S611。在S611，检查第一语音输入单元401是否正在操作。如果没有正在操作，则在S613，激活第一语音输入单元401和第一语音识别单元421。如果在S611，第一语音输入单元401正在操作，则通过语音输入按钮114的关闭操作，在S615，停止第一语音输入单元401和第一语音识别单元421。0058 因此，通过语音输入按钮114的操作，控制来自用户终端A(100)的语音输入的启动/关闭。第一语音识别单元421识别由第一语音输入单元401顺序捕获的语音。然后，当检测到语音的静音时间间隔时，第一语音识别单元421确定已经输入的语音的识别结果，以及将识别结果输出给第一机器翻。

40、译单元423。0059 图7B是第一机器翻译单元423的操作的流程图。在S630，第一机器翻译单元423等待输入来自第一语音识别单元421的语音识别结果的事件的出现。然后，当从第一语音识别单元421接收到语音识别结果时，在S631，第一机器翻译单元423调用翻译/合成处理，以及在S630等待下一个事件。0060 图7C是执行在S631处调用的翻译/合成处理的流程图。首先，在S650，第一语音识别单元423的语音识别结果被输入给第一机器翻译单元423，以及从第一机器翻译单元423获得将语音识别结果翻译成用户B的第二语言的翻译结果。此外，在S651，该翻译结果(在S650处获得)被输入给第二语音合。

41、成单元426，以及从第二语音合成单元426获得第二语言的语音合成信号。此外，在S652，翻译结果(在S650处获得)被输入给第二机器翻译单元424，以及从第二机器翻译单元424获得回译结果。0061 接着，在S653，持续时间测量单元430测量从第二语音合成单元426输出的语音合成信号的持续时间。第一语音合成单元425生成从第二机器翻译单元424输出的回译结果的语音合成信号，使得它的持续时间等于由持续时间测量单元430测量的持续时间。然后，在S654，确定第一语音输出单元402是否正在输出语音。如果没有正在输出语音，则在S655，第二语音输出单元412输出翻译结果的语音。同时，第一语音输出单元402输出回译结果的语音。0062 图8示出了基于图7A7C的流程图，在来自用户终端A(100)的语音、来自第二语音输出单元412的翻译结果的语音输出以及来自第一输出单元402的回译结果的语音输出之间的时间关系。说明书CN 104462069 A10。

展开阅读全文