《语音翻译装置和语音翻译方法.pdf》由会员分享,可在线阅读,更多相关《语音翻译装置和语音翻译方法.pdf(28页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410468336.0(22)申请日 2014.09.152013-192550 2013.09.18 JPG06F 17/28(2006.01)G10L 15/26(2006.01)(71)申请人株式会社东芝地址日本东京都(72)发明人住田一男 河村聪典 釜谷聪史(74)专利代理机构北京市中咨律师事务所 11247代理人杨晓光 于静(54) 发明名称语音翻译装置和语音翻译方法(57) 摘要第一语音处理设备包含:第一语音输入单元以及第一语音输出单元。第二语音处理设备包含:第二语音输入单元以及第二语音输出单元。在第一语音处理设备和第二。
2、语音处理设备之间的服务器中,识别从第一语音输入单元发送的第一语言的语音。该翻译结果被回译成第一语言。回译结果的第一语音合成信号被发送给第一语音输出单元。翻译结果的第二语音合成信号被发送给第二语音输出单元。测量第二语音合成信号或第一语音合成信号的持续时间。基于该持续时间,通过使第一语音合成信号或第二语音合成信号的开始时间和结束时间同步,来输出第一语音合成信号或第二语音合成信号。(30)优先权数据(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书10页 附图15页(10)申请公布号 CN 104462069 A(43)申请公布日 2015.03.2。
3、5CN 104462069 A1/2页21.一种用于翻译语音的装置,所述装置包括:第一语音处理设备,所述第一语音处理设备包含:第一语音输入单元以捕获第一语言的语音,以及第一语音输出单元以输出所述第一语言的另一种语音;第二语音处理设备,所述第二语音处理设备包含:第二语音输入单元以捕获第二语言的语音,以及第二语音输出单元以输出所述第二语言的另一种语音;以及服务器,所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译;所述服务器包括:语音识别单元,所述语音识别单元被配置为识别从所述第一语音输入单元发送的所述第一语言的所述语音;第一机器翻译单元,所述第一机器翻译单元被配置为将从所述语。
4、音识别单元输出的所述第一语言的语音识别结果翻译成所述第二语言;第二机器翻译单元,所述第二机器翻译单元被配置为将从所述第一机器翻译单元输出的所述第二语言的翻译结果回译成所述第一语言;第一语音合成单元,所述第一语音合成单元被配置为生成从所述第二机器翻译单元输出的回译结果的第一语音合成信号,以及将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音;第二语音合成单元,所述第二语音合成单元被配置为生成从所述第一机器翻译单元输出的所述翻译结果的第二语音合成信号,以及将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音;以及持续时间测量单元,所述持续时间测。
5、量单元被配置为测量所述第二语音合成信号的持续时间,或所述第一语音合成信号的持续时间;其中基于所述持续时间,通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步,来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。2.根据权利要求1所述的装置,其中,如果所述第二语音合成信号的所述持续时间用作标准,则所述第一语音合成单元将所述第一语音合成信号的持续时间设置为所述第二合成信号的所述持续时间。3.根据权利要求1所述的装置,其中如果所述第一语音合成信号的所述持续时间用作标准,则所述第二语音合成单元将所述第二语音合成信号的持续时间。
6、设置为所述第一合成信号的所述持续时间。4.根据权利要求1所述的装置,其中异步地操作所述语音识别单元、所述第一机器翻译单元、所述第二机器翻译单元、所述第一语音合成单元、所述第二语音合成单元以及所述持续时间测量单元。5.根据权利要求1所述的装置,还包括:音量调节单元,所述音量调节单元被配置为,如果输入到所述第一语音输入单元的语音的音量大于预定阈值,则降低从所述第一语权 利 要 求 书CN 104462069 A2/2页3音输出单元输出的所述第一语言的所述又一种语音的音量,以及,如果输入到所述第一语音输入单元的所述语音的所述音量不大于所述预定阈值,则将所述第一语言的所述又一种语音的所述音量设置为正常。
7、水平。6.根据权利要求1所述的装置,还包括:延时调节单元,所述延时调节单元被配置为基于所述语音识别结果的可靠性、所述翻译结果的可靠性以及所述回译结果的可靠性中的至少一个的可靠性,延时从所述第一语音输出单元输出的所述第一语言的所述又一种语音的所述开始时间。7.一种在语音翻译系统的服务器中用于翻译语音的方法,所述语音翻译系统包括:第一语音处理设备,所述第一语音处理设备包含:第一语音输入单元以捕获第一语言的语音,以及第一语音输出单元以输出所述第一语言的另一种语音;第二语音处理设备,所述第二语音处理设备包含:第二语音输入单元以捕获第二语言的语音,以及第二语音输出单元以输出所述第二语言的另一种语音;以及。
8、所述服务器,所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译;所述方法包括:识别从所述第一语音输入单元发送的所述第一语言的所述语音;将通过所述识别的所述第一语言的语音识别结果翻译成所述第二语言;将通过所述翻译的所述第二语言的翻译结果回译成所述第一语言;生成通过所述回译的回译结果的第一语音合成信号;将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音;生成所述翻译结果的第二语音合成信号;将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音;测量所述第二语音合成信号的持续时间,或所述第一语音合成信号的持续时间;以及基于所述持。
9、续时间,通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步,来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。权 利 要 求 书CN 104462069 A1/10页4语音翻译装置和语音翻译方法技术领域0001 本文中描述的实施例一般涉及语音翻译装置和语音翻译方法。背景技术0002 近年来,随着文化和经济的全球化,在具有不同的母语的人之间支持交流的语音翻译装置是高度期待的。例如,与智能电话结合操作的语音翻译应用软件被商业化。此外,使用了呈现语音翻译功能的服务。0003 在这些应用软件和服务中,当用户以短单元(一个句。
10、子或若干句子)向语音翻译装置说出第一语音的语音时,通过语音识别功能将这个语音转变成对应于该语音的字符串。此外,第一语言(源语言)的这个字符串被翻译成第二语言(目标语言)的字符串。最后,通过语音合成功能,使用第二语言的语音读出作为翻译结果的这个字符串。这里,要求具有第一语言(源语言)的用户以短单元说话。在另一方面,要求具有第二语言(目标语言)的用户确认该短单元中的翻译结果,以及听合成的语音。因此,在使用此类应用软件的会话中,频繁地出现等待时间。因此,很难进行具有高响应性的会话。0004 此外,就用户而言,在没有限制要求用一个句子说话的情况下,期望会话的内容被传递给对方。然而,还没有提供此类功能。。
11、0005 此外,在语音识别或语音合成中,处理语音(诸如,语音输入或语音输出)的物理信号。因此,语音的物理持续时间成为处理时间的约束。这个约束被认为是经由语音翻译装置延时会话中的交互的响应性的原因。0006 图14示出了用户的话语(进入语音翻译装置)和在完成常规的语音输入后,来自语音翻译装置的翻译结果的语音输出之间的时间关系。0007 在图14中,水平轴表示时间转变。当用户A正在使用第一语言说话(t0t1)时,这个语音被捕获(S900)。在完成说话时的定时后,确定并且输出语音识别结果(S910)。这个语音识别结果被输入和翻译成对于用户B能够理解的第二语言(S920)。这个机器翻译结果被输入以及合。
12、成为第二语言的语音(S930)。在当获得语音合成结果的定时(t2)处,合成的语音开始被输出给用户B,以及输出机器翻译的语音(S940)。因此,当用户A正在说话(t0t1)时,没有从语音翻译装置将语音输出给用户B。在时间t2,用户B能够首次听到翻译结果。0008 在另一方面,当正在将语音输出给用户B(t2t3)时,没有从语音翻译装置将语音输出给用户A。这个操作阻碍了互相位于远方不能直接听到各自语音的用户之间的会话。例如,当用户B在用户A正在说话期间说话时,或当用户A在语音正在被输出给用户B的期间说话时,在他们的语音中会出现冲突。0009 在另一方面,为了确认是否准确地执行了机器翻译,在JPA(专。
13、利公开)PH04-319769中提出了回译机器翻译的结果的语音翻译系统。在这个参考文献中,在识别了用户A的语音输入(第一语言)后,通过机器翻译功能将这个识别的结果翻译成第二语言。这个机器翻译结果被回译成第一语言,以及用户A确认这个回译结果是正确的还是不正确说 明 书CN 104462069 A2/10页5的。在这个确认后,这个机器翻译结果的合成语音被输出给用户B。然而,在这个参考文献中,每个步骤(语音输入、机器翻译、回译、语音合成)是按照顺序执行的。因此,每当执行每个步骤时,会出现等待时间。因此,在用户之间不能流畅地进行语音对话。发明内容0010 实施例提供了在具有不同母语的人之间的语音对话中。
14、能够流畅交流的语音翻译装置和语音翻译方法。0011 根据一个实施例,语音翻译装置包含:第一语音处理设备、第二语音处理设备以及服务器。所述第一语音处理设备包含:第一语音输入单元以捕获第一语言的语音,以及第一语音输出单元以输出所述第一语言的另一种语音。所述第二语音处理设备包含:第二语音输入单元以捕获第二语言的语音,以及第二语音输出单元以输出所述第二语言的另一种语音。所述服务器执行所述第一语音处理设备和所述第二语音处理设备之间的语音翻译。所述服务器包含:语音识别单元、第一机器翻译单元、第二机器翻译单元、第一语音合成单元、第二语音合成单元以及持续时间测量单元。所述语音识别单元被配置为识别从所述第一语音。
15、输入单元发送的所述第一语言的所述语音。所述第一机器翻译单元被配置为将从所述语音识别单元输出的所述第一语言的语音识别结果翻译成所述第二语言。所述第二机器翻译单元被配置为将从所述第一机器翻译单元输出的所述第二语言的翻译结果回译成所述第一语言。所述第一语音合成单元被配置为生成从所述第二机器翻译单元输出的回译结果的第一语音合成信号,以及将所述第一语音合成信号发送给所述第一语音输出单元以输出所述第一语言的又一种语音。所述第二语音合成单元被配置为生成从所述第一机器翻译单元输出的所述翻译结果的第二语音合成信号,以及将所述第二语音合成信号发送给所述第二语音输出单元以输出所述第二语言的又一种语音。所述持续时间测。
16、量单元被配置为测量所述第二语音合成信号的持续时间,或所述第一语音合成信号的持续时间。基于所述持续时间,通过使所述第一语言的所述又一种语音的开始时间和结束时间分别与所述第二语言的所述又一种语音的开始时间和结束时间同步,来输出所述第一语言的所述又一种语音以及所述第二语言的所述又一种语音。0012 根据实施例,能够提供能够在具有不同母语的人之间的语音对话中流畅交流的语音翻译装置和语音翻译方法。附图说明0013 图1是语音翻译装置的硬件组件的一种示例。0014 图2是语音翻译装置的硬件组件的另一种示例。0015 图3是根据第一实施例的语音翻译装置的框图。0016 图4是根据第一实施例的语音翻译装置的处。
17、理的流程图。0017 图5是根据第一实施例的语音输入和语音输出之间的时间关系。0018 图6是根据第一实施例的语音输入和语音输出之间的时间关系(具有原始的语言语音的语音输出)。0019 图7A、7B和图7C是根据第二实施例的语音翻译装置的第一处理、第二处理以及第三处理的流程图。说 明 书CN 104462069 A3/10页60020 图8是根据第二实施例的语音输入和语音输出之间的时间关系。0021 图9是根据第三实施例的语音翻译装置的框图。0022 图10是根据第三实施例的音量调节的处理的流程图。0023 图11是根据第三实施例的语音输入和语音输出之间的时间关系(具有原始的语言语音的语音输出。
18、)。0024 图12是根据第四实施例的语音翻译装置的框图。0025 图13是根据第四实施例的语音输入和语音输出之间的时间关系。0026 图14是根据常规技术的语音翻译系统的语音输入和语音输出之间的时间关系。具体实施方式0027 图1是根据各种实施例的语音翻译装置的整体组件。用户终端A(100)是第一语音处理设备。用户终端A(100)是便携式壳体,该便携式壳体包含:扬声器111、显示器112、麦克风113以及语音输入按钮114。同样地,用户终端B(150)是第二语音处理设备。用户终端B(150)是便携式壳体,该便携式壳体包含:扬声器151、显示器152、麦克风153以及语音输入按钮154。扬声器。
19、111和扬声器151通过语音输出机器翻译结果和回译结果。显示器112和显示器152显示语音识别结果、机器翻译结果和回译结果。麦克风113和麦克风153捕获用户的话语。语音输入按钮114和语音输入按钮154指示开始捕获话语。0028 用户终端A(100)和用户终端B(150)经由网络200上的语音识别/翻译服务器420连接。通过上述组件,提供了通过便携式电子设备(诸如智能电话)的语音翻译系统。0029 图2是根据各种实施例的语音翻译装置的另一个示例。用户终端A(300)是第一语音处理设备。用户终端A(300)是个人计算机,该个人计算机包含:扬声器311、显示器312、麦克风313、语音输入按钮3。
20、14以及相机315。同样地,用户终端B(350)是第二语音处理设备。用户终端B(350)是个人计算机,该个人计算机包含:扬声器351、显示器352、麦克风353、语音输入按钮354以及相机355。每个设备的功能与图1的每个设备的功能相同。相机315和相机355捕获以用户的面部为中心的身体的上半部分的图像。与图1的方式相同,用户终端A(300)和用户终端B(350)经由网络200上的语音识别/翻译服务器420连接,以及提供了语音翻译系统。网200可以无线通信或有线通信。这个示例等同于电视会议系统的硬件组件。0030 (第一实施例)图3是根据第一实施例的语音翻译装置的主要组件的框图。0031 在图。
21、3的框图中,示出了图1的组件示例。然而,可以应用图2的组件示例。为了使用户A和用户B(位于远方)双向地交谈,用户终端A(100)包含:第一语音输入单元401和第一语音输出单元402。同样地,用户终端B(150)包含:第二语音输入单元411和第二语音输出单元412。用户终端A(100)的第一语音输入单元401相当于图1的麦克风113,以及第一语音输出单元402相当于图1的扬声器111。用户终端B(150)的第二语音输入单元411相当于图1的麦克风153,以及第二语音输出单元412相当于图1的扬声器151。0032 语音识别/翻译服务器420(位于两个终端之间的网络上)包含:第一语音识别单元421。
22、、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元234、第一语音合成单元425、第二语音合成单元426、持续时间测量单元430和控制单元440。说 明 书CN 104462069 A4/10页70033 第一语音识别单元421接收和捕获从用户终端A(100)的第一语音输入单元401发送的第一语言(例如,日语)的语音。第二语音识别单元422接收和捕获从用户终端B(150)的第二语音输入单元411发送的第二语言(例如,英语)的语音。通过参考翻译词典(未在图中示出),第一机器翻译单元423将第一语言的语音识别结果(由第一语音识别单元421识别)翻译成第二语言,以及将翻译结果输出给第。
23、二语音合成单元426。此外,为了回译,第一机器翻译单元423将第二语言的翻译结果输出给第二机器翻译单元424。通过参考翻译词典(未在图中示出),第二机器翻译单元424将第二语言的语音识别结果(由第二语音识别单元422识别)翻译成第一语言,以及将翻译结果输出给第一语音合成单元425。此外,为了回译,第二机器翻译单元424将第二语言的翻译结果输出给第一机器翻译单元423。0034 第一语音合成单元425生成翻译结果或从第二机器翻译单元424输入的回译结果的语音合成信号(第一语言),以及将语音合成信号输出给用户终端A(100)的第一语音输出设备402。第二语音合成单元426生成翻译结果或从第一机器翻。
24、译单元423输入的回译结果的语音合成信号(第二语言),以及将语音合成信号输出给用户终端B(150)的第二语音输出设备412。持续时间测量单元430测量第一语言(从第一语音合成单元425输出)的语音合成信号的持续时间或第二语言(从第二语音合成单元426输出)的语音合成信号的持续时间。控制单元440控制这些所有单元的操作定时。此外,在语音翻译装置中,用户终端A(100)、用户终端B(150)以及语音识别/翻译服务器420分别装备有用于网络通信的通信设备(未在图中示出)。0035 接着,将说明在图3中示出的语音翻译装置的操作。0036 在图3中,当用户A经由用户终端A(100)使用第一语言(例如,日。
25、语)说话时,第一语音输入单元401捕获由用户A说出的语音。所捕获的语音被发送给网络上的语音识别/翻译服务器420。在以下说明中,为了简化,将省略用户终端A(100)和语音识别/翻译服务器420之间的通信的说明,以及用户终端B(150)和语音识别/翻译服务器420之间的通信的说明。0037 在语音识别/翻译服务器420中,第一语音识别单元421输入第一语言的语音(通过第一语音输入单元401捕获),以及识别该语音。这个语音识别结果(第一语言)被输入给第一机器翻译单元423。第一机器翻译单元423输入该语音识别结果,以及执行从第一语言到第二语言(例如,英语)的机器翻译,以及将这个翻译结果输出给第二语。
26、音合成单元426。此外,为了回译,第一机器翻译单元423将翻译结果(第二语言)输出给第二机器翻译单元424。第二机器翻译单元424将翻译结果(第二语言)回译成原始的语言(第一语言),以及将这个回译结果输出给第一语音合成单元425。0038 因此,通过输入从第一机器翻译单元423输出的翻译结果,第二语音合成单元426生成用户B能够听得见的语音合成信号(第二语言)。从用户终端B(150)的第二语音输出单元412输出第二语言的这个语音。同样地,通过输入从第二机器翻译单元424输出的翻译结果,第一语音合成单元425生成用户A能够听得见的语音合成信号(第一语言)。从用户终端A(100)的第一语音输出单元。
27、402输出第一语言的这个语音。0039 在正在操作语音输出时,持续时间测量单元430测量从第二语音合成单元426输出的第二语言的语音合成信号(即,翻译结果的语音信号)的持续时间。然后,当第一语音说 明 书CN 104462069 A5/10页8合成单元425基于测量结果,生成用户A能够听得见的第一语言的语音合成信号(即,回译结果的语音信号)时,第一语音合成单元425生成第一语言的语音合成信号,使得它的持续时间等于第二语言的语音合成信号的持续时间。0040 因此,使用相同的持续时间来输出从用户终端B(150)的第二语音输出单元412输出的翻译结果(第二语言)的语音,以及从用户终端A(100)的第。
28、一语音输出单元402输出的回译结果(第一语言)的语音。0041 在以上说明中,持续时间测量单元430测量从第二语音合成单元426输出的语音合成信号(第二语言)的持续时间。然而,通过测量从第一语音合成单元425输出的回译结果的语音合成信号(第一语言)的持续时间,语音合成信号(第二语言)的持续时间可以被调节为等于语音合成信号(第一语言)的持续时间。此外,通过测量语音合成信号(第二语言)和语音合成信号(第一语言)两者的持续时间,可以调节这些语音合成信号。简言之,如果语音合成信号(第二语言)的持续时间用作标准,则第一语音合成单元425将语音合成信号(第一语言)的持续时间调节为等于语音合成信号(第二语言。
29、)的持续时间。在另一方面,如果语音合成信号(第一语言)的持续时间用作标准,则第二语音合成单元426将语音合成信号(第二语言)的持续时间调节为等于语音合成信号(第一语言)的持续时间。0042 同样地,在图3中,当用户B经由用户终端B(150)使用第二语言(例如,英语)说话时,第二语音输入单元411捕获由用户B说出的语音。在语音识别/翻译服务器420中,第二语音识别单元422输入第二语言的语音(通过第二语音输入单元411捕获),以及识别该语音。这个语音识别结果(第二语言)被输入给第二机器翻译单元424。第二机器翻译单元424输入该语音识别结果,以及执行从第二语言到第一语言(例如,日语)的机器翻译,。
30、以及将这个翻译结果输出给第一语音合成单元425。此外,为了回译,第二机器翻译单元424将翻译结果(第一语言)输出给第一机器翻译单元423。第一机器翻译单元423将翻译结果(第一语言)回译成第二语言,以及将这个回译结果输出给第二语音合成单元426。0043 因此,通过输入从第二机器翻译单元424输出的翻译结果,第一语音合成单元425生成用户A能够听得见的语音合成信号(第一语言)。从用户终端A(100)的第一语音输出单元402输出第一语言的这个语音。同样地,通过输入从第一机器翻译单元423输出的翻译结果,第二语音合成单元426生成用户B能够听得见的语音合成信号(第二语言)。从用户终端B(150)的。
31、第二语音输出单元412输出第二语言的这个语音。0044 在正在操作语音输出时,持续时间测量单元430测量从第一语音合成单元425输出的第一语言的语音合成信号(即,翻译结果的语音信号)的持续时间。然后,当第二语音合成单元426基于测量结果,生成用户B能够听得见的第二语言的语音合成信号(即,回译结果的语音信号)时,第二语音合成单元426生成第二语言的语音合成信号,使得它的持续时间等于第一语言的语音合成信号的持续时间。0045 因此,使用相同的持续时间来输出从用户终端A(100)的第一语音输出单元402输出的翻译结果(第一语言)的语音,以及从用户终端B(150)的第二语音输出单元412输出的回译结果。
32、(第二语言)的语音。0046 图4是图3中示出的语音翻译装置的处理的流程图。为简化说明,在图4中,捕获用户A的第一语言(例如,日语)的语音,以及这个语音被翻译成用户B的第二语言(例如,说 明 书CN 104462069 A6/10页9英语)。在处理用户B的话语的情况下,能够应用相同的流程图。0047 在图4中,在S510,等待按下用户终端A(100)的语音输入按钮114的操作(事件)。当按下语音输入按钮114时,将这个事件通知给S520。第一语音输入设备401和第一语音识别单元421被激活。在S520,第一语音识别单元421识别从第一语音输入设备401(麦克风113)捕获的用户A的话语。例如,。
33、通过检测这个语音的静音时间间隔(在预定的周期(T1)中,具有小功率的语音信号的一段时间持续),第一语音识别设备421确定语音识别结果。0048 在S530,由第一语音识别单元421确定的语音识别结果被输入给第一机器翻译单元423。第一机器翻译单元423将该语音识别结果从用户A的第一语言(例如,日语)翻译成用户B的第二语言(例如,英语)。在S540,通过第一机器翻译单元423的第二语言(例如,英语)的翻译结果被输入给第二语音合成单元426。因此,第二语音合成单元426合成翻译结果(通过第一机器翻译单元423)的语音,该语音将被输出为第二语言。0049 接着,在S550,通过第一机器翻译单元423。
34、的翻译结果被输入给第二机器翻译设备424。第二机器翻译设备424将通过第一机器翻译单元423的第二语言(例如,英语)的翻译结果回译成第一语言(例如,日语)。通过第二机器翻译单元424的第一语言(例如,日语)的回译结果被输入给第一语音合成单元425。0050 在560,持续时间测量单元430测量在S540处获取的语音合成信号(第二语言)的持续时间。然后,第一语言合成单元425生成在S550处获取的回译结果(第一语言)的语音合成信号,使得它的持续时间等于由持续时间测量单元430测量的持续时间。最后,在S570,第二语音输出单元412输出在S540处获取的翻译结果(第二语言)的语音合成信号,以及第一。
35、语音输出单元402输出在S560处获取的回译结果(第一语言)的语音合成信号。简言之,从第二语音输出单元412输出的第二语言的表达的持续时间等于从第一语音输出单元402输出的第一语言的表达的持续时间。当完成S570的处理时,处理返回到S510,以及等待下一个事件。0051 图5示出了根据第一实施例的关于用户A的话语(第一语言),从第二语音输出单元412输出的翻译结果(第二语言)的语音与从第一语音输出单元402输出的回译结果(第一语言)的语音之间的时间关系。0052 第一语音输入单元401捕获用户A的话语“HONJITSUWA NIHONKEIZAINO GENJYOUNITSUITE OHANA。
36、SHISHIMASU”(日语)。同时,第一语音识别单元421识别这个话语。在此之后,通过图4中的S530S560的处理,作为通过第一语音识别单元421获取的语音识别结果的机器翻译结果,生成语音合成信号“Id like to talk about the current situation of Japan economy today”(英语)。此外,作为翻译结果的回译结果,生成语音合成信号“KYOU NIHONKEIZAINO GENJYOUNITSUITE HANASHITAI”(日语)。以相同的持续时间生成这两个语音合成信号。0053 因此,同步地输出从用户终端B的第二语音输出单元412(。
37、扬声器151)输出的翻译结果的语音,从用户终端A的第一语音输出单元402(扬声器111)输出的回译结果的语音。简言之,同时输出每个合成的语音。在图5中,分别匹配翻译结果的语音和回译结果的语音的输出开始时间t2和输出结束时间t3。0054 此外,如在图6中示出的,当第一语音输入单元401正在捕获用户A的语音(日说 明 书CN 104462069 A7/10页10语)时,第二语音输出单元412可以输出用户A的语音(日语)。因此,用户B能够确认用户A正在说话。0055 (第二实施例)在第一实施例中,由第一语音识别单元421、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元424、第一。
38、语音合成单元425和第二语音合成单元426按照顺序来执行处理。然而,在第二实施例中,通过并行地操作这些单元,能够异步地执行处理。在以下说明中,参照图1和图3的硬件组件。0056 图7A7C是第二实施例的操作的流程图。简言之,在并行地操作第一语音识别单元421、第二语音识别单元422、第一机器翻译单元423、第二机器翻译单元424、第一语音合成单元425和第二语音合成单元426的情况下,图7A7C是流程图。0057 首先,通过按下用户终端A(100)的语音输入按钮(114),开始图7A的流程图的处理。简言之,在S610,等待检测到按下语音输入按钮114的事件的出现(启动操作)。然后,当按下语音输。
39、入按钮114时,处理转到S611。在S611,检查第一语音输入单元401是否正在操作。如果没有正在操作,则在S613,激活第一语音输入单元401和第一语音识别单元421。如果在S611,第一语音输入单元401正在操作,则通过语音输入按钮114的关闭操作,在S615,停止第一语音输入单元401和第一语音识别单元421。0058 因此,通过语音输入按钮114的操作,控制来自用户终端A(100)的语音输入的启动/关闭。第一语音识别单元421识别由第一语音输入单元401顺序捕获的语音。然后,当检测到语音的静音时间间隔时,第一语音识别单元421确定已经输入的语音的识别结果,以及将识别结果输出给第一机器翻。
40、译单元423。0059 图7B是第一机器翻译单元423的操作的流程图。在S630,第一机器翻译单元423等待输入来自第一语音识别单元421的语音识别结果的事件的出现。然后,当从第一语音识别单元421接收到语音识别结果时,在S631,第一机器翻译单元423调用翻译/合成处理,以及在S630等待下一个事件。0060 图7C是执行在S631处调用的翻译/合成处理的流程图。首先,在S650,第一语音识别单元423的语音识别结果被输入给第一机器翻译单元423,以及从第一机器翻译单元423获得将语音识别结果翻译成用户B的第二语言的翻译结果。此外,在S651,该翻译结果(在S650处获得)被输入给第二语音合。
41、成单元426,以及从第二语音合成单元426获得第二语言的语音合成信号。此外,在S652,翻译结果(在S650处获得)被输入给第二机器翻译单元424,以及从第二机器翻译单元424获得回译结果。0061 接着,在S653,持续时间测量单元430测量从第二语音合成单元426输出的语音合成信号的持续时间。第一语音合成单元425生成从第二机器翻译单元424输出的回译结果的语音合成信号,使得它的持续时间等于由持续时间测量单元430测量的持续时间。然后,在S654,确定第一语音输出单元402是否正在输出语音。如果没有正在输出语音,则在S655,第二语音输出单元412输出翻译结果的语音。同时,第一语音输出单元402输出回译结果的语音。0062 图8示出了基于图7A7C的流程图,在来自用户终端A(100)的语音、来自第二语音输出单元412的翻译结果的语音输出以及来自第一输出单元402的回译结果的语音输出之间的时间关系。说 明 书CN 104462069 A10。