配置用于语音识别的音频处理路径的方法和系统.pdf

上传人:Y0****01 文档编号:4568903 上传时间:2018-10-20 格式:PDF 页数:25 大小:1.19MB
返回 下载 相关 举报
摘要
申请专利号:

CN200880018073.6

申请日:

2008.05.27

公开号:

CN101689367A

公开日:

2010.03.31

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G10L 15/28公开日:20100331|||实质审查的生效IPC(主分类):G10L 15/28申请日:20080527|||公开

IPC分类号:

G10L15/28; H04M1/60

主分类号:

G10L15/28

申请人:

摩托罗拉公司

发明人:

弗雷德里克·J·赞布里克; 建明·J·宋; 田 军

地址:

美国伊利诺伊州

优先权:

2007.5.31 US 11/756,430

专利代理机构:

中原信达知识产权代理有限责任公司

代理人:

穆德骏;陆锦华

PDF下载: PDF下载
内容摘要

提供了一种系统(100)和方法(400),用于配置用于语音识别的音频处理路径和随后数据发送方法和链路。该系统可包含:耳机(110),其用于确定语音信号的语音请求类型,根据该语音请求类型配置该语音信号的音频处理路径;以及移动设备(160),其用于接收语音请求类型,并且根据所述语音请求类型配置语音信号的音频处理路径和数据发送,以利用处于免提模式的蓝牙耳机实现高识别准确性。

权利要求书

1.  一种通过通信链路通信地耦合至移动设备的耳机,所述耳机包括:
音频模块,所述音频模块响应于确定语音请求类型,配置用于语音识别的在所述耳机中的语音信号的第一音频处理路径,以及用于语音通信的在所述耳机中的所述语音信号的第二音频处理路径,
其中,如果所述语音请求类型对应于语音识别请求,所述音频模块调整所述第一音频处理路径中的所述语音信号的编码速率,以生成高品质话音,并且选择所述通信链路的数据速率以对应于所述耳机中的所述语音信号的编码速率,以在所述移动设备上实现高语音识别准确性。

2.
  根据权利要求1的所述耳机,其中,所述音频模块包括:
模拟至数字(A/D)转换器,所述模拟至数字(A/D)转换器捕捉声音信号并且生成所述语音信号;
控制器,所述控制器确定所述语音请求类型,并且根据所述语音请求类型选择性地编码和调制所述语音信号;
编码器,如果所述语音请求类型对应于语音通信请求,所述编码器编码所述语音信号,以生成编码语音信号;
调制器,如果所述语音请求类型对应于语音通信请求,所述调制器调制所述编码语音信号,或者如果所述语音请求类型对应于语音识别请求,所述调制器调制所述语音信号,以生成调制信号;以及
发射器,所述发射器发送所述调制信号和所述语音请求类型。

3.
  根据权利要求1的所述耳机,其中,所述控制器响应于用户输入而生成语音识别请求。

4.
  根据权利要求1的所述耳机,其中,当所述语音请求类型对应于语音识别时,所述音频模块以较高数据速率发送所述语音信号,并且当所述语音请求类型对应于语音通信时,所述音频模块以较低数据速率发送所述语音信号。

5.
  根据权利要求4的所述耳机,其中,所述发射器通过用于语音识别的异步无连接(ACL)逻辑传输以及用于所述语音通信的同步面向连接(SCO)逻辑传输,发送所述语音信号。

6.
  一种用于通过可变速率通信链路耦合的耳机与移动设备之间的通信的语音处理的方法,包括:
如果语音请求类型对应于语音识别,配置在所述耳机中的所述语音信号的第一语音识别路径,通过调整所述语音识别路径中的所述语音信号的编码速率以生成高品质话音,并且选择所述通信链路的数据速率以对应于所述耳机中的所述语音信号的所述编码速率,以在所述移动设备上实现高语音识别准确性;以及
如果所述语音请求类型对应于语音识别,配置用于语音通信的在所述移动设备中的所述语音信号的第二语音识别路径,通过调整所述第二语音识别路径内的所述语音信号的解码速率以对应于所述通信链路的所述数据速率,并且将所述语音信号呈现给语音识别系统用于高性能识别。

7.
  根据权利要求6的所述方法,包括:
鉴别用于语音识别的用户请求;
切换至所述第一音频处理路径,以调节用于语音识别的所述语音信号;
接收语音识别确认;以及
响应于接收到所述语音识别确认,切换至所述第二音频处理路径,以调节用于语音通信的所述语音信号。

8.
  根据权利要求6的所述方法,其中,所述第一音频处理路径在耳机上,并且所述配置包括:
将声音信号数字化,以生成数字化信号;
调制所述数字化信号,以生成调制信号;以及
发送所述调制信号和所述语音信号类型。

9.
  根据权利要求6的所述方法,其中,所述第二音频处理路径在耳机上,并且所述配置包括:
将声音信号数字化,以生成数字化信号;
编码所述数字化信号,以生成编码信号;
调制所述编码信号以生成调制信号;以及
发送所述调制信号和所述语音信号类型。

10.
  根据权利要求6的所述方法,其中所述第一音频处理路径在移动设备上,并且所述配置包括:
接收所述调制信号和所述语音信号类型;
解调所述调制信号以生成解调信号;
将所述解调信号传送至语音识别系统;以及
以用于提供语音识别的语音识别确认进行响应。

说明书

配置用于语音识别的音频处理路径的方法和系统
技术领域
本发明涉及移动设备,而且,更确切地说,涉及用于音频路径配置的方法和系统。
背景技术
由于语音识别(VR)成为移动设备上的普通功能,并且蓝牙(BT)耳机成为移动设备的配件,对于移动通信,真正的免提/免视设备交互通过语音用户接口(UI)变成现实。BT耳机和VR移动设备的一种典型使用情形是,当用户将耳机带在耳朵上时,能够按下耳机上的语音按钮,然后发出语音呼叫命令,该语音呼叫命令被BT耳机捕捉,然后被发送至VR移动设备。VR移动设备可以接收并识别该语音呼叫命令并且进一步拨打电话。在这方面,BT耳机和VR移动设备组合提供了在汽车中是使用移动电话的安全且便捷的方式,其符合政府规定。
然而,较之当用户直接对着VR移动设备说话,当用户对着BT耳机说话时,语音识别性能显著降低。因此,需要一种系统和方法来在BT耳机和VR移动设备之间配置音频处理路径以改善语音识别性能。
发明内容
根据本公开的一个实施例是通过通信链路被通信地耦合至移动设备的耳机。该耳机可以包含音频模块,该音频模块响应于确定语音请求类型,配置用于语音识别的在耳机中的语音信号的第一音频处理路径,以及用于语音通信的在耳机中的语音信号的第二音频处理路径。如果语音请求类型对应于语音识别请求,音频模块可以调整第一音频处理路径中的语音信号的编码速率,以生成高品质的话音,并且选择通信链路的数据速率,以对应于耳机中的语音信号的编码速率,以在移动设备上实现高语音识别准确性。
如果语音请求类型是用于语音通信,音频模块可以足够用于人类语音通信的相对低比特速率来编码语音信号,例如,利用持续可变斜率增量调制,或者CVSD方案,通常可以实现这一点,以生成较低品质基带编码语音信号。如果语音请求类型是用于语音识别,那么,需要较高程度的语音品质保存。为此,控制器可以绕过基带语音信号编码,并且使用较高品质的宽带话音编解码器,诸如由高级音频分发描述文档(A2DP)支持的子带编解码器,或者仅以PCM格式保存捕捉的语音信号的语音品质。其也可以将更高采样频率(例如,16KHz)应用于在语音识别会话中捕捉的语音,并且对语音通信应用保持标准的8KHz采样频率。音频模块可以包含调制器和发射器;该调制器用于,如果语音请求类型对应于语音通信请求,则调制编码语音信号,或者如果语音请求类型对应于语音识别请求,调制语音信号,以生成调制信号;该发射器用于发送调制的信号和语音请求类型。上下文切换和信号处理方法可以保存捕捉的语音信号的品质和完整性。以对于语音通信会话最小的影响,能够保持语音识别操作的较好识别准确性。
在一种设置中,利用蓝牙通信链路,发射器可以被无线地耦合至移动设备。当语音请求类型对应于语音识别时,音频模块可以将具有较高品质的语音信号以较高数据速率发送至移动设备,以及当语音请求类型对应于语音通信时,音频模块可以将语音信号以具有充分感知品质的较低数据速率发送至移动设备。作为另一示例,发射器可以通过异步无连接(ACL)逻辑传输以高于64K比特/秒的数据速率发送语音信号,以用于语音识别任务,以及通过同步面向连接(SCO)逻辑传输,以操作在用于语音的单个信道的64K比特/秒的数据速率发送语音信号,以用于语音通信任务。
根据本公开的另一实施例是通过无线链路通信地耦合至耳机的移动设备。该移动设备可以包含音频模块,以接收来自耳机的语音信号和相应语音请求类型,并且根据该语音信号类型,配置用于语音识别的移动设备中的语音信号的第一音频处理路径,以及用于语音通信的移动设备中的语音信号的第二音频处理路径。如果语音请求类型对应于语音识别请求,音频模块可以调整第一音频处理路径内的语音信号的解码速率,以对应于通信链路的数据速率,以在移动设备上实现高语音识别准确性。
一种语音识别系统操作性地耦合至解调器,如果语音请求类型是用于语音识别,该解调器沿着第一音频处理路径接收该语音信号。音频模块可以包含:均衡器,该均衡器操作性地耦合至语音识别系统,以补偿在语音识别之前的信号处理和发送过程中遭遇的失真;以及自动增益系统(AGS),该自动增益系统操作性地耦合至语音识别系统,以在语音识别之前调整信号增益。
另一实施例是包含耳机和移动设备的系统。该耳机可以确定语音信号的语音请求类型,根据语音请求类型配置语音信号的音频处理路径,并且如果该语音请求类型对应于语音识别,通过高数据速率连接发送该语音信号,或者如果该语音请求类型对应于语音通信,通过较低数据速率连接发送该语音信号。移动设备可以接收语音请求类型,并且根据该语音请求类型,配置语音信号的音频处理路径。高数据速率连接可以是异步无连接(ACL)逻辑传输,并且低数据速率连接可以是同步面向连接(SCO)逻辑传输。
另一实施例是一种系统,其包含信道保护方法,以增强接收到的语音数据的完整性并且减少在蓝牙数据发送中遭遇的信道干扰。该信道保护方法可以是那些通常采用的方法之一,涵盖简单校验和方法、循环冗余校验(CRC)以及其他更为完善的错误检测和校正方法。在人类语音通信会话中,数据速率约束和实时要求限制强大的错误检测/校正机制的使用,与人类语音通信会话不同,对于语音识别应用,通过将冗余比特与语音数据一起传送,或者如果检测到错误,从源重新传送相同部分的语音数据,可以减少遭遇到的比特错误。
又一实施例是一种用于通过可变速率通信链路耦合的耳机与移动设备之间的通信的语音处理的方法。该方法可以包含,确定语音信号的语音请求类型,如果语音请求类型对应于语音识别,配置语音信号的第一音频处理路径,以及如果语音请求类型对应于语音通信,配置用于语音通信的语音信号的第二音频处理路径。该方法可以包含,如果语音请求类型对应于语音识别,配置语音信号的第一语音识别路径,通过调整语音识别路径中的语音信号的编码速率以生成高品质话音,以及选择通信链路的数据速率,以对应于耳机中的语音信号的编码速率,以在移动设备上实现高语音识别准确性。该方法可以包含,如果语音请求类型对应于语音识别,配置用于语音通信的移动设备中的语音信号的第二语音识别路径,通过调整第二语音识别路径内的语音信号的解码速率以对应于通信链路的数据速率,并且将语音信号呈现给语音识别系统,用于高性能识别。
第一音频处理路径可以将语音处理为宽带信号,并且以高数据速率发送该编码话音。第二音频处理路径将语音处理为基带信号,并且以低数据速率发送数据。在一方面,蓝牙无线通信链路可以被用于发送和接收该语音信号。该方法可以包含,鉴别用于语音识别的用户请求,切换至第一音频处理路径以调节用于语音识别的语音信号,接收语音识别确认,以及响应于接收语音通信确认,切换至第二音频处理路径,以调节用于语音通信的语音信号。
用于语音识别的第一音频处理路径的配置可以在耳机上执行,并且包括,将声音信号数字化以生成数字化信号,调制该数字化信号以生成调制信号,并且发送该调制的信号和语音请求类型。该方法可以包含,应用宽带话音编解码器(例如,高数据速率SBC)范围,或者仅应用不通过编解码器的原始PCM数据。该方法也将更高采样频率(例如,16KHz)应用于用于语音识别的语音信号,并且在第二音频处理路径中保持用于语音通信的标准8KHz采样频率。
用于语音识别的第一音频处理路径的配置也可以在移动设备上执行,并且包括接收宽带编码的或PCM调制的信号和语音信号类型。如果源数据是PCM格式,解码或直接使用接收的话音数据。然后,将该重建的话音数据传送至语音识别器引擎以被识别。该方法可以包含,在将宽带解码或解调信号传送至语音识别系统的步骤之前,均衡化语音信号,并且在将解调信号传送至语音识别系统的步骤之前,自动增益调整该语音信号。
用于语音通信的第二音频处理路径的配置可以在耳机上执行,并且包括,将声音信号数字化以生成数字化信号,编码该数字化信号以生成编码信号,调制该编码信号以生成调制信号,并且发送该调制信号和语音信号类型,所有这些在电话带宽(即基带)上执行。
用于语音通信的第二音频处理路径的配置也可以在移动设备上执行,并且包括接收调制信号和语音信号类型,解调该调制信号以生成解调信号,并且解码该解调信号以生成用于提供语音通信的解码信号。
附图说明
在随附的权利要求中,具体阐明被认为是新颖的本系统的特征。通过参考结合附图的下文描述,可以理解此处的实施例,在附图的一些图中,相同附图标记表示相同元素,并且其中:
图1描述了根据本发明实施例的示例性移动设备通信系统;
图2描述了根据本发明实施例的耳机的示例性音频模块;
图3描述了根据本发明实施例的移动设备的示例性音频模块;以及
图4描述了根据本发明实施例的用于配置用于语音识别和语音通信的音频处理路径的示例性方法;
具体实施方式
虽然本说明书结尾的权利要求限定了被视为新颖的本发明实施例的特征,但应理解的是,从对下文结合附图的描述的考虑,将能够更好地理解该方法、系统和其他实施例,在附图中,沿用相同附图标记。
如所要求的,在此处公开本方法和系统的具体实施例。然而,应理解的是,公开的实施例仅是示例性的,其可以通过各种形式实现。因此,此处公开的特定结构和功能细节不应被解释为限定性,而是仅作为用于权利要求的基础,以及作为用于教导本领域的技术人员以各种方式使用在实际上任何适当的具体结构中使用本发明实施例的代表性基础。而且,此处使用的术语和短语的目的不是进行限制,而是提供对此处的实施例的可理解的描述。
此处所使用的术语“一”被定义为一个或超过一个。此处使用的术语“多个”被定义为两个或超过两个。此处所使用的术语“另一个”被定义为至少第二或更多。此处所使用的术语“包含”和/或“具有”被定义为包括(即,开放语言)。此处所使用的术语“耦合”被定义为连接,虽然并不必然是直接地,也不必然是机械地。术语“处理器”可以被定义为执行预编程的或编程的指令集合的多个合适的处理器、控制器、单元等。此处使用的术语“程序”、“软件应用”等被定义为被设计用于在计算机系统上执行的指令序列。术语“耳机”可以被定义为一种设备,其包括由头带将它们保持在耳朵上并且有时具有附连的话筒的一个或两个听筒。术语“移动设备”可以被定义为诸如蜂窝电话的便携式电子通信设备。术语“语音识别”可以被定义为识别语音信号的部分。术语“语音通信”可以被定义在通信网络上传递语音信号。术语“音频模块”可以被定义为一处理器或软件组件,其配置耳机或移动设备内或跨数据通信链路的音频路径。
宽泛的说,本发明实施例涉及一种系统和方法,用于配置用于耳机和移动设备的音频处理路径,用于改善语音识别性能。该方法可以包含,在耳机上调整音频处理路径内的编码速率,以及选择具有对应于该编码速率的数据速率的通信链路。该方法可以包含,在移动设备上选择对应于通信链路的数据速率的解码速率,以将语音信号解码成高语音品质信号,然后,将该高语音品质信号提交至语音识别系统,用于高准确性识别。借助于修改的数据链路建立和服务,通过在耳机和移动设备之间提供高品质宽带话音(例如,16KHz PCM),该系统可以抑制语音衰降和语音识别错配。当语音识别任务被请求时,该系统可以绕过正常编码和解码操作,以保存语音信号的品质。替换地,该系统可以提高编码速率以实现高语音品质编码,选择支持提高的编码速率的通信链路,通过通信链路发送高品质语音信号,并且以该通信链路的数据速率解码语音信号,以向语音识别系统提供高品质话音,用于改善识别性能。作为一个示例,该系统可以请求支持多个数据速率的高数据速率ACL(异步无连接链路)以从耳机向移动设备传递高品质语音,用于语音识别任务。也可以应用增益控制和均衡,以增强语音品质,来改善识别。
参考图1,示出了示例性移动设备通信系统100。移动设备通信系统100可以包含通信地耦合至移动设备160的耳机110。该耳机110可以是外部听筒、耳道内听筒、听筒附件、耳塞、耳机或能够被附连在耳朵上的任何其他配件设备。耳机110可以包含一个或多个软按钮111,以接收用户输入。移动设备160可以是蜂窝电话、个人数字助理、膝上型电脑、车载无线电装置、便携式音乐播放器或者任何其他适当的通信设备。
简要地说,耳机110和移动设备160可以通过支持多数据速率的可变速率数据通信链路通信。耳机110和移动设备160可以根据语音处理任务,合作地选择通信链路之一。语音处理任务可以对应于语音识别任务或语音通信任务。如所示出的,耳机110和移动设备160可以通过用于语音识别任务的高数据速率通信链路120传送和接收语音信号,或者通过用于语音通信任务的低数据速率通信链路130传送和接收语音信号。高数据速率链路120允许发送用于语音识别的高数据速率语音信号,并且低数据速率链路130允许发送用于一般语音通信相关任务的较低数据速率语音信号。数据链路可以是蓝牙连接、紫蜂(ZigBee)连接或支持多数据速率的任何其他无线接入技术。多数据速率允许在耳机110和移动设备160之间有效率地发送数据和语音,用于各种处理任务。也可以使用无线接入技术在设备之间发送控制信号。数据链路连接不限于短程无线技术。
蓝牙是短程通信技术,其能够替代连接便携式和/或固定设备的线缆,同时保持高级别的安全性。蓝牙技术的关键特征是稳健性、最小硬件尺度、低功率和低成本。蓝牙技术在2.4至2.485GHz的免授权工业、科研和医疗(ISM)带中操作,使用1600跳/秒的标称速率的扩频、跳频、全双工信号。其具有用于最通常使用的无线电分类2的大约2.5mW的低功率,这使得其适合于手持设备。蓝牙版本1.2支持1Mbps数据速率,并且版本2.0+EDR(增强数据速率)支持高达3Mbps。
蓝牙版本1.2支持主设备(例如移动设备160)和从设备(例如耳机110)之间的双向通信。有两种类型的逻辑传输可以被用于建立该连接:同步面向连接(SCO)逻辑传输和异步无连接(ACL)逻辑传输。SCO是点对点双向、对称的,并且具有基于固定和周期性时隙分配的恒定比特率。SCO链路每两个、四个或六个时隙要求一对时隙,这取决于为该链路选择的SCO分组。比特率被固定为64Kb/s。SCO逻辑传输不支持数据流的复用。ACL逻辑传输是双向的、无连接的、异步的或同步的,并且跨越1、3或5个时隙。对于ACL,蓝牙使用快速确认和重新发送方案来确保数据的可靠传递。
SCO链路和ACL链路都能够传递语音数据。SCO具有64Kb/s的固定数据速率。根据分组类型,ACL可以支持从108.8Kb/s到433.9Kb/s数据速率。为了利用得益于话音信号的更高频谱分辨率和更宽频谱内容的16KHz VR技术,需要256K比特/秒或128K比特/秒的数据速率,例如,16(KHz)x 16(比特)或者16KHz x 8比特。某些类型ACL分组类型可以满足该数据速率要求。蓝牙具有非常受控的信道接入。在微微网中的每个节点被给予通过主设备发送的机会:轮训机制的存在将微微网带宽在从设备之间划分,确保无ACL链路得不到带宽。在这种接入机制下,ACL链路足以承载高品质语音。蓝牙规范定义了7种ACL分组、三个DM(数据介质速率)分组、三个DH(数据高速率)分组和一个AUX1分组。
如在下表1中所示的,DM3、DM5、DH3和DH5能够支持超过256K比特/秒的数据速率,并且类型DH1、DM3、DM5、DH3和DH5能够支持超过128K比特/秒的数据速率。DH和DM分组均具有CRC(循环冗余校验)。DM分组具有前向错误校正(FEC),但是DH分组没有。FEC是在数据传输中获取错误控制的方法,其中,源(发射器)传送冗余数据,并且目的地(接收器)仅识别不含有明显错误的数据的部分。DM分组相比DH分组具有较低数据速率,但是可以提供更好的错误控制机制。DM3和DM5是用于传递语音识别(VR)应用的语音数据的可接受选择,其要求256K比特/秒的最大数据速率。

  类型  净荷报头  (字节)  用户净荷  (字节)  FEC  CRC  对称最大速率(K  比特/秒)  DM1  1  0-17  2/3  是  108.8  DH1  1  0-27  否  是  172.8  DM3  2  0-121  2/3  是  258.1  DH3  2  0-183  否  是  390.4  DM5  2  0-224  2/3  是  286.7  DH5  2  0-339  否  是  433.9

表1
耳机110和移动设备160均可以在它们各自设备内配置音频处理路径,以满足与选择的通信链路(例如,高数据速率链路120或低数据速率链路130)相关的数据速率处理要求。具体而言,耳机110和移动设备160可以合作地配置在它们各自音频处理路径中的组件执行顺序,以根据连接数据速率处理语音信号。在第一配置中,耳机110和移动设备160被配置以用于具有来自表1的一个分组类型的语音识别任务。在第二配置中,耳机110和移动设备被配置以用于具有64kb/s SCO分组类型的语音通信任务。
根据一个实施例,BT设备110将宽带话音内容流送至移动设备160。为了实现这一点,该设备建立流连接。在用于建立流连接的建立过程中,BT设备110选择适合的音频流,该音频流受可选择的参数的影响,诸如采样频率、编解码器类型、数据速率、话音均衡化参数、声音增益因子以及错误保护方法和参数。在建立期间,可以配置两种类型的服务;一种是用于高准确性语音识别的音频处理服务能力;另一种是用于提供对话语音通信的传输服务能力。一旦在汇聚点(即,接收器)从蓝牙信道接收到话音数据流并将其解包,如果语音请求类型是用于语音通信,控制器可以将数据传送至基带解码器,如果语音请求类型是用于语音识别,控制器将更高数据速率的话音内容传送至宽带解码器或直接传送至语音识别引擎。
参考图2,示出了耳机110的示例性音频模块。该音频模块可以包含:模拟至数字(A/D)转换器202,用于捕捉声音信号,并且生成语音信号;以及控制器204,用于确定语音请求类型,并且根据该语音请求类型选择性地编码和调制语音信号。控制器204可以选择编码器(encoder)208的可变编码速率,以及代码器(coder)229的可变速率,其可以是语音编码器、音乐编码器、音频编码器或者支持可变速率的介质编码器。也应注意的是,编码器208可以执行代码器229的功能,并且可传送未代码化(uncoded)的(例如,PCM)或代码化(coded)格式的语音信号。控制器204可以选择两个音频处理路径:语音识别路径121或者语音通信路径131。沿着语音通信路径131,音频模块可以包含:插值器206,用于在编码之前,调整语音信号的采样速率,以生成插值信号;以及编码器208,用于编码插值信号,如果语音请求类型对应于语音通信请求,生成编码语音信号。沿着语音识别路径121,音频模块可以包含可变速率代码器229和压缩器230,以调整语音信号的动态范围,增强语音信号特征。在实践中,压缩器230可以或可以不存在。作为示例,压缩器230可以实现□律编码、A律编码,并且代码器229可以是在较高声音分辨率和数据速率的宽带话音编解码器,诸如由高级音频分布描述文档(A2DP)支持的被配置为支持宽带音频(音乐)的子带编解码器,或者任何其他适当的高品质宽带话音编解码器。音频模块可以包含调制器210,如果语音请求类型对应于语音通信请求,调制该编码语音信号,或者如果语音请求类型对应于语音识别请求,调制该语音信号,以生成调制信号。音频模块可以包含前向错误保护模块211,以增强语音信号的代码化增益准确性,其可以实现校验和计量、循环冗余校验或卷积代码化技术。音频模块可以包含发射器212,以发送前向错误校正调制信号和语音请求类型。特别地,控制器204可以响应于确定语音信号的语音请求类型,通过选择导致高识别准确性的语音编码速率来配置用于语音识别的第一音频处理路径121,以及,配置用于语音通信的第二音频处理路径131。
参考图3,示出了移动设备160的示例性音频模块。音频模块可以包含:接收器302,用于从耳机接收语音信号和相应的语音请求类型;错误保护模块303,用于校正与通过通信链路120或130的语音信号发送相关的任何比特错误;解调器304,用于解调语音信号;以及控制器306,其确定语音请求类型并且根据该语音请求类型配置用于语音信号的音频处理路径。尽管未示出,但在接收路径中可以存在其他组件,诸如带通滤波器、线性鉴频器、积分器和阈值检测器,以预处理该接收的语音信号。控制器306可以基于语音类型请求而选择两个音频处理路径:语音识别路径122或者语音通信路径132。语音通信路径132可以包含:解码器314,用于解码语音信号;抽取器316,用于调整解码信号的采样速率;以及低通滤波器318,用于恢复语音信号。语音识别路径122包含:均衡器320,用于消除由耳机110所导致的频率失真;以及增益调整器324,用于基于均衡化量调整语音信号的增益。增益调整器324也可以将增益调整到适合于语音识别的动态范围。如果语音请求类型是语音通信,控制器306可以沿着语音通信路径132传送语音信号。如果语音请求类型是语音识别,控制器306沿着语音识别路径122传送语音信号。
音频模块可以包含语音识别系统330,其可以从语音通信路径132或语音识别路径122接收语音信号。在实践中,VR系统330通常处理从语音识别路径122接收的信号。作为示例,VR系统330可以识别语音命令(例如,“呼叫杰克”),并且响应于识别该语音命令而执行任务(例如,拨打杰克的号码)。应注意的是,VR系统的语音识别性能取决于接收的语音信号的品质,其是语音编码级别和数据速率的函数。一般而言,当对语音信号执行最少或无编码和解码操作时,语音识别性能较高。编码和解码操作以负面影响识别性能的方式使语音信号劣化。相应地,控制器306根据接收的语音请求类型,配置语音信号的音频处理路径,语音请求类型是语音识别或语音通信。
参考图4,示出了在移动设备通信系统中配置用于语音识别的音频处理路径的方法400。能够以多于或少于所示数量的步骤来实践方法400,并且方法400不限于示出的步骤顺序。为了描述方法400,将参考图2和3,尽管应理解的是,可以通过使用其他适当组件的任何其他方式来实现方法400。示例性方法400可以开始于其中耳机100和移动设备160处于待机模式的状态。在待机模式中,这些设备使用低数据速率链路130(例如,128Kbps,参见表1)的低数据速率蓝牙连接,交换语音和数据。
在待机模式中,蓝牙组件通过周期性执行唤醒处理,搜索其他支持蓝牙的设备,在唤醒处理期间,其扫描周边环境,搜索其他支持蓝牙的设备。如果在扫描处理期间,蓝牙设备遇到其他支持蓝牙的设备,并且确定需要连接,其可以执行某些配置和处理,以在电话和耳机之间建立用于语音识别的高数据速率ACL连接或者低数据速率SCO连接。否则,扫描任务被关闭,直到下一个唤醒处理。在待机周期持续期间,唤醒、扫描和关闭的待机循环通常每1.28秒重复一次、两次或四次。该待机模式保存耳机110和移动设备160的电池电力。特别地,方法400也可以开始于其他模式,并不限于在待机模式中开始,出于示例目的,仅介绍在待机模式中开始的情形。
在步骤401,耳机110接收用户输入,以发起语音识别(VR)会话。例如,耳机110的用户可能期望使用语音识别命令拨打电话。用户可以压下耳机110上的软按钮111,以发起语音命令请求。在耳机110接收到用户输入时,在步骤401,耳机110根据用于语音识别的语音请求类型,配置音频模块的音频处理路径。例如,再次参考图2,控制器204在识别语音请求类型时,配置音频处理路径121,以绕过插值器206和编码器208。
在步骤402,耳机110请求异步通信链路(ACL),用于与移动设备160的高数据速率蓝牙连接。ACL(例如,高数据速率链路120)可以支持如表1中所示的128Kbps和256Kbps的数据速率,以将语音信号从耳机110传递至移动设备160。耳机110可以在与以较低数据速率(例如,64Kbps)的编码语音信号相同量的时间内,以较高数据速率发送语音信号。即使原始PCM语音信号占据更多带宽(即,未编码),由于ACL 120的高数据速率,可以发送更多数据,从而允许每单位时间发送相同量的数据。在接收到用于蓝牙通信的高数据速率ACL链路120可用的确认时,在步骤406,耳机110通过ACL将语音请求类型传送至移动设备160。
在步骤408,移动设备160接收语音请求类型,并且,作为响应,在步骤410,配置用于语音识别的移动设备160音频模块的音频处理路径。例如,再次参考图3的移动设备160的音频模块,控制器306配置音频处理路径122,以绕过解码器314、抽取器316和低通滤波器318。
在步骤412,耳机110进一步通过ACL 120以更高数据速率(例如265Kbps)将语音信号发送至移动设备160。再次参考图2,控制器204直接将由A/D 202捕捉的原始脉冲代码调制(PCM)数据采样传送至调制器210,由此绕过插值器206和编码器208。语音识别路径121保存A/D转换器202的原始采样速率(例如,16KHz)。相反,由于插值和编码,语音通信路径131提供较低采样速率(例如,8KHz)和较低品质语音信号。在语音识别配置中,语音识别路径121防止语音信号经受有损压缩,有损压缩会另外降低语音信号的语音品质。语音识别路径121保存导致改善识别性能的原始语音品质。然后,调制器210调制更高采样速率语音信号(例如,16KHz),以生成调制信号,该调制信号能够由发射器212以高数据速率(例如,256Kbps)发送。
在步骤414,移动设备160从耳机110接收语音信号,并且在步骤416,将该语音信号传送至语音识别系统330,以从语音信号中识别语音命令。更具体地说,再次参考图3,控制器306将来自解调的语音信号的原始脉冲代码调制(PCM)数据样本直接传送至VR系统330,从而绕过解码器314、抽取器316和低通滤波器318。在语音识别之前,均衡器320和增益调整器324另外增强语音信号,以改善识别性能。均衡器可以补偿作为通信处理结果而出现的语音信号的任何信道效应或异常。
由识别系统330所接收的语音信号是高品质信号,因为该语音信号没有经受组合的编码和解码操作。而且,由均衡器320和增益调整器324对语音信号进行后处理,以补偿由耳机110所导致的任何失真。而且,与编码和解码该语音信号相关的任何时延被消除。显然,由于由控制器204根据语音请求类型所设置的音频处理路径121的配置,耳机110不对语音信号执行编码操作。相应地,由于由控制器306根据语音请求类型所设置的音频处理路径122的配置,移动设备160不执行解码操作。
也应注意的是,在较高采样速率(例如,PCM 16KHz)语音信号而非较低采样速率(例如,8KHz)编码语音信号上训练VR系统330,以提高识别性能。而且,将训练集与测试集匹配,以进一步提高识别性能。具体而言,用于测试和训练的语音信号经受相同处理步骤。更具体地说,用于测试和训练的语音信号不经受组合的编码(例如,参见图2的编码器208)和解码(例如,参见图3的编码器314)操作。下文的表2示出了当训练集与测试集匹配或不匹配时,语音识别性能的试验结果。显然,当训练集(PCM 16KHz)与测试集(PCM 16KHz)匹配时,比当它们不匹配时,试验错误率显著较低。
  训练集  测试集  比特率  数字串错误率(%)  PCM  PCM  256K比特/秒  5.2  PCM  编码  16K比特/秒  28.6

再次参考图4,在步骤418,如果VR系统330不识别语音信号中的语音命令,移动设备160可以就另一语音信号而提示耳机110,耳机110又可以就另一口语发声而提示用户。如果VR系统330识别该语音命令,在步骤420,移动设备160可以将VR确认传送至耳机110。
在接收到VR确认时,耳机110配置用于语音通信的音频处理路径,如在步骤422中所示的。这一点被执行,以准备传送和接收用于语音通信的语音信号,例如,当呼叫被连接并且各方以正常语音对话进行通信时。再次参考图2,控制器204将音频处理路径从语音识别路径121切换至语音通信路径131。语音通信路径131包含编码器208,以降低语音信号的数据速率。具体而言,插值器下采样语音信号至编码器208所支持的速率。例如,如果A/D 202以16KHz的采样速率采样由麦克风捕捉的声音语音信号,并且编码器208以8KHz编码语音信号,插值器下采样该信号至8KHz。
在步骤424,然后,耳机110请求同步面向连接(SCO)逻辑传输以将较低数据速率语音信号传送至移动设备160。回想一下,SCO链路130提供比较高数据速率(例如,256Kbps)ACL链路120低的数据速率连接(例如,64Kbps)。在这方面,系统针对语音识别和语音通信的上下文认知而自动配置耳机和移动设备。即,当选择链路数据速率时(例如,SCO、ACL),耳机110确定上下文(例如,数据速率信道或链路容量、支持的移动设备解码器速率、语音请求类型)。
在接收到移动设备160已经接受了SCO链路130时,在步骤426,耳机110将用于语音通信的语音请求类型传送至移动设备160。作为响应,移动设备160根据语音请求类型,配置用于语音通信的音频处理路径,如在步骤428中所示的。例如,再次参考图3,控制器306将音频处理路径从语音识别路径122切换至用于接收一般语音通信数据的语音通信路径132。语音通信路径132包含解码器315、抽取器316和低通滤波器318。在步骤430,耳机110通过SCO链路130,以低数据速率发送语音信号,在步骤432,由移动设备160接收该语音信号。在该配置中,耳机110和移动设备160可以根据正常操作发送数据。即,耳机110编码语音信号,将该编码语音信号发送至移动设备,并且移动设备160解码该编码语音信号,并且可听地将解码语音信号展现给用户。
在回顾前述实施例时,对于本领域的技术人员显而易见的是,在不脱离如下文所描述的权利要求的范围和精神的条件下,所述实施例可以被修改、简化、或增强。存在用于其他介质服务的多种配置,这些配置可以被设想用于配置介质网络中的介质资源,在不脱离如下文所限定的权利要求的范围的条件下,这些配置可以被应用于本公开。具体而言,此处可以考虑在耳机110和移动设备160之间的握手的各种设置。例如,如在步骤404中所示的,ACL连接请求可以固有地标识语音识别请求,从而绕过用于接收和处理语音类型请求的步骤406和408。移动设备160在接收ACL请求时,可以立即配置用于语音识别的音频路径。类似地,如在步骤424中所示的,SCO连接性请求可以固有地标识语音通信请求,由此绕过用于发送和处理该语音类型请求的步骤426和428。耳机110在接收VR确认时能够立即配置用于语音通信的音频路径。而且,响应于发送该VR确认,移动设备160可以立即配置其用于语音通信的音频路径。这些只是在不脱离如下文所述的权利要求范围的条件下能够被应用于本公开的修改的几个示例。因此,为了更全面理解本公开的广度和范围,读者应参见权利要求部分。
在另一设置中,提供了一种系统,包括1)耳机,用于确定语音信号的语音请求类型,根据语音请求类型配置语音信号的第一音频处理路径,通过调整音频处理路径中的语音信号的编码速率,以生成高品质话音,以及,选择通信链路的数据速率,以对应于耳机中的语音信号的编码速率,以在移动设备上实现高语音识别准确性,以及,以选择的数据速率,通过通信链路发送该语音信号,以及2)移动设备,用于以选择的数据速率通过通信链路接收语音请求类型和语音信号,以及,根据语音请求类型配置语音信号的第二音频处理路径,通过调整第二音频处理路径内的语音信号的解码速率以对应于该通信链路的数据速率,以及,将该语音信号呈现给语音识别系统,用于高性能识别。高数据速率连接可以是异步无连接(ACL)逻辑传输,并且低数据速率连接可以是同步面向连接(SCO)逻辑传输。信道保护模块可以增强接收到的语音数据完整性,并且减轻在通信链路中遭遇的信道干扰。信道保护模块可以包含校验和方法、循环冗余校验(CRC)或者卷积代码化校验。该系统可以针对语音识别和语音通信的上下文认知而自动配置耳机和移动设备二者。
在可应用的情况下,可以通过硬件、软件或硬件和软件的组合来实现本发明的实施例。被适配用于执行此处所描述的方法的任何一种计算机系统或其他装置是适合的。硬件和软件的典型组合可以是具有计算机程序的移动通信设备,当加载该计算机程序并且执行时,该计算机程序可以控制移动通信设备,以便其执行此处所描述的方法。本方法和系统的一些部分也可以被嵌入在计算机程序产品中,该计算机程序产品包括能够实现此处描述的方法的所有特征,当其被加载在计算机系统中时,能够执行这些方法。
虽然已经示出并描述了本发明的优选实施例,但应明白的是,本发明的实施例不限于此。在不脱离如随附的权利要求所限定的本发明实施例的精神和范围的条件下,各种修改、改变、变更、替换和等价内容对于本领域的技术人员将是显而易见的。

配置用于语音识别的音频处理路径的方法和系统.pdf_第1页
第1页 / 共25页
配置用于语音识别的音频处理路径的方法和系统.pdf_第2页
第2页 / 共25页
配置用于语音识别的音频处理路径的方法和系统.pdf_第3页
第3页 / 共25页
点击查看更多>>
资源描述

《配置用于语音识别的音频处理路径的方法和系统.pdf》由会员分享,可在线阅读,更多相关《配置用于语音识别的音频处理路径的方法和系统.pdf(25页珍藏版)》请在专利查询网上搜索。

提供了一种系统(100)和方法(400),用于配置用于语音识别的音频处理路径和随后数据发送方法和链路。该系统可包含:耳机(110),其用于确定语音信号的语音请求类型,根据该语音请求类型配置该语音信号的音频处理路径;以及移动设备(160),其用于接收语音请求类型,并且根据所述语音请求类型配置语音信号的音频处理路径和数据发送,以利用处于免提模式的蓝牙耳机实现高识别准确性。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 乐器;声学


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1