一种语音唤醒方法及装置技术领域
本发明实施例涉及语音唤醒技术,尤其涉及一种语音唤醒方法及装置。
背景技术
随着科学技术的发展,终端普遍具有语音唤醒功能,使用者使用语音唤
醒终端并对其进行相应的语音控制。
目前的语音唤醒方案是采用麦克风激活检测(MicrophoneActivity
Detection,简称:MAD)电路和数字信号处理器(DigitalSignalProcessor,
简称:DSP)两级配合来唤醒终端。其中,如果MAD电路检测到的当前音频
信号的能量大于预设阈值,则唤醒DSP进行语音激活检测(VoiceActivity
Detection,简称:VAD),以通过VAD识别上述音频信号是否为用户的语
音;若是,则唤醒终端;若否,DSP唤醒为无效唤醒或误唤醒。具体地,VAD
通过比对上述音频信号的特征与用户的语音的特征,来判断语音信号是否为
用户的语音。
采用上述语音唤醒方案,当终端处于不同的环境时,例如由安静环境切
换到嘈杂环境下,由于预设阈值是固定的,因此经常会出现无效唤醒或者误
唤醒的现象,导致终端在嘈杂环境下的功耗偏高。
发明内容
本发明实施例提供一种语音唤醒方法及装置,以降低终端在嘈杂环境下
的功耗。
第一方面,本发明实施例提供一种语音唤醒方法,包括:
对音频信号进行周期性采样,其中,在ti时刻采样得到采样信号yi,i为
正整数;
计算所述采样信号yi的音频能量Ti;
在所述音频能量Ti大于或等于所述ti时刻的第一阈值A0的情况下,进行
语音激活检测VAD;
当VAD已连续n次检测失败,且当VAD检测失败,且在所述ti时刻之
前已连续n次检测失败,以及第一噪声能量S0与所述ti时刻的第一阈值A0
的差值大于预设的第一门限值M0时,根据所述第一噪声能量S0生成第二阈
值A1,并将所述第二阈值A1作为ti+1时刻的第一阈值A0,其中,所述第一噪
声能量S0是通过以第一抽取率1/x对所述采样点yi进行抽取,并对抽取出的
采样点ys进行慢速跟踪滤波得到,x为大于1的自然数,n为正整数且n小
于i。
结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所述
第一噪声能量S0生成第二阈值A1,包括:
将所述第一噪声能量S0作为所述第二阈值A1;
或者,将所述第一噪声能量S0与预设的第一修正量N0之和作为所述第
二阈值A1;
或者,将所述第一噪声能量S0与预设的第一系数a0之积作为所述第二阈
值A1。
结合第一方面,在第一方面的第二种可能的实现方式中,在所述计算所
述采样信号yi的音频能量Ti之后,还包括:
在所述音频能量Ti小于所述ti时刻的第一阈值A0,且从ti-m时刻直至ti
时刻各自的第一阈值A0与第二噪声能量F0的差值都大于预设的第二门限值
M1的情况下,进行VAD,m为正整数且m小于i;
当VAD检测成功时,根据所述第二噪声能量F0生成第三阈值A2,并将
所述第三阈值A2作为ti+1时刻的第一阈值A0,其中,所述第二噪声能量F0
是通过以第二抽取率1/z对所述采样信号yi进行抽取,并对抽取出的采样点
yf进行快速跟踪滤波得到,其中,z为大于x的自然数。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实
现方式中,所述根据所述第二噪声能量F0生成第三阈值A2,包括:
将所述第二噪声能量F0作为所述第三阈值A2;
或者,将所述第二噪声能量F0与预设的第二修正量N1之和作为所述第
三阈值A2;
或者,将所述第二噪声能量F0与预设的第二系数a1之积作为所述第三阈
值A2。
结合第一方面的第二种或第三种可能的实现方式,在第一方面的第四种
可能的实现方式中,在将所述第三阈值A2作为ti+1时刻的第一阈值A0之前,
还包括:
记录所述ti时刻为降低阈值时刻;
当所述ti时刻与上一降低阈值时刻的时间间隔大于预设值Ttime时,执行
所述将所述第三阈值A2作为ti+1时刻的第一阈值A0的步骤,否则,不执行所
述将所述第三阈值A2作为ti+1时刻的第一阈值A0的步骤。
结合第一方面,在第一方面的第五种可能的实现方式中,在所述计算所
述采样信号yi的音频能量Ti之后,还包括:
在所述音频能量Ti小于所述ti时刻的第一阈值A0,且所述ti时刻的第一
阈值A0与所述第一噪声能量S0的差值大于预设的第三门限值M2的情况下,
根据所述第一噪声能量S0生成第四阈值A3,并将所述第四阈值A3作为ti+1
时刻的第一阈值A0。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实
现方式中,所述根据所述第一噪声能量S0生成第四阈值A3,包括:
将所述第一噪声能量S0作为所述第四阈值A3;
或者,将所述第一噪声能量S0与预设的第三修正量N2之和作为所述第
四阈值A3;
或者,将所述第一噪声能量S0与预设的第三系数a2之积作为所述第四阈
值A3。
结合第一方面的第五种或第六种可能的实现方式,在第一方面的第七种
可能的实现方式中,在将所述第四阈值A3作为ti+1时刻的第一阈值A0之前,
还包括:
记录所述ti时刻为降低阈值时刻;
当所述ti时刻与上一降低阈值时刻的时间间隔大于预设值Ttime时,执行
所述将所述第四阈值A3作为ti+1时刻的第一阈值A0的步骤,否则,不执行所
述将所述第四阈值A3作为ti+1时刻的第一阈值A0的步骤。
第二方面,本发明实施例提供一种语音唤醒装置,包括:
采样频率转换器SRC,用于对音频信号进行周期性采样,其中,在ti时
刻采样得到采样信号yi,i为正整数;
运算电路,用于计算所述采样信号yi的音频能量Ti;
阈值判决电路,用于判断所述音频能量Ti是否大于或等于所述ti时刻的
第一阈值A0;在所述音频能量Ti大于或等于所述ti时刻的第一阈值A0的情
况下,触发中断处理电路输出中断脉冲信号给中断控制电路,由所述中断控
制电路使能数字信号处理器DSP或处理器进行语音激活检测VAD;
第一抽取器,所述第一抽取器的输入端耦合至所述SRC的输出端,用于
以第一抽取率1/x对所述采样信号yi进行抽取得到采样点ys,x为大于1的
自然数;
慢速跟踪滤波器STF,所述STF的输入端耦合至所述第一抽取器的输出
端,用于对所述抽取得到采样点ys进行慢速跟踪滤波得到第一噪声能量S0;
比较器,所述比较器的输入端耦合至与所述STF的输出端及所述阈值判
决电路,用于比较所述第一噪声能量S0与所述ti时刻的第一阈值A0的差值是
否大于预设的第一门限值M0;
配置器,用于当VAD检测失败,且在所述ti时刻之前已连续n次检测失
败,以及所述第一噪声能量S0与所述ti时刻的第一阈值A0的差值大于预设的
第一门限值M0时,根据所述第一噪声能量S0生成第二阈值A1,并将所述第
二阈值A1作为ti+1时刻的第一阈值A0,下发至所述阈值判决电路,n为正整
数且n小于i。
结合第二方面,在第二方面的第一种可能的实现方式中,所述配置器具
体用于:
将所述第一噪声能量S0作为所述第二阈值A1;
或者,将所述第一噪声能量S0与预设的第一修正量N0之和作为所述第
二阈值A1;
或者,将所述第一噪声能量S0与预设的第一系数a0之积作为所述第二阈
值A1。
结合第二方面,在第二方面的第二种可能的实现方式中,还包括:
第二抽取器,所述第二抽取器的输入端耦合至所述SRC的输出端,用于
以第二抽取率1/z对所述采样信号yi进行抽取得到采样点yf,其中,z为大于
x的自然数;
快速跟踪滤波器FTF,所述FTF的输入端耦合至所述第二抽取器的输出
端,用于对所述抽取得到采样点yf进行快速跟踪滤波得到第二噪声能量F0
第二噪声能量;
所述比较器,与所述FTF的输出端,还用于在所述音频能量Ti小于所述
ti时刻的第一阈值A0的情况下,比较各时刻的第一阈值与所述第二噪声能量
F0的差值是否大于预设的第二门限值M1;并当从ti-m时刻直至ti时刻各自的
第一阈值A0与所述第二噪声能量F0的差值都大于预设的第二门限值M1的情
况下,触发所述中断处理电路输出中断脉冲信号给所述中断控制电路,由所
述中断控制电路使能所述DSP或所述处理器进行VAD,m为正整数且m小
于i;
所述配置器,还用于当VAD检测成功时,根据所述第二噪声能量F0生
成第三阈值A2,并将所述第三阈值A2作为ti+1时刻的第一阈值A0,下发至所
述阈值判决电路。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实
现方式中,所述配置器具体用于:
将所述第二噪声能量F0作为所述第三阈值A2;
或者,将所述第二噪声能量F0与预设的第二修正量N1之和作为所述第
三阈值A2;
或者,将所述第二噪声能量F0与预设的第二系数a1之积作为所述第三阈
值A2。
结合第二方面的第二种或第三种可能的实现方式,在第二方面的第四种
可能的实现方式中,所述配置器还用于:
记录所述ti时刻为降低阈值时刻;
当所述ti时刻与上一降低阈值时刻的时间间隔大于预设值Ttime时,执行
所述将所述第三阈值A2作为ti+1时刻的第一阈值A0的步骤,否则,不执行所
述将所述第三阈值A2作为ti+1时刻的第一阈值A0的步骤。
结合第二方面,在第二方面的第五种可能的实现方式中,所述配置器还
用于:
在所述音频能量Ti小于所述ti时刻的第一阈值A0,且所述ti时刻的第一
阈值A0与所述第一噪声能量S0的差值大于预设的第三门限值M2的情况下,
根据所述第一噪声能量S0生成第四阈值A3,并将所述第四阈值A3作为ti+1
时刻的第一阈值A0。
结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实
现方式中,所述配置器具体用于:
将所述第一噪声能量S0作为所述第四阈值A3;
或者,将所述第一噪声能量S0与预设的第三修正量N2之和作为所述第
四阈值A3;
或者,将所述第一噪声能量S0与预设的第三系数a2之积作为所述第四阈
值A3。
结合第二方面的第五种或第六种可能的实现方式,在第二方面的第七种
可能的实现方式中,所述配置器还用于:
记录所述ti时刻为降低阈值时刻;
当所述ti时刻与上一降低阈值时刻的时间间隔大于预设值Ttime时,执行
所述将所述第四阈值A3作为ti+1时刻的第一阈值A0的步骤,否则,不执行所
述将所述第四阈值A3作为ti+1时刻的第一阈值A0的步骤。
本发明实施例提供一种语音唤醒方法及装置,通过获取ti时刻采样得到
采样信号yi的音频能量Ti,并在该音频能量Ti大于或等于ti时刻的第一阈
值A0的情况下,进行VAD;当VAD检测失败,且在ti时刻之前已连续n
次检测失败,以及第一噪声能量S0与ti时刻的第一阈值A0的差值大于预
设的第一门限值M0时,调整第一阈值A0的大小,得到ti+1时刻的第一阈
值A0:根据第一噪声能量S0生成第二阈值A1,并将第二阈值A1作为ti+1
时刻的第一阈值A0。其中,第一噪声能量S0是通过以第一抽取率1/x对
采样信号yi进行抽取,并对抽取出的采样点ys进行慢速跟踪滤波得到,
也就是说,ti+1时刻的第一阈值A0是根据ti时刻的第一噪声能量S0得到的,
这样,终端可以根据当前环境噪声调整下一时刻的第一阈值A0的大小,使各
时刻的第一阈值A0与环境匹配,以减少进行VAD的次数,实现终端在嘈杂
环境下功耗的降低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实
施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的
附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造
性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音唤醒方法实施例一的流程图;
图2为本发明语音唤醒方法在不同环境下的第一阈值示例图;
图3为本发明语音唤醒方法实施例二的流程图;
图4为本发明语音唤醒方法实施例三的流程图;
图5为本发明语音唤醒装置实施例一的结构示意图;
图6为本发明语音唤醒装置实施例二的结构示意图;
图7为本发明语音唤醒装置实施例三的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发
明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,
所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明
中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所
有其他实施例,都属于本发明保护的范围。
语音唤醒的含义,是指在任意情况下,能够通过预定义的唤醒词,对终
端进行激活,并执行特定的应用。类似用户按键点亮屏幕,激活手机的处理。
语音唤醒的优点是解放了用户的双手。
在一智能手机的语音唤醒方案中,安静环境下,该智能手机的待机功耗
约为2.2毫安×3.8伏特;在嘈杂环境下,该智能手机的待机功耗为5.5毫安×3.8
伏特。可见,该智能手机在嘈杂环境和安静环境下的功耗差异约为12毫瓦,
(5.5-2.2)×3.8=12。
按照功耗估算模型:平均功耗=安静功耗×70%+嘈杂功耗×30%,因
此,应考虑降低嘈杂环境下的功耗,本发明实施例关注嘈杂环境下的功耗优
化。
本发明实施例提供一种语音唤醒终端中数字信号处理器的方法及装置,
以减少唤醒终端中DSP进行VAD的次数,实现终端在嘈杂环境下的功耗的
降低。
图1为本发明语音唤醒方法实施例一的流程图。该方法可以由语音唤醒
装置执行,该装置可以通过硬件的方式实现。语音唤醒装置可以集成在例如
平板电脑、智能手机、掌上电脑(PersonalDigitalAssistant,简称:PDA)等
终端中。如图1所示,语音唤醒方法包括:
S101、对音频信号进行周期性采样,其中,在ti时刻采样得到采样信号
yi,i为正整数。
类似地,ti-1时刻的采样信号可以记作yi-1,ti+1时刻的采样信号可以记作
yi+1,以此类推,这里不一一列举。
其中,在本发明任一实施例中,音频信号可以为麦克风等声音采集设备
采集到的信号。通过采样频率转换器(SampleRateConvertor,简称:SRC)
对麦克风等声音采集设备采集到的音频信号进行周期性采样。或者,将麦克
风等声音采集设备采集到的音频信号经过例如带通滤波器等滤波器处理后,
再由SRC进行周期性采样,本发明实施例不对其进行限制。
S102、计算采样信号yi的音频能量Ti。
需要说明的是,对采样信号的音频能量的计算可以是在得到采样信号之
后进行的,例如:在ti-1时刻采样得到采样信号yi-1后,也会计算采样信号yi-1
相应的音频能量Ti-1。
本领域技术人员应当知道,因采样信号yi是一定的,因此,采样信号yi
的音频能量Ti可以通过计算获得。
具体地,采用x(j)表示采样信号yi在第j采样点的幅度,x(j)×x(j)表
示采样信号yi在第j时刻的能量大小,j为0至M-1之间的整数,M为采
样点总数,系数aj用来表示每个采样点的权重大小,Ti表示采样信号yi的音
频能量。例如,下面的式子是一个归一化的处理,具体表示每个采样点在整
体能量占用的百分比:
T
i
=
Σ
j
=
0
M
-
1
a
j
×
x
(
j
)
×
x
(
j
)
,
]]>其中,
Σ
j
=
0
M
-
1
a
j
=
1
]]>
这里仅示例说明计算采样信号yi的音频能量Ti,本发明实施例不以此为
限制,也可以通过均方根(Rootmeansquare,简称:RMS)或其他类似方式
获得采样信号yi的音频能量Ti,例如不进行归一化的处理,等等。
S103、在音频能量Ti大于或等于ti时刻的第一阈值A0的情况下,进行
VAD。
其中,进行VAD的具体可以是终端中的DSP或者处理器等元件。
S104、当VAD检测失败,且在ti时刻之前已连续n次检测失败,以及第
一噪声能量S0与ti时刻的第一阈值A0的差值大于预设的第一门限值M0时,
根据第一噪声能量S0生成第二阈值A1,并将第二阈值A1作为ti+1时刻的第一
阈值A0,其中,第一噪声能量S0是通过以第一抽取率1/x对采样信号yi进行
抽取,并对抽取出的采样点ys进行慢速跟踪滤波得到,x为大于1的自然数,
n为正整数且n小于i。
需要说明的是,当VAD检测失败,且在所述ti时刻之前已连续n次检测
失败是指:在ti时刻进行的VAD检测失败,且从ti-n时刻到ti-1时刻进行的
VAD检测均失败,具体地,假设n为2,则当VAD检测失败,且在所述ti
时刻之前已连续n次检测失败是指:在ti时刻进行的VAD检测失败之前,连
续两个时刻(即从ti-2时刻到ti-1时刻)所进行的VAD检测连续失败2次。进
一步地,为了便于更好地理解本发明的技术方案,对于VAD检测失败进行举
例说明,比如:当前是汽车发动机的声音,由于该声音的音频能量大于当前
时刻的第一阈值A0,则需要进行VAD,但是,通过VAD,可以判断出该声
音不是用户的语音,因此VAD检测失败。换句话说,如果终端处于高噪声环
境中,相应的,环境噪声的噪声能量会比较高,一旦环境噪声的噪声能量大
于当前时刻的第一阈值A0,就需要启动VAD,然而,由于环境噪声本身杂
乱无章,在VAD检测时,无法从其中检测出有用的语音信号,因此会导致
VAD检测失败。第一噪声能量S0表示终端所处环境的稳态噪声的能量水平。
第一门限值M0是预设的参数,可以通过调试确定。
还需要说明的是,在本发明任一实施例中,第一和第二用于对同一术语
进行区分,例如,“第一阈值”的“第一”与“第二阈值”中的“第二”,
仅为对不同阈值进行区分的命名方式,并不代表阈值之间的次序。
在实际的应用场景下,不同应用场景下的噪声大小不同。例如,在安静
环境下,噪声约30至35分贝(decibel,简称:db);在嘈杂环境下,环境
噪声可参考如下数据:商场噪声约60db,马路噪声约70db,飞机舱内噪声
约70db,公交噪声约80db,地铁噪声约90db,等。另外,同样的地点,不
同时间的噪声大小也不同。例如,同一地点,白天和晚上的噪声可能会相差
10至15db。
再者,使用者在嘈杂环境下进行通话、交谈时,会下意识地提高语音音
量,从而提高了信噪比(SignalNoiseRatio,简称:SNR),为语音唤醒提供
了可行性基础。
因此,目前采用统一噪声门限,即预设阈值,的语音唤醒方案,在语音
唤醒终端时,无法区分对待安静环境和嘈杂环境,若预设阈值设置过高,会
导致语音漏检;若预设阈值设置过低,则会导致频繁唤醒处理器,进而导致
功耗偏大。
在本发明实施例中,适时调整各时刻的第一阈值A0的大小。
具体地,通过S101至S103,获得在ti时刻采样得到采样信号yi的音频
能量Ti以及该音频能量Ti相对ti时刻的第一阈值A0的大小,并当音频能量
Ti大于或等于ti时刻的第一阈值A0的情况下,进行VAD,以使DSP或处理
器等进行VAD并根据VAD的结果,判断是否唤醒终端。其中,VAD检测
成功,即DSP或处理器等可以进行VAD的元件在采样信号yi中检测到用户
的语音,则唤醒终端;否则,VAD检测失败,即DSP或处理器等可以进行
VAD的元件在采样信号yi中没有检测到用户的语音,则不唤醒终端。
在S104中,在第一噪声能量S0与ti时刻的第一阈值A0的差值大于预设
的第一门限值M0时,表明终端当前可能处于高背景噪声的环境。此时,根据
第一噪声能量S0生成第二阈值A1,并将第二阈值A1作为ti+1时刻的第一阈值
A0。其中,第一噪声能量S0是通过以第一抽取率1/x对采样信号yi进行抽取,
并对抽取出的采样点ys进行慢速跟踪滤波得到,x为大于1的自然数,n为
小于i的正整数。实际应用中,采样信号yi可能包括ti时刻的用户的语音和
环境噪声,或者,采样信号yi仅包括ti时刻的环境噪声。在ti时刻获得ti+1时
刻的第一阈值A0,即ti+1时刻时,终端执行语音唤醒方法中S103和S104所
使用的第一阈值。
若ti时刻的语音唤醒为第一次语音唤醒,则ti时刻的第一阈值A0可以是
预设的。可以认为,预设的第一阈值A0是个优化参数,对应一种可能的应用
场景,比如,将第一阈值A0预设为50分贝,可以认为是安静环境下的背景
噪声门限。其中,图2示例示出安静环境与嘈杂环境下的第一阈值。如图2
所示,安静环境下,第一阈值较环境噪声高出第一预设值;嘈杂环境下,第
一阈值较环境噪声高出第二预设值。另外,嘈杂环境的第一阈值是高于安静
环境的第一阈值的。
另外,S103还可以为:1)在音频能量Ti与ti-1时刻的音频能量Ti-1的差
值大于或等于ti时刻的差分阈值A00的情况下,进行VAD;或者,2)在音频
能量Ti大于或等于ti时刻的第一阈值A0,且,音频能量Ti与ti-1时刻的音频
能量Ti-1的差值大于或等于ti时刻的差分阈值A00的情况下,进行VAD;或
者,3)在音频能量Ti大于或等于ti时刻的第一阈值A0,或,音频能量Ti与
ti-1时刻的音频能量Ti-1的差值大于或等于ti时刻的差分阈值A00,二者满足其
一的情况下,进行VAD。其中,ti-1时刻的音频能量Ti-1是缓存在终端中的,
在ti-1时刻计算采样信号yi-1的音频能量得到。
若为1),则类似调整ti时刻的第一阈值A0的方法,调整ti时刻的差分
阈值A00;若为2),则类似调整ti时刻的第一阈值A0的方法,同时调整ti
时刻的第一阈值A0及ti时刻的差分阈值A00;若为3),则类似调整ti时刻的
第一阈值A0的方法,调整ti时刻的第一阈值A0或ti时刻的差分阈值A00。
本发明实施例通过获取ti时刻采样得到采样信号yi的音频能量Ti,并
在该音频能量Ti大于或等于ti时刻的第一阈值A0的情况下,进行VAD;
当VAD检测失败,且在ti时刻之前已连续n次检测失败,以及第一噪声
能量S0与ti时刻的第一阈值A0的差值大于预设的第一门限值M0时,调整
第一阈值A0的大小,得到ti+1时刻的第一阈值A0:根据第一噪声能量S0
生成第二阈值A1,并将第二阈值A1作为ti+1时刻的第一阈值A0。其中,
第一噪声能量S0是通过以第一抽取率1/x对采样信号yi进行抽取,并对抽
取出的采样点ys进行慢速跟踪滤波得到,也就是说,ti+1时刻的第一阈值
A0是根据ti时刻的第一噪声能量S0得到的,这样,终端可以根据当前环境
噪声调整下一时刻的第一阈值A0的大小,使各时刻的第一阈值A0与环境匹
配,以减少进行VAD的次数,实现终端在嘈杂环境下功耗的降低。
在上述实施例中,根据第一噪声能量S0生成第二阈值A1,可以包括:将
第一噪声能量S0作为第二阈值A1;或者,将第一噪声能量S0与预设的第一
修正量N0之和作为第二阈值A1,即A1=S0+N0;或者,将第一噪声能量S0
与预设的第一系数a0之积作为第二阈值A1,即A1=a0×S0。
其中,若第一修正量N0的数值较大,说明第二阈值A1在第一噪声能量
S0的基础上升高的快;若第一修正量N0的数值较小,说明第二阈值A1在第
一噪声能量S0的基础上升高的慢,升高的快慢程度可以根据实际需求设定。
其中,第一修正量N0的大小可以根据实际场景进行设定,本发明实施例不予
限制。同样,若第一系数a0的数值较大,说明第二阈值A1在第一噪声能量
S0的基础上升高的快;若第一系数a0的数值较小,说明第二阈值A1在第一噪
声能量S0的基础上升高的慢,升高的快慢程度可以根据实际需求设定。其中,
第一系数a0的大小可以根据实际场景进行设定,本发明实施例不予限制。
可选地,还可以将第一噪声能量S0与预设的第一系数a0的乘积,在加上
预设的第一修正量N0作为第二阈值A1,A1=a0×S0+N0。
图3为本发明语音唤醒方法实施例二的流程图。如图3所示,该方法可
以包括:
S301、对音频信号进行周期性采样,其中,在ti时刻采样得到采样信号
yi,i为正整数。
S302、计算采样信号yi的音频能量Ti。
S303、在音频能量Ti小于ti时刻的第一阈值A0,且从ti-m时刻直至ti时
刻各自的第一阈值A0与第二噪声能量F0的差值都大于预设的第二门限值M1
的情况下,进行VAD,m为正整数且m小于i。
示例性的,如果m=2,则当音频能量Ti小于ti时刻的第一阈值A0,且ti-2
时刻的第一阈值A0与第二噪声能量F0的差值大于第二门限值M1,ti-1时刻的
第一阈值A0与第二噪声能量F0的差值大于第二门限值M1,以及ti时刻的第
一阈值A0与第二噪声能量F0的差值大于第二门限值M1时,进行VAD。
S304、当VAD检测成功时,根据第二噪声能量F0生成第三阈值A2,并
将第三阈值A2作为ti+1时刻的第一阈值A0,其中,该第二噪声能量F0是通过
以第二抽取率1/z对采样信号yi进行抽取,并对抽取出的采样点yf进行快速
跟踪滤波得到,其中,z为大于x的自然数。
其中,S301和S302的具体说明可参考如图1所示的实施例,此处不再
赘述。
对于S303,在音频能量Ti小于ti时刻的第一阈值A0的情况下,对于现
有技术的语音唤醒方案,不再进行VAD,这样,就可能出现用户的语音漏检
的情况。例如,ti时刻的第一阈值A0适用于嘈杂环境,但此时终端处于相对
安静环境(例如,低背景噪声的环境)中,从而导致采样信号yi中用户的语
音的漏检。本发明实施例通过S303和S304更改ti+1时刻的第一阈值A0,使
其与当前环境匹配。
当从ti-m时刻直至ti时刻各自的第一阈值A0与第二噪声能量F0的差值都
大于预设的第二门限值M1时,即累计m+1次出现第一阈值A0与第二噪声能
量F0的差值大于预设的第二门限值M1的情况,说明终端此时处于安静环境
(低背景噪声的环境)中,当前的第一阈值A0较大,需下调,以与安静环境
匹配。其中,第二门限值M1是预设的参数,可以经过调试得到。
对于S304,VAD检测成功,说明采样信号yi中包含用户的语音,为避
免该用户的语音的漏检,根据第二噪声能量F0生成第三阈值A2,并将第三阈
值A2作为ti+1时刻的第一阈值A0。其中,该第二噪声能量F0是通过以第二抽
取率1/z对采样信号yi进行抽取,并对抽取出的采样点yf进行快速跟踪滤波
得到,因此,第二噪声能量F0能够在一定程度上反映终端所处环境的瞬态噪
声的能量水平。
本发明实施例通过获取ti时刻采样得到采样信号yi的音频能量Ti,并在
该音频能量Ti小于ti时刻的第一阈值A0,且从ti-m时刻直至ti时刻各自的第
一阈值A0与第二噪声能量F0的差值都大于预设的第二门限值M1的情况下,
进行VAD;当VAD检测成功时,根据第二噪声能量F0生成第三阈值A2,并
将第三阈值A2作为ti+1时刻的第一阈值A0。其中,该第二噪声能量F0是通过
以第二抽取率1/z对采样信号yi进行抽取,并对抽取出的采样点yf进行快速
跟踪滤波得到,也就是说,ti+1时刻的第一阈值A0是根据ti时刻的第二噪声能
量F0得到的,这样,终端可以根据当前环境噪声调整下一时刻的第一阈值
A0的大小,使各时刻的第一阈值A0与环境匹配,以在减少进行VAD的次数,
实现终端在嘈杂环境下功耗的降低的情况下,进一步避免采样信号yi中用户
的语音的漏检。
在上述实施例中,根据所述第二噪声能量F0生成第三阈值A2,具体可以
包括:将第二噪声能量F0作为第三阈值A2;或者,将第二噪声能量F0与预
设的第二修正量N1之和作为第三阈值A2,即A2=F0+N1;或者,将第二噪
声能量F0与预设的第二系数a1之积作为第三阈值A2,即A2=a1×F0。
其中,若第二修正量N1的数值较大,说明第三阈值A2在第二噪声能量
F0的基础上升高的快;若第二修正量N1的数值较小,说明第三阈值A2在第
二噪声能量F0的基础上升高的慢,升高的快慢程度可以根据实际需求设定。
其中,第二修正量N1的大小可以根据实际场景进行设定,本发明实施例不予
限制。同样,若第二系数a1的数值较大,说明第三阈值A2在第二噪声能量
F0的基础上升高的快;若第二系数a1的数值较小,说明第三阈值A2在第二噪
声能量F0的基础上升高的慢,升高的快慢程度可以根据实际需求设定。其中,
第二系数a1的大小可以根据实际场景进行设定,本发明实施例不予限制。
可选地,还可以将第二噪声能量F0与预设的第二系数a1的乘积,在加上
预设的第二修正量N1作为第三阈值A2,A2=a1×F0+N1。
图4为本发明语音唤醒方法实施例三的流程图。如图4所示,该方法可
以包括:
S401、对音频信号进行周期性采样,其中,在ti时刻采样得到采样信号
yi,i为正整数。
S402、计算采样信号yi的音频能量Ti。
S403、在音频能量Ti小于ti时刻的第一阈值A0,且ti时刻的第一阈值
A0与第一噪声能量S0的差值大于预设的第三门限值M2的情况下,根据第一
噪声能量S0生成第四阈值A3,并将第四阈值A3作为ti+1时刻的第一阈值A0。
其中,S401和S402的具体说明可参考如图1所示的实施例,此处不再
赘述。
至于S403,在音频能量Ti小于ti时刻的第一阈值A0的情况下,对于现
有技术的语音唤醒方案,不再进行VAD,这样,就可能出现用户的语音漏检
的情况。例如,ti时刻的第一阈值A0适用于嘈杂环境,但此时终端处于相对
安静的环境中,从而导致采样信号yi中用户的语音的漏检。本发明实施例通
过S403更改ti+1时刻的第一阈值A0,使其与当前的环境相匹配。
当ti时刻的第一阈值A0与第一噪声能量S0的差值大于预设的第三门限值
M2时,也即,ti时刻的第一阈值A0相较第一噪声能量S0较大,说明终端此
时处于相对安静的环境中,ti时刻的第一阈值A0较大,需下调,以与环境匹
配。其中,第三门限值M2是预设的参数,可以经过调试得到。
因第一噪声能量S0是通过以第一抽取率1/x对采样信号yi进行抽取,并
对抽取出的采样点ys进行慢速跟踪滤波得到,故第一噪声能量S0反应环境的
稳定能量。因此,S403无需如S303一样,比较多个时刻的第一阈值A0与第
一噪声能量S0的差值大于预设的第三门限值M2。当ti时刻的第一阈值A0
与第一噪声能量S0的差值大于预设的第三门限值M2时,即可说明采样信号
yi中包含用户的语音,为避免该用户的语音的漏检,根据第一噪声能量S0生
成第四阈值A3,并将第四阈值A3作为ti+1时刻的第一阈值A0。
本发明实施例通过获取ti时刻采样得到采样信号yi的音频能量Ti,并在
该音频能量Ti小于ti时刻的第一阈值A0,且ti时刻的第一阈值A0与第一噪声
能量S0的差值大于预设的第三门限值M2的情况下,根据第一噪声能量S0生
成第四阈值A3,并将第四阈值A3作为ti+1时刻的第一阈值A0。其中,该第一
噪声能量S0是通过以第一抽取率1/x对采样信号yi进行抽取,并对抽取出的
采样点ys进行慢速跟踪滤波得到,也就是说,ti+1时刻的第一阈值A0是根据
ti时刻的第一噪声能量S0得到的,这样,终端可以根据当前环境噪声调整下
一时刻的第一阈值A0的大小,使各时刻的第一阈值A0与环境匹配,以在减
少进行VAD的次数,实现终端在嘈杂环境下功耗的降低的情况下,进一步避
免采样信号yi中用户的语音的漏检。
基于上述实施例,其中,根据第一噪声能量S0生成第四阈值A3可以包
括:将第一噪声能量S0作为第四阈值A3;或者,将第一噪声能量S0与预设
的第三修正量N2之和作为第四阈值A3,即A3=S0+N2;或者,将第一噪声
能量S0与预设的第三系数a2之积作为第四阈值A3,即A3=a2×S0。
其中,若第三修正量N2的数值较大,说明第四阈值A3在第一噪声能量
S0的基础上升高的快;若第三修正量N2的数值较小,说明第四阈值A3在第
一噪声能量S0的基础上升高的慢,升高的快慢程度可以根据实际需求设定。
其中,第三修正量N2的大小可以根据实际场景进行设定,本发明实施例不予
限制。同样,若第三系数a2的数值较大,说明第四阈值A3在第一噪声能量
S0的基础上升高的快;若第三系数a2的数值较小,说明第四阈值A3在第一噪
声能量S0的基础上升高的慢,升高的快慢程度可以根据实际需求设定。其中,
第三系数a2的大小可以根据实际场景进行设定,本发明实施例不予限制。
可选地,还可以将第一噪声能量S0与预设的第三系数a2的乘积,在加上
预设的第三修正量N2作为第四阈值A3,即A3=a2×S0+N2。
补充说明的是,第二修正量N1和第三修正量N2分别反映在不同的条件
下,第一阈值A0相对噪声能量提升的数值。其中,第一阈值A0相对第二噪
声能量F0大第二修正量N1,第一阈值A0相对第一噪声能量S0大第三修正量
N2。另外,由于第一噪声能量S0为慢速跟踪滤波,第二噪声能量F0为快速跟
踪滤波,因此,可选地,第三修正量N2大于第二修正量N1,以实现对环境
的快速匹配。
更进一步地,本发明实施例还可以记录第一阈值变化的场景。对于升高
第一阈值的场景,可以记录为升高阈值时刻;对于降低第一阈值的场景,可
以记录为降低阈值时刻。
具体地,在将第三阈值A2作为ti+1时刻的第一阈值A0之前,该方法还可
以包括:记录ti时刻为降低阈值时刻;当ti时刻与上一降低阈值时刻的时间
间隔大于预设值Ttime时,执行上述将第三阈值A2作为ti+1时刻的第一阈值A0
的步骤,否则,不执行上述将第三阈值A2作为ti+1时刻的第一阈值A0的步骤。
在将第四阈值A3作为ti+1时刻的第一阈值A0之前,该方法还可以包括:
记录ti时刻为降低阈值时刻;当ti时刻与上一降低阈值时刻的时间间隔大于
预设值Ttime时,执行上述将第四阈值A3作为ti+1时刻的第一阈值A0的步骤,
否则,不执行上述将第四阈值A3作为ti+1时刻的第一阈值A0的步骤。
上述两种具体的实现方式可防止第一阈值A0的乒乓切换,同时不影响语
音检测的可靠性,降低语音漏检概率。
本发明实施例持续监测并跟踪环境背景噪声,根据环境背景噪声的大小
自适应调整第一阈值A0,并对该第一阈值A0调整采取缓升或慢降的方式,
从而降低语音漏检概率。另外,第一阈值A0的动态调节,使得安静环境和嘈
杂环境下的功耗接近,从而可以提升用户体验,提高产品竞争力。
图5为本发明语音唤醒装置实施例一的结构示意图。该语音唤醒装置可
以通过硬件的方式实现。该语音唤醒装置可以集成在例如平板电脑、智能手
机、PDA等终端中。如图5所示,语音唤醒装置10包括:SRC11、运算电
路12、阈值判决电路13、第一抽取器14、慢速跟踪滤波器(SlowTracking
Filter,简称:STF)15、比较器16、配置器17和中断处理电路18。
其中,SRC11用于对音频信号进行周期性采样,其中,在ti时刻采样得
到采样信号yi,i为正整数。运算电路12用于计算采样信号yi的音频能量Ti。
阈值判决电路13用于判断音频能量Ti是否大于或等于ti时刻的第一阈值A0;
在音频能量Ti大于或等于ti时刻的第一阈值A0的情况下,触发中断处理电路
18输出中断脉冲信号给中断控制电路20,由中断控制电路20使能DSP或处
理器30进行VAD。第一抽取器14的输入端耦合至SRC11的输出端,第一
抽取器14用于以第一抽取率1/x对采样信号yi进行抽取得到采样点ys并输
出,x为大于1的自然数。STF15的输入端耦合至第一抽取器14的输出端,
STF15用于对抽取得到采样点ys进行慢速跟踪滤波得到第一噪声能量S0。
比较器16的输入端耦合至STF15的输出端及阈值判决电路13,比较器16
用于比较第一噪声能量S0与ti时刻的第一阈值A0的差值是否大于预设的第一
门限值M0。配置器17用于当VAD检测失败,且在ti时刻之前已连续n次检
测失败,以及第一噪声能量S0与ti时刻的第一阈值A0的差值大于预设的第一
门限值M0时,根据第一噪声能量S0生成第二阈值A1,并将第二阈值A1作为
ti+1时刻的第一阈值A0,下发至阈值判决电路13,n为正整数且n小于i。
参考图5,配置器17为语音唤醒装置10配置参数,例如上述第一阈值
A0等。本领域技术人员可以理解,配置器17接收来自终端的配置参数,并将
配置参数转换成对语音唤醒装置10中各个逻辑模块的对应控制信号,其中,
逻辑模块包括运算电路12、阈值判决电路13和中断处理电路18等。SRC11
具体可以采用降采样的方式对音频信号进行采样,比如将32千赫(kilohertz,
简称:KHz)的数据转换为16KHz等。
采样信号yi在图5中的流向为:
SRC11—>运算电路12—>阈值判决电路13—>中断处理电路18(可选)—
>中断控制电路20(可选)—>DSP或处理器30(可选)。
在音频能量Ti大于或等于ti时刻的第一阈值A0的情况下,采样信号yi
的流向包括上述可选的部分;在音频能量Ti小于ti时刻的第一阈值A0的情况
下,采样信号yi的流向不包括上述可选的部分。
第一抽取器14、STF15和比较器16不影响正常的语音唤醒,仅用于和
配置器17共同作用改变语音唤醒中的第一阈值A0。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实
现原理和技术效果类似,此处不再赘述。
在上述实施例中,配置器17可具体用于:将第一噪声能量S0作为第二
阈值A1;或者,将第一噪声能量S0与预设的第一修正量N0之和作为第二阈
值A1,即A1=S0+N0;或者,将第一噪声能量S0与预设的第一系数a0之积
作为第二阈值A1,即A1=a0×S0,等等,本发明实施例不以此为限制。
图6为本发明语音唤醒装置实施例二的结构示意图。该语音唤醒装置可
以通过硬件的方式实现。该语音唤醒装置可以集成在例如平板电脑、智能手
机、PDA等终端中。如图6所示,语音唤醒装置100包括:SRC110、运算
电路120、阈值判决电路130、第二抽取器140、快速跟踪滤波器(FastTracking
Filter,简称:FTF)150、比较器160、配置器170和中断处理电路180。
其中,SRC110用于对音频信号进行周期性采样,其中,在ti时刻采样
得到采样信号yi,i为正整数。运算电路120用于计算采样信号yi的音频能量
Ti。阈值判决电路130用于判断音频能量Ti是否大于或等于ti时刻的第一阈
值A0。第二抽取器140的输入端耦合至SRC110的输出端,第二抽取器140
用于以第二抽取率1/z对采样信号yi进行抽取得到采样点yf,其中,z为大于
x的自然数。FTF150的输入端耦合至第二抽取器140的输出端,FTF150用
于对抽取得到采样点yf进行快速跟踪滤波得到第二噪声能量F0。比较器160
的输入端耦合至FTF150的输出端,比较器160用于在音频能量Ti小于ti时
刻的第一阈值A0的情况下,比较各时刻的第一阈值与第二噪声能量F0的差
值是否大于预设的第二门限值M1;并当从ti-m时刻直至ti时刻各自的第一阈
值A0与第二噪声能量F0的差值都大于预设的第二门限值M1的情况下,触发
中断处理电路180输出中断脉冲信号给中断控制电路200,由中断控制电路
200使能DSP或处理器300进行VAD,m为正整数且m小于i。配置器170
用于当VAD检测成功时,根据第二噪声能量F0生成第三阈值A2,并将第三
阈值A2作为ti+1时刻的第一阈值A0,下发至阈值判决电路130。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实
现原理和技术效果类似,此处不再赘述。
在上述实施例的基础上,配置器可以具体用于:将第二噪声能量F0作为
第三阈值A2;或者,将第二噪声能量F0与预设的第二修正量N1之和作为第
三阈值A2,即A2=F0+N1;或者,将第二噪声能量F0与预设的第二系数a1
之积作为第三阈值A2,即A2=a1×F0,等等,本发明实施例不以此为限制。
可选地,配置器170还可以用于:记录ti时刻为降低阈值时刻;当ti时
刻与上一降低阈值时刻的时间间隔大于预设值Ttime时,执行上述将第三阈值
A2作为ti+1时刻的第一阈值A0的步骤,否则,不执行上述将第三阈值A2作为
ti+1时刻的第一阈值A0的步骤,从而可防止第一阈值A0的乒乓切换,同时不
影响语音检测的可靠性,降低语音漏检概率。
参考图5,配置器17还可以用于:在音频能量Ti小于ti时刻的第一阈值
A0,且ti时刻的第一阈值A0与第一噪声能量S0的差值大于预设的第三门限值
M2的情况下,根据第一噪声能量S0生成第四阈值A3,并将第四阈值A3作为
ti+1时刻的第一阈值A0。
此时,本实施例的装置,可以用于执行图4所示方法实施例的技术方案,
其实现原理和技术效果类似,此处不再赘述。
进一步地,配置器17可具体用于:将第一噪声能量S0作为第四阈值A3;
或者,将第一噪声能量S0与预设的第三修正量N2之和作为第四阈值A3,即
A3=S0+N2;或者,将第一噪声能量S0与预设的第三系数a2之积作为第四阈
值A3,即A3=a2×S0,等等,本发明实施例不以此为限制。
更进一步地,配置器17还可以用于:记录ti时刻为降低阈值时刻;当ti
时刻与上一降低阈值时刻的时间间隔大于预设值Ttime时,执行上述将第四阈
值A3作为ti+1时刻的第一阈值A0的步骤,否则,不执行上述将第四阈值A3
作为ti+1时刻的第一阈值A0的步骤,从而可防止第一阈值A0的乒乓切换,同
时不影响语音检测的可靠性,降低语音漏检概率
参考图5和图6,第一抽取器14和第二抽取器140分别实现长周期或者
短周期的数据抽取。STF15是一个慢速收敛的滤波器,用于稳定跟踪环境噪
声变化。FTF150是一个快速收敛的滤波器,用于快速跟踪环境噪声变化。
可选地,STF15是一个慢速收敛的滤波器,用于稳定跟踪环境噪声变化。STF
15和FTF150用于跟踪当前的计算窗的能量,采用和运算电路12或运算电
路120类似的结构。STF15和FTF150的区别在于滤波器的阶数和参数的不
同,而滤波器的阶数和参数是根据实际的调试情况来设定的。FTF150用来
进行短周期滤波,也就是最近发生的数据变化能够快速影响滤波器的输出。
STF15是长周期滤波,也就是最近发生的数据变化对滤波器的输出的影响比
较小和慢。
可选地,在图5的基础上,结合图6,得到如图7所示的结构。图7为
本发明语音唤醒装置实施例三的结构示意图。如图7所示,语音唤醒装置1000
包括:SRC11、运算电路12、阈值判决电路13、第一抽取器14、第二抽取
器140、STF15、FTF150、比较器16、配置器17和中断处理电路18。
其中,阈值判决电路13还具备阈值判决电路130的作用和功能;比较器
16还具备比较器160的作用和功能;配置器17还具备配置器170的作用和
功能;中断处理电路18还具备中断处理电路180的作用和功能。具体原理如
上述实施例,此处不再赘述。
本发明实施例持续监测并跟踪环境背景噪声,根据环境背景噪声的大小
自适应调整第一阈值A0,并对该第一阈值A0调整采取缓升或慢降的方式,
从而降低语音漏检概率。另外,第一阈值A0的动态调节,使得安静环境和嘈
杂环境下的功耗接近,从而可以提升用户体验,提高产品竞争力。
在本申请所提供的几个实施例中,应该理解到,所揭示的设备和方法,
可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,
例如,所述单元或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以
有另外的划分方式,例如多个单元或模块可以结合或者可以集成到另一个系
统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的
耦合或直接耦合或通信连接可以是通过一些接口,设备或模块的间接耦合或
通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作
为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,
或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或
者全部模块来实现本实施例方案的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对
其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通
技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,
或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并
不使相应技术方案的本质脱离本发明各实施例技术方案的范围。