应用语音存在概率优化的RETF混响消除方法及系统技术领域
本发明涉及语音识别技术领域,尤其涉及应用语音存在概率优化的RETF混响消除
方法及系统。
背景技术
随着语音识别技术的广泛使用,产品智能化水平的显著提高,如何让机器更好的
听懂人类语言,提高人机交互的流畅性,成为目前人们研究的热点。目前的语音识别系统,
只对理想的语音信号识别率较高,对于包含噪声和混响的实时采集语音,识别效果较低。混
响是指,在语音采集的过程中,声音在房间中经过墙壁、家具等表面反射,与原始语音一同
被麦克风接收得到的信号,在时域和频域范围内由于反射声导致的语音拖尾、混叠现象。
目前一种较好的混响消除算法是应用基于相对早期传递函数的波束成形RETF算
法,混响的消除能力较强,能否达到3~5米内的远程拾音的效果。但现有的RETF算法需要对
信号进行反复的维纳滤波以估算噪声、传递函数和进行后置滤波,该算法存在大量冗余过
程并且其应用的后置维纳滤波效果较差的问题。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供应用语音存在概率优化的RETF
混响消除方法及系统,旨在解决现RETF算法存在大量冗余过程并且后置维纳滤波效果较差
的问题。
本发明的技术方案如下:
应用语音存在概率优化的RETF混响消除方法,其中,包括步骤:
A、采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束
成形频域系数;
B、采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信号
为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率谱,
并计算所述语音信号的噪声功率及混响功率;
C、根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传
递函数计算混响噪声合成滤波器的阻塞矩阵和自适应矩阵;
D、根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混响
消除后的语音信号;
E、应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后置
滤波,得到最终混响消除的语音信号。
较佳地,所述的应用语音存在概率优化的RETF混响消除方法,其中,所述步骤A具
体包括:
A1、以第一帧语音信号x1(n)为基准,应用互相关时延估计算法
计算每帧语音信号xi(n)与第一帧语音
信号x1(n)之间的互相关函数;
A2、根据公式:计算固定波
束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值
所在位置对应两帧间的移位距离。
较佳地,所述的应用语音存在概率优化的RETF混响消除方法,其中,所述步骤B具
体包括:
B1、在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S
(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其中,所述S(k,j)为所述语音信
号第j帧第k频点的语音功率谱,所述a为固定值,所述其中,所
述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平
均值;
B2、通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行类型判断,当S(k,j)/
Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,
则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及
混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
较佳地,所述的应用存在概率优化的RETF混响消除方法,其中,所述步骤C具体包
括:
C1、根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式
为:其中,
C2、根据所述相对早期传递函数计算得到混响噪声合成滤波器的阻塞矩阵为
自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S
(k)*h0(k))。
较佳地,所述的应用语音存在概率优化的RETF混响消除方法,其中,所述步骤E具
体包括:
E1、计算语音信号的各频点语音存在概率:
其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概
率值;
E2、根据所述各频点语音存在概率计算EM增益表达式为:
其中,所述GH1(k)为增益系数,所述
其中所述Γ为gamma函数,M为
合流超几何函数,Gmin(k)=10-1.5;
E3、应用所述EM增益表达式对所述初
步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
应用语音存在概率优化的RETF混响消除系统,其中,包括:
固定波束成形频域系数获取模块,用于采用互相关时延估计算法对各通道语音信
号进行延时加权叠加,得到固定波束成形频域系数;
噪声功率及混响功率获取模块,用于采用语音存在概率粗估计算法对语音信号进
行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音信号
为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
阻塞矩阵和自适应矩阵获取模块,用于根据所述噪声功率及混响功率求解相对早
期传递函数,并根据所述相对早期传递函数计算混响、噪声合成滤波器的阻塞矩阵和自适
应矩阵;
初步消除混响模块,用于根据所述固定波束成形的频域系数、阻塞矩阵及自适应
矩阵计算得到初步混响消除后的语音信号;
后置滤波模块,用于应用语音存在概率优化的EM增益对所述初步混响消除后的语
音信号进行后置滤波,得到最终混响消除的语音信号。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述固定波束
成形频域系数获取模块具体包括:
互相关函数获取单元,用于以第一帧语音信号x1(n)为基准,应用互相关时延估计
算法计算每帧语音信号xi(n)与第一帧语
音信号x1(n)之间的互相关函数;
固定波束成形频域系数获取单元,用于根据公式:
计算固定波束成形的频域系数h0
(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对
应两帧间的移位距离。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述噪声功率
及混响功率获取模块具体包括:
语音信号的功率谱计算单元,用于在时域和频域范围内对语音信号的功率谱进行
平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其
中,所述S(k,j)为所述语音信号第j帧第k频点的语音功率谱,所述a为固定值,所述
其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域
在窗口范围w内以权值b(i)计算的平均值;
噪声功率及混响功率获取单元,用于通过比较S(k,j)/Smin(k)与δ值的大小对语音
信号进行类型判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功
率谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述
语音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的
最小值。
较佳地,所述的应用存在概率优化的RETF混响消除系统,其中,所述阻塞矩阵和自
适应矩阵获取模块具体包括:
相对早期传递函数计算单元,用于根据所述噪声功率N(k,j)及混响功率R(k,j)得
到所述相对早期传递函数的表达式为:其中,所述
所述
阻塞矩阵和自适应矩阵获取单元,用于根据所述相对早期传递函数计算得到混
响、噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH
(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述后置滤波
模块具体包括:
语音存在概率计算单元,用于计算语音信号的各频点语音存在概率:
其中,γ(k)为各频点对应的后验信噪比,
所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
EM增益计算单元,用于根据所述各频点语音存在概率计算EM增益表达式为:
其中,所述GH1(k)为增益系数,所述
其中所述Γ为gamma函数,M为
合流超几何函数,Gmin(k)=10-1.5;
后置滤波单元,用于应用所述EM增益表达式
对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
有益效果:本发明提出应用语音存在概率优化的RETF混响消除方法和系统,通过
应用语音存在概率对噪声和混响进行估计,得到初步混响消除后的语音信号,进一步应用
基于语音存在概率计算的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最
终混响消除的语音信号。通过本发明不仅能简化系统,提高系统的运行速度,而且极大地改
善了混响消除的效果,提升了语音识别的准确率。
附图说明
图1为本发明应用语音存在概率优化的RETF混响消除方法较佳实施例的流程图。
图2为本发明RETF混响消除模型示意图。
图3为本发明应用语音存在概率优化的RETF混响消除系统较佳实施例的结构框
图。
具体实施方式
本发明提供应用语音存在概率优化的RETF混响消除方法及系统,为使本发明的目
的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述
的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明应用语音存在概率优化的RETF混响消除方法较佳实施例
的流程图,如图所示,其包括步骤:
S10、采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波
束成形频域系数;
S20、采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信
号为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率
谱,并计算所述语音信号的噪声功率及混响功率;
S30、根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期
传递函数计算混响、噪声合成滤波器的阻塞矩阵和自适应矩阵;
S40、根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混
响消除后的语音信号;
S50、应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后
置滤波,得到最终混响消除的语音信号。
本发明应用RETF模型,搭建混响消除的大体框架,如图2所示为本发明RETF混响消
除模型,整个系统分为MVDR滤波和后置维纳滤波两部分。具体地,对于MVDR滤波器的计算,
首先应用固定波束成形滤波器得到各通道合成语音,之后计算混响、噪声合成滤波器的阻
塞矩阵和自适应矩阵,目标是使波束成形合成的语音减去滤波器得到的混响和噪声,从而
得到初步消除混响的语音信号;对于后置维纳滤波部分,应用基于语音存在概率的EM增益
代替简单的后置维纳滤波,将初步消除混响的语音信号经过EM增益处理,可以得到较为理
想的语音混响消除结果。
在本发明中,所述步骤S10采用互相关时延估计算法对各通道语音信号进行延时
加权叠加,得到固定波束成形频域系数具体包括:
S11、以第一帧语音信号x1(n)为基准,应用互相关时延估计算法
计算每帧语音信号xi(n)与第一帧语音
信号x1(n)之间的互相关函数;
S12、根据公式:计算固定波
束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值
所在位置对应两帧间移位距离。
进一步,在本发明中,所述步骤S20具体包括:
S21、在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S
(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其中,所述S(k,j)为所述语音信
号第j帧第k频点的语音功率谱,所述a为固定值,所述其中,所
述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平
均值;
S22、通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行类型判断,当S(k,j)/
Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,
则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及
混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
具体地,首先,频域在窗口范围w内以权值b(i)求平均值:
可以取w=2,b(i)=[0.1,0.2,0.4,0.2,0.1];然后在时域内进行平滑:S(k,j)=a*S(k,j-
1)+(1-a)Sf(k,j),a可以取0.1;每隔500ms左右,求取各个频点k在各帧内取值的最小值Smin
(k),每一帧各频点功率谱与最小功率谱求比值,S(k,j)/Smin(k)>δ,第j帧k频点对应语音
频点,S(k,j)/Smin(k)<δ,第j帧k频点对应噪声频点;δ可以取2。
然后计算噪声功率,默认语音的初始5帧对应的是噪声帧,估算初始估噪声功率谱
N(k,j0)。之后每帧根据上面描述的语音存在概率粗估计法,若S(k,j)/Smin(k)>δ,判断为
语音帧,则频点k处不更新噪声功率谱,若S(k,j)/Smin(k)<δ,判断为噪声帧,则频点k处更
新噪声功率谱N(k,j)=a*N(k,j)+(1-a)S(k,j)。之后计算混响功率:R(k,j)=exp(-6*log
(10)RL/(T60*fs))*[S(k,j-L)-N(k,j-L)],其中T60为房间混响系数,一般房间通常在1s
内,L对应后期混响时间,可选取200~400ms。
对每一通道i的输入信号,分别按上式处理,得到各通道的噪声功率Ni(k,j)和混
响功率Ri(k,j)。
进一步,所述步骤S30根据所述噪声功率及混响功率求解相对早期传递函数,并根
据所述相对早期传递函数计算混响、噪声合成滤波器的阻塞矩阵和自适应矩阵具体包括:
S31、根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式
为:其中,所述
所述
S32、根据所述相对早期传递函数计算得到混响噪声合成滤波器的阻塞矩阵为
自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S
(k)*h0(k))。
更进一步,在本发明所述步骤S40中,根据所述固定波束成形的频域系数、阻塞矩
阵及自适应矩阵计算得到初步消除混响后的语音信号,具体地,将语音信号通过hMVDR滤波
器,根据公式hMVDR=h0-(B*hNC)计算得到初步消除混响后的语音信号。
进一步,在本发明中,所述步骤S50应用语音存在概率优化的EM增益对所述初步消
除混响后的语音信号进行后置滤波,得到混响消除的语音信号具体包括:
S51、计算语音信号的各频点语音存在概率:
其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概
率值;
S52、根据所述各频点语音存在概率计算EM增益表达式为:
其中,所述GH1(k)为增益系数,所述
其中所述Γ为gamma函数,M为
合流超几何函数,Gmin(k)=10-1.5;
S53、应用所述EM增益表达式对所述
初步消除混响后的语音信号进行后置滤波,得到混响消除的语音信号。
较佳地,本发明通过计算语音存在概率优化的EM增益,代替维纳滤波对语音进行
后置滤波,提升混响消除效果。
具体地,首先计算各频点对应的后验信噪比:γ(k)=S(k)/(R(k)+N(k));然后,根
据下式计算各频点先验信噪比:ξ(k)=a*max(0,γ(k)-1)+(1-a)*X(k,j-1)2/(R(k)+N
(k)),在帧内求解先验信噪比均值ξ_ave。根据先验概率和后验概率,求解如下几个概率值:
Pframe=0.1+0.9*(1/(1+0.15/ξ_ave))
Plocal(k)Pglobal(k)=0.1+0.9*(1/(1+0.15/ξ(k)))
Q=1-Plocal(k)Pglobal(k)Pframe
根据上述概率值得到各频点语音存在概率的表达式为:
进一步,得到语音存在概率后计算增益系数:
其中,Γ为gamma函
数,M为合流超几何函数,Gmin(k)=10-1.5。
更进一步,得到EM增益表达式为:应
用语音存在概率优化的EM增益G(k)对所述初步消除混响后的语音信号进行后置滤波,得到
混响消除的语音信号。
基于上述方法,本发明还提供应用语音存在概率优化的RETF混响消除系统,如图3
所示,其中,包括:
固定波束成形频域系数获取模块100,用于采用互相关时延估计算法对各通道语
音信号进行延时加权叠加,得到固定波束成形频域系数;
噪声功率及混响功率获取模块200,用于采用语音存在概率粗估计算法对语音信
号进行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音
信号为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
阻塞矩阵和自适应矩阵获取模块300,用于根据所述噪声功率及混响功率求解相
对早期传递函数,并根据所述相对早期传递函数计算混响噪声合成滤波器的阻塞矩阵和自
适应矩阵;
初步消除混响模块400,用于根据所述固定波束成形的频域系数、阻塞矩阵及自适
应矩阵计算得到初步混响消除后的语音信号;
后置滤波模块500,用于应用语音存在概率优化的EM增益对所述初步混响消除后
的语音信号进行后置滤波,得到最终混响消除的语音信号。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述固定波束
成形频域系数获取模块100具体包括:
互相关函数获取单元,用于以第一帧语音信号x1(n)为基准,应用互相关时延估计
算法计算每帧语音信号xi(n)与第一帧语
音信号x1(n)之间的互相关函数;
固定波束成形频域系数获取单元,用于根据公式:
计算固定波束成形的频域系数h0
(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对
应两帧间的移位距离。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述噪声功率
及混响功率获取模块具体200包括:
语音信号的功率谱计算单元,用于在时域和频域范围内对语音信号的功率谱进行
平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的功率谱;其中,所
述S(k,j)为所述语音信号第j帧第k频点的功率谱,所述a为固定值,所述
其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域
在窗口范围w内以权值b(i)计算的平均值;
噪声功率及混响功率获取单元,用于通过比较S(k,j)/Smin(k)与δ值的大小对语音
信号进行判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率
谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语
音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最
小值。
较佳地,所述的应用存在概率优化的RETF混响消除系统,其中,所述阻塞矩阵和自
适应矩阵获取模块300具体包括:
相对早期传递函数计算单元,用于根据所述噪声功率N(k,j)及混响功率R(k,j)得
到所述相对早期传递函数的表达式为:其中,所述
所述
阻塞矩阵和自适应矩阵获取单元,用于根据所述相对早期传递函数计算得到混
响、噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH
(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述后置滤波
模块500具体包括:
语音存在概率计算单元,用于计算语音信号的各频点语音存在概率:
其中,γ(k)为各频点对应的后验信噪比,
所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
EM增益计算单元,用于根据所述各频点语音存在概率计算EM增益表达式为:
其中,所述GH1(k)为增益系数,所述
其中所述Γ为gamma函数,M为
合流超几何函数,Gmin(k)=10-1.5;
后置滤波单元,用于应用所述EM增益表达式
对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
关于上述模块的技术细节在前面的方法中已有详述,故不再赘述。
综上所述,本发明提出应用语音存在概率优化的RETF混响消除方法和系统,通过
应用语音存在概率对噪声和混响进行估计,得到初步消除混响的语音信号,进一步应用基
于语音存在概率计算的EM增益对所述初步消除混响后的语音信号进行后置滤波,得到混响
消除的语音信号。通过本发明不仅能简化系统,提高系统的运行速度,而且极大地改善了混
响消除的效果,提升了语音识别的准确率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可
以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保
护范围。