基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 【技术领域】
本发明涉及一种说话人确认方法,特别涉及一种基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法。
背景技术
在门禁、信用卡交易和法庭证据等方面,自动说话人确认,特别是与文本无关的说话人确认起着越来越重要的作用,它的目标是确认待测说话人是否是所称的那个人。
在说话人确认方法上,基于高斯混合背景模型(GMM‑UBM)方法越来越受到重视,由于它具有识别率高,训练简单,训练数据量要求不大等优点,已经成为目前主流的识别方法。基于高斯混合模型超向量的支持向量机(SVM)和因子分析方法则代表GMM‑UBM方法的最新成果,它们利用GMM‑UBM模型训练获取均值超向量,利用投影或因子分析方法对均值超向量进行处理,再利用SVM或其它方法进行确认。由于高斯混合模型(GMM)具有很好的表示数据的分布的能力,只要有足够多的项,足够多的训练数据,GMM就能够逼近任何分布模型。但是,GMM只能逼近数据分布,对底层数据分布的改变无能为力,它不能对数据作任何变换,或者说不能改变数据的分布;另外,在选择GMM模型时,通常取各个高斯分布的方差矩阵为对角矩阵,这个假设也不是很合理,这样要求高斯混合项足够多;还有由于训练和确认时信道可能不匹配会导致确认率降低。
自联想神经网络(AANN)在说话人识别方面也占有重要的位置,多层感知器(MLP)、射线基(RadialBasis)网络、时延网络(TDNN)等已经成功应用于说话人识别,并且取得很好的识别效果。神经网络对特征向量进行变换,通过学习,使变换得到的特征向量以某种方式逼近目标向量,逼近的准则通常是最小均方误差(MMSE)准则。可以预见的是,如果将神经网络技术和高斯混合背景模型相结合起来,将会大大提高系统的识别率,但是目前还没有出现此类方法。
【发明内容】
本发明的目的就在于解决现有技术的缺陷,提出了基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法。本发明的技术方案是:
基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,其特征在于包括以下步骤:
在训练时,利用自联想神经网络(AANN)对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量(即输入向量与AANN网络的输出之差)的形式提供给高斯混合模型(GMM),进行GMM模型训练;
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模 型的过程交替进行;训练通用背景模型的GMM时采用期望最大(EM)方法,训练目标说话人模型的GMM时用最大后验概率(MAP)方法,训练AANN时采用带惯性的反向传播(BP)向后反演法;
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。在所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法中,所述的通用背景模型训练过程如下:
(1)确定GMM模型和AANN网络结构;
(2)设定收敛条件和最大迭代次数;
(3)随机确定AANN网络和GMM模型参数;
(4)把背景特征向量输入AANN网络,得到所有的残差向量;
(5)固定AANN网络参数,利用如下各式修正GMM模型各个高斯分布的权系数,均值和方差(可由均方值和均值得到):
类别后验概率:
![]()
权系数:
![]()
均值:
![]()
均方值:
![]()
x
t是一个N维的随机向量;b
i(x),i=1,2,...,M是成员密度;p
i,i=1,2,...,M是混合权值,满足
![]()
p
i>0。每个成员密度是一个均值矢量为U
i、协方差矩阵为∑
i的高斯函数,形式如下:
![]()
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λ
i的集合。
λ
i={p
i,u
i,∑
i},i=1,2,...,M
(6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(7)判断是否满足训练停止条件,是,停止训练,否,转(4)。
在所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法中,所述的说话人模型训练过程如下:
(1)给定收敛条件和最大迭代次数;
(2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数
(3)把目标说话人特征向量输入AANN网络,得到所有的残差向量;
(4)固定AANN网络参数,修正GMM模型各个高斯分布的权系数,均值向量和方差,修正公式如下:
![]()
通常,α
iw,α
im,α
iv取值相同,有
![]()
其中,r=16。
(5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(6)判断是否满足训练停止条件,是,停止训练,否,转(3)。
本发明的优点和效果在于:
1.充分利用了AANN和GMM各自的优点,使AANN能够学习特征向量间的差异,把特征向量集映射到增大似然概率的子空间,并且由于神经网络的学习特性可以进一步消除信道的不匹配效果,并且起到了抑制语义特征,增强说话人特征的效果,使得整个说话人确认系统错误率大大降低。
2.由于采用了GMM‑UBM模型,训练目标说话人模型时不必从头开始,而是通过调整背景模型的参数得到目标说话人的模型,可以有效减少训练工作量;并且由于背景模型可以说反映了目标范围内说话人语音特征的方方面面,这样利用背景模型来调整得到目标说话人模型时,他/她的训练数据没有的特征也会在模型中反映出来;此外,有利于快速得分计算。
本发明的其他优点和效果将在下面继续描述。
【附图说明】
图1——背景和说话人训练模型。
图2——五层自联想神经网络模型。
图3——两种方法的系统EER对比。
【具体实施方式】
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
图1是嵌入AANN网络的说话人确认的训练模型。在训练时,AANN对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量(即输入向量与AANN网络的输出之差)的形式提供给GMM,进行GMM模型训练。由于AANN网络学习的准则是极大似然概率,这样通过学习,残差分布就会朝着增强似然概率的方向进行。
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模型的过程交替进行。训练通用背景模型的GMM时采用EM方法,训练目标说话人模型的GMM时用MAP方法,训练AANN时我们利用带惯性的BP向后反演法。
1.基于EM方法的通用背景模型训练过程:
(1)确定GMM模型和AANN网络结构;
(2)设定收敛条件和最大迭代次数;
(3)随机确定AANN网络和GMM模型参数;
(4)把背景特征向量输入AANN网络,得到所有的残差向量;
(5)固定AANN网络参数,利用式(式1),(式2),(式3)和(式4)修正GMM模型各个高斯分布的权系数,均值和方差(可由均方值和均值得到),具体修正公式如下:
类别后验概率:
![]()
(式1)
权系数:
![]()
(式2)
均值:
![]()
(式3)
均方值:
![]()
(式4)
这里x是一个N维的随机向量;b
i(x),i=1,2,...,M是成员密度;P
i,i=1,2,...,M是混合权值,满足
![]()
P
i>0。每个成员密度是一个均值矢量为U
i、协方差矩阵为∑
i的高斯函数,形式如(式5):
![]()
(式5)
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λ
i的集合。
λ
i={p
i,u
i,∑
i},i=1,2,...,M (式6)
(6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(7)判断是否满足训练停止条件,是,停止训练,否,转(4)。
2.基于MAP方法的目标说话人模型训练过程
(1)给定收敛条件和最大迭代次数;
(2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数;
(3)把目标说话人特征向量输入AANN网络,得到所有的残差向量;
(4)固定AANN网络参数,利用(式2),(式3),(式4)修正GMM模型各个高斯分布的权系数,均值向量和方差(可由均方值和均值得到);此外要注意的是,不是直接用这些统计量代替相应旧的统计量,而是用(式7),(式8)和(式9)代替(
![]()
和
![]()
分别表示更新后的权系数,均值和方差)。
![]()
(式7)
![]()
(式8)
![]()
(式9)
通常,
![]()
取值相同,有
![]()
其中,r=16。
(5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数,AANN网络参数修正的计算过程见下一部分;
(6)判断是否满足训练停止条件,是,停止训练,否,转(3)。
3.修正AANN神经网络参数的计算过程
图2为五层AANN网络模型(包括输入层)。它是一种多层感知器网络,它的神经元组成是2L:4N:L:4N:2L,其中L表示线性,N表示非线性。其中,第三层是压缩层,以便消除数据的冗余。该模型可以用来克服GMM的弱点。
由于本发明采用两步迭代的方法求模型的参数,因此在迭代神经网络参数时固定GMM的权系数,均值向量和方差阵。我们要求极大化如下函数的神经网络参数:
![]()
(式10)
p(x|λ)见(式1)(为了表示方便,以下的x
t中省去了下标t),o
t为神经网络输出。
由于神经网络迭代时一般求极小值,而且和式比乘积更方便,所以我们对上式取对数后再取负,得到:
![]()
(式11)
带惯性的BP方法能够加速迭收敛过程,并能更好的处理局部极小值问题,带惯性的BP方法的公式如下:
![]()
(式12)
这里α为迭代步长,F(x)=‑ln p((x‑o)|λ),γ为惯性系数,m为迭代次数,该值可根据实际情况选取,k为神经网络的层序号。令:
![]()
(式13)
![]()
(式14)
o
ik为k层i个神经元输入样本x时的输出,y
ik为k层i个神经元输入样本x时的输入,f(y
ik)为激活函数。
![]()
的计算公式如下:
![]()
(式15)
由(式13)知,
![]()
(式16)
求输出层
![]()
(式17)
其中:
![]()
(式18)
![]()
(式19)
求隐含层
![]()
(式20)
由于向后反演,所以在计算
![]()
时
![]()
已知,代入(式20)即可求出
![]()
为了验证本发明提出的说话人确认的优势,将本发明提出的方法和普通的基于GMM‑UBM的确认方法进行比较。
实施例:
本实施例采用N1ST 2006年的测试的1conv4w‑1conv4w作为实验,在其中选取80个目标说话人,每个人选取大约5分钟语音作为训练语音,其余语音作为测试语音。去除无效的测试外,总计有22000次测试。选择NIST2004年中的400个人的语音来训练GMM‑UBM,其中男性210人,女性190人,每人大约8分钟。
本实施例中采用38维的MFCC作为识别参数,对于MFCC参数提取,我们使用了基于能量和过零率的方法进行静音检测,去噪过程中我们用了谱减法,再通过f(Z)=1‑0.97Z
‑1的滤波器进行预加重,进行长度20ms,窗移10ms的分帧后,进行汉明加窗。先抽取0‑18维MFCCs,总计为19维,特征参数通过CMS和RASTA进行倒谱域滤波去除信道卷积噪声,再通过一阶差分总计构成38维,最后特征通过短时高斯化以提高识别率。
我们在GMM‑UBM中嵌入2L:4N:L:4N:2L的AANN,非线性激活函数采用S函数,训练时神经网络的惯性系数γ=0.8。采用等错误率(EER)参数来衡量说话人确认的效果,对两种方法进行评价,其结果如图3所示。
从EER对比结果可以看出,基于AANN和GMM‑UBM结合的说话人确认效果比普通的GMM‑UBM方法有了较大程度地提高。