一种应用于语种识别的鉴别性特征提取方法.pdf

摘要
申请专利号：	CN201510280471.7	申请日：	2015.05.27
公开号：	CN106297769A	公开日：	2017.01.04
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G10L 15/02申请日:20150527\|\|\|公开
IPC分类号：	G10L15/02	主分类号：	G10L15/02
申请人：	国家计算机网络与信息安全管理中心; 中国科学院声学研究所
发明人：	袁庆升; 周若华; 云晓春; 张健; 陈训逊; 颜永红; 徐杰; 李锐光
地址：	100029 北京市朝阳区裕民路甲3号
优先权：
专利代理机构：	北京方安思达知识产权代理有限公司 11472	代理人：	王宇杨;杨青
PDF下载：	PDF下载

内容摘要

本发明涉及一种应用于语种识别的鉴别性特征提取方法，包括：在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标，所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小；在测试阶段为待测试的语音提取音素后验概率特征向量，并为所提取的音素后验概率特征向量根据F比指标做特征加权。

权利要求书

1.一种应用于语种识别的鉴别性特征提取方法，包括：
在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指
标，所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小；
在测试阶段为待测试的语音提取音素后验概率特征向量，并为所提取的音素后验概
率特征向量根据F比指标做特征加权。
2.根据权利要求1所述的应用于语种识别的鉴别性特征提取方法，其特征在于，
该方法包括：
训练阶段：
步骤101)、去除训练集中各段语音数据的非语音部分；其中，所述非语音部分
包括静音段、噪声段；
步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别，得到
各段语音数据的帧级的音素后验概率特征向量；
步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向
量分别进行规整；
步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献
大小，得到F比指标的值；
步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F
比指标值的基础上，设定用于描述规整后音素后验概率特征向量每一维对语种鉴别
性的贡献大小的权重；
所述权重的计算表达式如下：
w(k)＝x×F-Ratio(k)
其中，w(k)为规整后音素后验概率特征向量第k维对语种鉴别性的贡献大小的
权重，F-Ratio(k)为规整后的音素后验概率特征向量第k维的F-Ratio值，参数x为
经过实验得到的经验值；
测试阶段：
步骤201)、去除待测试语音数据中的非语音部分；
步骤202)、对经过步骤201)处理的待测试语音数据做音素识别，得到该待测
试语音数据的帧级的音素后验概率特征向量；
步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整；
步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重，
为步骤203)所得到的规整后音素后验概率特征向量做加权。
3.根据权利要求2所述的应用于语种识别的鉴别性特征提取方法，其特征在于，
该方法在训练阶段还包括：
步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概
率特征向量做加权，利用加权后的特征数据训练主成分分析矩阵；
该方法在测试阶段还包括：
步骤205)、应用步骤106)所得到的主成分分析矩阵对待测试语音的经过规整、
加权后的音素后验概率特征向量进行降维处理，得到维数较低的音素后验概率特征
向量。
4.根据权利要求2或3所述的应用于语种识别的鉴别性特征提取方法，其特征
在于，所述规整操作采用下列两种方式之一实现：
规整方式1
lt(k)＝log(pt(k))；
规整方式2
$<mrow> <msub> <mi>l</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$
其中，pt(k)表示第t帧的第k维的音素后验概率特征向量，lt(k)表示规整后的
第t帧的第k维的音素后验概率特征向量。
5.根据权利要求2或3所述的应用于语种识别的鉴别性特征提取方法，其特征
在于，所述步骤104)进一步包括：
设为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个
值的和，其表达式如下：
$<mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>l</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$
其中，T为语种i语句j中帧的总数；
设si(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验
概率特征向量的和，其表达式如下：
$<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$
其中，N为语种i中语音数据的条数；
设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征
向量的总和，其表达式如下：
$<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$
其中M为训练集中的语种总数；
设mi(k)和m(k)分别为si(k)和s(k)的归一化值，它们的表达式
分别如下：
$<mrow> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$
$<mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$
$<mrow> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$
则规整后的音素后验概率特征向量第k维的F比指标的值为：
$<mrow> <mi>F</mi> <mo>_</mo> <mi>Ratio</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>$

说明书

一种应用于语种识别的鉴别性特征提取方法

技术领域

本发明涉及计算机语种识别领域，特别涉及一种应用于语种识别的鉴别性特征
提取方法。

背景技术

语种识别是指计算机自动判定或确认一段语音所属的语言种类的技术。这是个
可使大规模跨语言语音识别应用成为可能的技术，可用于口语语言翻译、口语文件
检索等。同时也是智能与安全领域信息提取的研究热点。语种识别技术的关键在于
用科学的方法来度量不同语言的个性。认知学的实验表明，语言之间的差异可以由
不同层次的特征反映出来，包括声学层特征、音素层特征、韵律特征、词法特征和
句法特征。

声学层特征通常从原始语音直接提取，常用的有美尔倒谱系数(MFCC)、线性
预测倒谱系数(LPCC)和感知器线性预测(PLP)等。考虑语音帧前后间的相互关
系，通常要对特征进行差分变换，例如一阶差分，二阶差分等。音素层特征主要考
虑了各语言间的音节和音素不完全相同、音节和音素出现频率的差异，以及音节和
音素出现前后关系的不同作为识别依据。目前的语种识别系统大部分都基于声学层
特征和音素层特征。

近年来，受益于信号处理、模式识别与机器学习等相关领域的科技突破，语种
识别特征研究已取得了长足的进步，但仍有很多地方需要改进与进一步研究。参考
文献[1](H.Wang,C.Leung,T.Lee,B.Ma and H.Li,“Shifted-Delta MLP Features for
Spoken Language Recognition”,IEEE Signal Processing Letters,vol.20,issue 1,pp.
15-18,2013.)中研究表明，音素的后验概率可直接作为特征：语音信号经音素识别
器识别为帧级的音素后验概率向量后，用log运算规整，再利用PCA进行降维，代
替传统的MFCC特征训练模型，在语种识别任务中取得优秀的性能。该特征由于不
需要解码为音素序列或者音素网格，因此对音素识别器的依赖较小。实验结果显示，
该特征性能明显优于提取音素串或者音素网格的传统特征。

参考文献[2](M.Diez,A.Varona,M.Penagarikano,L.J.Rodriguez-Fuentes and G.
Bordel,“On the Use of Phone Log-likelihood Ratios as Features in Spoken Language
Recognition”,Spoken Language Technology Workshop(SLT),2012 IEEE,pp.274-279)
使用了不同的规整技术，对概率比进行Log规整而不是直接对概率进行规整，从而
定义了新的特征PLLR(Phone Log-Likelihood Ratio)，同样取得了很好的性能。

参考文献[1]和参考文献[2]为提取音素层特征开辟了新的思路，但这两种方法中
都没有考虑不同音素对语种识别的贡献是有差别的。具体来讲，不同音素在不同语
种中的分布不同，有些音素集中出现在某个语种，而有些音素则很少出现于某个语
种，那么这些音素对语种识别将比那些在所有语种中出现频率差不多的音素具有更
高的语种鉴别性，在特征中应当给予高的权重。

发明内容

本发明的目的在于解决现有基于音素后验概率特征中未考虑不同音素具有不同
语种鉴别性的不足，从而提供

为了实现上述目的，本发明提供了一种应用于语种识别的鉴别性特征提取方法，
包括：

在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指
标，所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小；
在测试阶段为待测试的语音提取音素后验概率特征向量，并为所提取的音素后验概
率特征向量根据F比指标做特征加权。

上述技术方案中，该方法包括：

训练阶段：

步骤101)、去除训练集中各段语音数据的非语音部分；其中，所述非语音部分
包括静音段、噪声段；

步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别，得到
各段语音数据的帧级的音素后验概率特征向量；

步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向
量分别进行规整；

步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献
大小，得到F比指标的值；

步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F
比指标值的基础上，设定用于描述规整后音素后验概率特征向量每一维对语种鉴别
性的贡献大小的权重；

所述权重的计算表达式如下：

w(k)＝x×F-Ratio(k)

其中，w(k)为规整后音素后验概率特征向量第k维对语种鉴别性的贡献大小的
权重，F-Ratio(k)为规整后的音素后验概率特征向量第k维的F-Ratio值，参数x为
经过实验得到的经验值；

测试阶段：

步骤201)、去除待测试语音数据中的非语音部分；

步骤202)、对经过步骤201)处理的待测试语音数据做音素识别，得到该待测
试语音数据的帧级的音素后验概率特征向量；

步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整；

步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重，
为步骤203)所得到的规整后音素后验概率特征向量做加权。

上述技术方案中，该方法在训练阶段还包括：

步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概
率特征向量做加权，利用加权后的特征数据训练主成分分析矩阵；

该方法在测试阶段还包括：

步骤205)、应用步骤106)所得到的主成分分析矩阵对待测试语音的经过规整、
加权后的音素后验概率特征向量进行降维处理，得到维数较低的音素后验概率特征
向量。

上述技术方案中，所述规整操作采用下列两种方式之一实现：

规整方式1

lt(k)＝log(pt(k))；

规整方式2

$<mrow> <msub> <mi>l</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中，pt(k)表示第t帧的第k维的音素后验概率特征向量，lt(k)表示规整后的
第t帧的第k维的音素后验概率特征向量。

上述技术方案中，所述步骤104)进一步包括：

设为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个
值的和，其表达式如下：

$<mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>l</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中，T为语种i语句j中帧的总数；

设si(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验
概率特征向量的和，其表达式如下：

$<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中，N为语种i中语音数据的条数；

设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征
向量的总和，其表达式如下：

$<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中M为训练集中的语种总数；

设mi(k)和m(k)分别为si(k)和s(k)的归一化值，它们的表达式
分别如下：

$<mrow> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$

$<mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$

$<mrow> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$

则规整后的音素后验概率特征向量第k维的F比指标的值为：

$<mrow> <mi>F</mi> <mo>_</mo> <mi>Ratio</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>$

本发明的优点在于

本发明的特点：(1)量化定义了音素后验概率特征向量各维对语种鉴别性的贡
献；(2)根据音素后验概率特征向量各维对语种鉴别性的贡献，赋予其相应权重。
具体的讲，鉴别性高的赋予其高权重，而鉴别性低的赋予其低权重。应用本发明所
提特征大大提高了特征的语种鉴别性，应用该特征的语种识别系统取得了更优秀的
识别性能，同时也没有降低系统的实时性。

附图说明

图1是本发明的方法在训练阶段计算F比指标以及权重的流程图；

图2是本发明的方法在训练阶段计算PCA矩阵的流程图；

图3是本发明的方法在测试阶段提取特征的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

本发明的鉴别性特征提取方法包括两个阶段，一为训练阶段，二为测试阶段。
在训练阶段所要完成的工作是利用训练集中的语音数据计算F比指标(F-Ratio)以
及利用训练集中的语音数据训练PCA(主成分分析，Principal Component Analysis)
矩阵。在测试阶段所要完成的工作是：利用训练阶段所得到的F-Ratio指标以及PCA
矩阵对所要测试的语音实现特征提取，所提取的特征具有语种鉴别性。

下面分别对训练阶段与测试阶段所要完成的工作分别予以说明。

一、训练阶段

假设一训练集中有M个语种的数据，每个语种有N条语句(每个语种语句条数
不必相同)，在计算F-Ratio指标时需要计算音素后验概率特征向量中每一维的
F-Ratio指标。

参考图1，在训练阶段需要完成以下操作：

步骤101)、通过语音端点检测(Voice Activity Detection,VAD)技术，去除训练
集中各段语音数据的非语音部分；其中，所述非语音部分包括静音段、噪声段等。

步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别，得到
各段语音数据的帧级的音素后验概率特征向量；

以某一段语音数据为例，本步骤所得到的该段语音数据的每帧音素后验概率特
征向量可表示为Pt＝[pt(1)，pt(2)，…，pt(K)]，其中K为音素个数，t表示帧号；

所述音素识别操作可采用音素识别器实现；

步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向
量分别进行规整；

以某一段语音数据为例，若将规整后的该段语音数据的每帧音素后验概率特征
向量表示为Lt＝[lt(1)，lt(2)，…，lt(K)]，其中K为音素个数，t表示帧号，则所述规
整操作可采用下列两种方式之一实现：

规整方式1

lt(k)＝log(pt(k)) (1)；

规整方式2

$<mrow> <msub> <mi>l</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>$

步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献
大小，即F-Ratio的值。

设为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个
值的和，其表达式如下：

$<mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>l</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

其中，T为语种i语句j中帧的总数。

设si(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验
概率特征向量的和，其表达式如下：

$<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

其中，N为语种i中语音数据的条数。

设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征
向量的总和，其表达式如下：

$<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

其中M为训练集中的语种总数。

设mi(k)和m(k)分别为si(k)和s(k)的归一化值，它们的表达式
分别如下：

$<mrow> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

则规整后的音素后验概率特征向量第k维的F-Ratio值为:

$<mrow> <mi>F</mi> <mo>_</mo> <mi>Ratio</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>$

步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的
F-Ratio值的基础上，设定用于描述规整后音素后验概率特征向量每一维对语种鉴别
性的贡献大小的权重。

所述权重的计算表达式如下：

w(k)＝x×F-Ratio(k) (10)

参数x为经验值，可通过大量实验得到。计算得到的权重可应用于测试阶段，
其数值大小在测试阶段不会改变。

上述步骤中，F-Ratio值与权重的计算都在训练阶段执行，在测试阶段不再重新
计算，因此不会增加额外的运行时间。

在得到用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小
的权重后，根据这一权重值可进一步计算PCA矩阵。如图2所示，训练阶段可进一
步包括：

步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概
率特征向量做加权，利用加权后的特征数据训练PCA矩阵。

如何训练PCA矩阵为本领域技术人员所公知，此处不再重复。所得到的PCA
矩阵对所有语种都是通用的。

二、测试阶段

经过训练阶段后，利用训练阶段所得到的F-Ratio指标与PCA矩阵为待测试的
语音数据提取特征，包括以下步骤：

步骤201)、通过VAD技术去除待测试语音数据中的非语音部分；

步骤202)、对经过步骤201)处理的待测试语音数据做音素识别，得到该待测
试语音数据的帧级的音素后验概率特征向量；

步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整；
所述规整可采用公式(1)或公式(2)之一实现；

步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重，
为步骤203)所得到的规整后音素后验概率特征向量做加权；

加权之后的音素后验概率特征向量表示为Rt＝[rt(1)，rt(2)，…，rt(K)]，其中的每
一维的表达式为：

rt(k)＝w(k)×lt(k) (11)

其中w(k)为根据第k维特征的鉴别性得到的权重。

经加权处理后的音素后验概率特征向量已经具备了语种鉴别性。

步骤205)、应用PCA矩阵对经过规整、加权后的特征向量进行降维处理，得到
维数较低的特征向量。

设PCA矩阵为Y，降维后的最终特征表示为Ot＝[ot(1)，ot(2)，…，ot(F)]，其中
F为特征经过降维后的维数，则

Ot＝YRt (12)

步骤205)所实现的降维操作既可以优化特征，使其拥有更好的性能，同时还可
以降低系统的消耗；且经过降维的特征向量依然具有语种鉴别性。

以上是对本发明方法的一种较佳实现方式的说明，本发明方法也可以有其他的
实现方式，如省去训练PCA矩阵以及利用PCA矩阵降维的步骤，这一实现方式的
效果略低于前述的较佳实现方式。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管
参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明
的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均
应涵盖在本发明的权利要求范围当中。