一种语音识别方法.pdf

上传人:1520****312 文档编号:6100010 上传时间:2019-04-11 格式:PDF 页数:10 大小:656.02KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510235887.7

申请日:

2015.05.11

公开号:

CN106297768A

公开日:

2017.01.04

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G10L 15/02申请日:20150511|||公开

IPC分类号:

G10L15/02

主分类号:

G10L15/02

申请人:

苏州大学

发明人:

常静雅; 陶智; 张晓俊; 赵鹤鸣; 顾济华; 吴迪

地址:

215000 江苏省苏州市工业园区仁爱路199号

优先权:

专利代理机构:

南京经纬专利商标代理有限公司 32200

代理人:

曹毅

PDF下载: PDF下载
内容摘要

本发明提供一种语音识别方法,该方法包括特征提取、特征优化和利用分类器进行识别三个步骤,所述特征提取是通过采用多尺度连续小波变换对语音进行时频分析,同时对沿尺度轴方向的小波系数进行高斯混合建模得到特征参数GCWT,然后对嗓音进行识别;所述特征优化是采用动态加权局部线性嵌入方法DWLLE对特征参数GCWT进行降维处理。本发明提出的特征参数GCWT优于传统的特征参数MFCC,动态加权局部线性嵌入方法DWLLE降维效果优于LLE。

权利要求书

1.一种语音识别方法,该方法包括特征提取、特征优化和利用分类器进行识别三个步
骤,其特征在于:所述特征提取是通过采用多尺度连续小波变换对语音进行时频分
析,同时对沿尺度轴方向的小波系数进行高斯混合建模得到特征参数GCWT,然后
对嗓音进行识别;所述特征优化是采用动态加权局部线性嵌入方法DWLLE对特征
参数GCWT进行降维处理。
2.根据权利要求1所述的一种语音识别方法,其特征在于:所述特征参数
GCWT=(π1,u1,Σ1,…,πM,uM,ΣM);
其中,π1,u1,Σ1,…,πM,uM,ΣM分别为M个高斯混合模型的权重、期望、方差。
3.根据权利要求1所述的一种语音识别方法,其特征在于:所述动态加权局部线性嵌
入方法DWLLE的具体步骤为:
(1)利用欧氏距离寻找每个样本点的k(k<n,n为样本点数)个近邻点;
(2)计算样本点和近邻点之间的径向基核函数:
<mrow> <msub> <mi>u</mi> <mi>ij</mi> </msub> <mo>=</mo> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <msup> <mrow> <mo>|</mo> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
其中,uij是近邻点xi、xj的核函数k(xi,xj)的函数值,Φ(xi)、Φ(xj)分别是样本点
xi、xj的高维空间映射值,||xi-xj||2是样本点xi、xj的欧氏距离,σ为函数的宽度参数;
令θ为加权阈值,当uij≥θ时,不对近邻点xj做任何处理,当uij<θ时,对样本点
与近邻点重构之间的误差以uij做加权处理;
(3)由样本点的近邻点计算出该样本点的局部重建权值矩阵:
<mfenced open='' close=''> <mtable> <mtr> <mtd> <mi>min</mi> <mi>&epsiv;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>u</mi> <mi>ij</mi> </msub> <msup> <mrow> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>w</mi> <mi>ij</mi> </msub> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mtd> </mtr> <mtr> <mtd> <mi>x</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>ij</mi> </msub> <mo>=</mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced>
其中,W是局部重构权值wij矩阵,uij是动态加权权值,wij是样本点xi、xj之间的
权值,代表局部信息。
(4)根据局部重建权值矩阵和其近邻点计算出样本集的低维嵌入。
4.根据权利要求1所述的一种语音识别方法,其特征在于:所述特征参数GCWT基
于小波变换。
5.根据权利要求1所述的一种语音识别方法,其特征在于:所述特征参数GCWT是
针对小波系数呈现稀疏分布进行改进的特征提取。

说明书

一种语音识别方法

技术领域

本发明属于语音识别技术领域,尤其涉及一种语音识别方法。

背景技术

语音的识别过程主要包括特征提取、特征优化和利用分类器进行识别。在特征提取
方面,语音识别系统的性能与识别器所用的特征参数密切相关,常用的特征参数主要有
线谱对LSP、相对谱(RASTA)、线性预测倒谱系数LPCC、Mel倒谱MFCC、能量、
Fourier倒谱以及相应的动态特征参数等。

小波分析能随信号变化快慢自动调整时间分辨力和频率分辨力。小波系数中少量系
数包含信号的绝大部分能量,大部分系数在零附近,对信号能量贡献很小,具有重拖尾
现象,因此使用能量/熵特征是不科学的。对于连续小波变换来说,信号小波变换系数
模的平方反映了信号在时间-尺度(频率)平面的能量密度分布,对语音多尺度连续小
波变换系数采用高斯混合模型(Gaussian Mixture Model,GMM)建模分析,提出新的特
征参数GCWT能够有效地区分语音种类。

在特征优化方面,传统的线性降维方法(如主成分分析法(PCA))在把高维数据映射
到低维空间时,通常不能保留原高维数据的内在非线性结构和特征。基于流形学习的非
线性降维方法局部线性嵌入(Locally linear embedding,LLE)进行降维时,对稀疏采样
和噪音污染的数据比较敏感。本发明提出了动态加权局部线性嵌入DWLLE(Dynamic
weighted locally linear embedding)方法,对样本点近邻点采用核函数动态加权,弱化稀
疏采样对降维造成的影响。

发明内容

解决的技术问题:针对现有的语音识别方法中特征提取方面具有重拖尾现象以及特
征优化方面不能保留原高维数据的内在非线性结构和特征的缺点,本发明提供一种语音
识别方法,该方法提出的特征参数GCWT优于传统的特征参数MFCC,改进的动态加
权局部线性嵌入方法DWLLE的降维效果优于传统的LLE方法。

技术方案:一种语音识别方法包括特征提取、特征优化和利用分类器进行识别三个
步骤,本发明主要针对特征提取和特征优化进行研究。在特征提取方面,通过采用多尺
度连续小波变换对语音进行时频分析,同时对沿尺度轴方向的小波系数进行高斯混合建
模得到统计学参数GCWT,对嗓音进行识别。在特征优化方面,为了降低特征参数的
冗余,对特征参数进行降维处理,针对局部线性嵌入降维算法LLE对稀疏数据的敏感
性,提出了改进的动态加权局部线性嵌入降维算法DWLLE。

本发明中的语音识别系统具体设计主要包括:

(1)特征提取阶段,通过采用多尺度连续小波变换对语音进行时频分析,对沿尺
度轴方向的小波系数进行高斯混合建模得到特征参数:GCWT=(π1,u1,Σ1,…,πM,uM,ΣM)

其中,π1,u1,Σ1,…,πM,uM,ΣM分别为M个高斯混合模型的权重、期望、方差。

(2)特征优化阶段,采用动态加权局部线性嵌入方法(DWLLE,Dynamic weighted
locally linear embedding)对特征参数GCWT进行降维;

(3)将语音分为训练集与测试集,利用训练集语音的特征参数训练识别模型;

(4)利用训练好的模型对测试集的特征参数进行预测分类。

上述所述的动态加权局部线性嵌入方法DWLLE是对样本点近邻点采用核函数动
态加权,弱化稀疏采样对降维造成的影响,主要过程包括:

(1)利用欧氏距离寻找每个样本点的k(k<n,n为样本点数)个近邻点;

(2)计算样本点和近邻点之间的径向基核函数:

<mrow> <msub> <mi>u</mi> <mi>ij</mi> </msub> <mo>=</mo> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> <mn>2</mn> </msup> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中,uij是近邻点xi、xj的核函数k(xi,xj)的函数值,Φ(xi)、Φ(xj)分别是样本点
xi、xj的高维空间映射值,||xi-xj||2是样本点xi、xj的欧氏距离,σ为函数的宽度参数,
控制了函数的径向作用范围。

令θ为加权阈值,当uij≥θ时,不对近邻点xj做任何处理,当uij<θ时,对样本点
与近邻点重构之间的误差以uij做加权处理,弱化稀疏采样对降维造成的影响;

(3)由样本点的近邻点计算出该样本点的局部重建权值矩阵,使样本点与近邻点
以核函数相似度加权的重构误差最小:

<mrow> <mi>min</mi> <mi>&epsiv;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>|</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>u</mi> <mi>ij</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>w</mi> <mi>ij</mi> </msub> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> <mo>;</mo> </mrow>

<mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>ij</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow>

其中,W是局部重构权值wij矩阵,uij是动态加权权值,wij是样本点xi、xj之间的
权值,代表着局部信息。

(4)根据局部重建权值矩阵和其近邻点计算出样本集的低维嵌入。

上述所述的特征参数GCWT基于小波变换,充分体现了时域和频域良好的局部化
特性。

上述所述的特征参数GCWT是针对小波系数呈现稀疏分布进行改进的特征提取。

有益效果:本发明提供的一种语音识别方法,具有以下优点:

(1)针对小波能量/熵的局限性,通过多尺度连续小波变换对语音进行时频分析,
对沿尺度轴方向的小波系数进行高斯混合建模得到统计学参数GCWT,对语音进行识
别,提出的特征参数GCWT优于传统的特征参数MFCC。

(2)针对局部线性嵌入降维算法LLE对稀疏数据的敏感性,提出了改进的动态加
权局部线性嵌入方法DWLLE,降维效果优于LLE。

附图说明

图1为语音识别系统的主要过程图。

图2为本发明的语音识别系统的设计图。

图3为本发明的实施例1的语音识别系统的设计图。

图4为本发明的实施例1的MFCC特征参数提取流程图。

图5为本发明的实施例2的语音识别系统的设计图。

图6为本发明的实施例3的语音识别系统的设计图。

具体实施方式

实施例1

在不进行特征优化的情况下,语音识别包括特征提取和利用分类器进行识别两个步
骤。

一、特征提取:

分别对语音提取现有的特征参数MFCC和本发明的特征参数GCWT。

1.特征参数MFCC提取步骤:

(1)将信号S(n)预加重后采用汉明窗进行加窗分帧,得到每帧信号xn(m),然后
通过短时傅里叶变换得到其频谱Xn(k),随后求取频谱的平方,即能量谱Pn(k)。

Pn(k)=|Xn(k)|2

(2)用M个Mel带通滤波器对Pn(k)进行滤波,由于每一个频带中分量的作用在人耳
中是叠加的,因此将每个滤波器频带内的能量进行叠加。

<mrow> <msub> <mi>S</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>P</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msub> <mi>H</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>m</mi> <mo>&le;</mo> <mi>M</mi> </mrow>

其中,Hm(k)为Mel滤波器频域形式,Sn(m)是每个滤波器频带输出。

(3)将每个滤波器输出取对数功率谱并进行反离散余弦变换,得到L个MFCC系数。

<mrow> <msubsup> <mi>C</mi> <mi>i</mi> <mi>n</mi> </msubsup> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>log</mi> <mn>10</mn> </msub> <msub> <mi>S</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>cos</mi> <mo>[</mo> <mi>&pi;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>0.5</mn> <mo>)</mo> </mrow> <mi>i</mi> <mo>/</mo> <mi>M</mi> <mo>]</mo> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>L</mi> </mrow>

(4)将得到的MFCC系数作为第n帧的特征参数,反映了语音信号的静态特征,如果
加上人耳更为敏感的一阶差分系数,将得到更好的效果。一阶差分的计算公式如下:

<mrow> <msubsup> <mi>d</mi> <mi>i</mi> <mi>n</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mo>-</mo> <mi>L</mi> </mrow> <mi>L</mi> </munderover> <msubsup> <mi>c</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mi>j</mi> <mo>)</mo> </mrow> <mi>n</mi> </msubsup> <mo>&times;</mo> <mi>i</mi> </mrow> <msqrt> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mo>-</mo> <mi>L</mi> </mrow> <mi>L</mi> </munderover> <msup> <mi>j</mi> <mn>2</mn> </msup> </msqrt> </mfrac> </mrow>

L一般取2,表示当前帧前后各2帧的线性组合,反映了语音的动态特征。

2.特征参数GCWT提取步骤:

(1)语音时频分析

使用db4小波作为母小波,db4小波的中心频率是0.7143Hz,在16个不同尺度下
对语音进行连续小波变换,得到时频域语音的能量谱密度。

(2)高斯混合建模

采用k-menns算法确定中心点进行初始化,并采用EM(Expectation Maximum)算
法求解,选取高斯混合模型(M=4),对16个小波尺度下的能量谱密度沿尺度方向进行
多维建模,并且将建模所得的统计学参数作为特征参数GCWT,
GCWT=(π1,u1,Σ1,…,πM,uM,ΣM)。

二、识别:

使用训练集语音的特征参数训练不同的分类器模型,进而使用训练好模型测试集语
音特征参数进行识别。

实施例2

一种语音识别方法包括特征提取、特征优化和利用分类器进行识别三个步骤。

一、特征提取与实施例1中特征参数GCWT提取步骤相同。

二、特征优化:

使用非线性降维方法LLE进行降维处理,包含以下三个步骤:

(1)对于给定的源数据集X={x1,x2,…,xn},xi∈RD,利用欧氏距离寻找每个样本
点的

k(k<n)个近邻点,其中k=7;

(2)由样本点的近邻点计算出该样本点的局部重建权值矩阵,使重建误差最小;

(3)根据局部重建权值矩阵和其近邻点计算出样本集的低维嵌入。

LLE在样本均匀采样下使用欧氏距离求取邻域,这对稀疏和噪音污染的数据容易产
生扭曲的邻域结构,从而导致短路现象。

三、利用分类器进行识别:

使用经过LLE降维的训练集语音的特征参数训练SVM模型,进而使用训练好模型
对经过LLE降维的测试集语音特征参数进行识别。

实施例3

一种语音识别方法包括特征提取、特征优化和利用分类器进行识别三个步骤。

一、特征提取与实施例1特征参数GCWT提取步骤相同。

二、特征优化:

使用非线性降维方法DWLLE对GCWT进行降维处理。降维时,参数设置如下:
<mrow> <mi>k</mi> <mo>=</mo> <mn>7</mn> <mo>,</mo> <mi>&sigma;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>7</mn> </mfrac> <mo>,</mo> <mi>&theta;</mi> <mo>=</mo> <mn>0.8</mn> <mo>.</mo> </mrow>主要过程包括:

(1)利用欧氏距离寻找每个样本点的k(k<n)个近邻点;

(2)计算样本点和近邻点之间的径向基核函数:

<mrow> <msub> <mi>u</mi> <mi>ij</mi> </msub> <mo>=</mo> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> <mn>2</mn> </msup> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,uij是近邻点xi、xj的核函数k(xi,xj)的函数值,Φ(xi)、Φ(xj)分别是样本点
xi、xj的高维空间映射值,||xi-xj||2是样本点xi、xj的欧氏距离,σ为函数的宽度参数,
控制了函数的径向作用范围。

令θ为加权阈值,当uij≥θ时,不对近邻点xj做任何处理,当uij<θ时,对样本点
与近邻点重构之间的误差以uij做加权处理,弱化稀疏采样对降维造成的影响;

(3)由样本点的近邻点计算出该样本点的局部重建权值矩阵,使样本点与近邻点
以核函数相似度加权的重构误差最小:

<mrow> <mi>min</mi> <mi>&epsiv;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>|</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>u</mi> <mi>ij</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>w</mi> <mi>ij</mi> </msub> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> <mo>;</mo> </mrow>

<mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>ij</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow>

其中,W是局部重构权值wij矩阵,uij是动态加权权值,wij是样本点xi、xj之间的
权值,代表着局部信息。

(4)根据局部重建权值矩阵和其近邻点计算出样本集的低维嵌入。

三、利用分类器进行识别:

使用经过DWLLE降维的训练集语音的特征参数训练SVM模型,进而使用训练好
的模型对经过DWLLE降维的测试集语音特征参数进行识别。

对实施例1中的特征参数MFCC和特征参数GCWT采用十交叉验证方式,实验结
果见下表:


从上表可以看出,特征参数GCWT优于传统的特征参数MFCC。

通过实施例2的降维方法LLE对特征参数GCWT降维后识别率分别可以达到
95.54%,比实施例1中未经过降维优化的GCWT平均识别率提高了2.7%;实施例3的
降维方法DWLLE对特征参数GCWT降维后识别率分别可以达到97.45%,比实施例1
中未经过降维优化的GCWT平均识别率提高了4.8%。由此可知,经过降维处理的特征
参数比未处理的特征参数提高了系统的识别率和可靠性,并且降维方法DWLLE的降维
效果优于降维方法LLE。

一种语音识别方法.pdf_第1页
第1页 / 共10页
一种语音识别方法.pdf_第2页
第2页 / 共10页
一种语音识别方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《一种语音识别方法.pdf》由会员分享,可在线阅读,更多相关《一种语音识别方法.pdf(10页珍藏版)》请在专利查询网上搜索。

本发明提供一种语音识别方法,该方法包括特征提取、特征优化和利用分类器进行识别三个步骤,所述特征提取是通过采用多尺度连续小波变换对语音进行时频分析,同时对沿尺度轴方向的小波系数进行高斯混合建模得到特征参数GCWT,然后对嗓音进行识别;所述特征优化是采用动态加权局部线性嵌入方法DWLLE对特征参数GCWT进行降维处理。本发明提出的特征参数GCWT优于传统的特征参数MFCC,动态加权局部线性嵌入方法DW。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 乐器;声学


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1