一种适用于中文的自动唇语识别系统.pdf

摘要
申请专利号：	CN201010558253.2	申请日：	2010.11.22
公开号：	CN102004549A	公开日：	2011.04.06
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 3/01申请日:20101122\|\|\|公开
IPC分类号：	G06F3/01; G06K9/00; H04N7/18	主分类号：	G06F3/01
申请人：	北京理工大学
发明人：	吕坤; 贾云得; 张欣
地址：	100081 北京市海淀区中关村南大街5号
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

一种自动唇语识别系统，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。头戴式摄像头用来录制汉字发音图像序列，通过人机交互模块传输至唇部轮廓定位模块，其使用卷积虚拟静电场Snake模型从中检测及跟踪唇部轮廓；几何向量获取模块和运动向量获取模块从唇部轮廓中分别提取出几何和运动特征，并将它们联合起来作为典型相关判别分析模块的输入特征矩阵；典型相关判别分析模块计算特征矩阵间的相似度，处理后获取识别结果。本发明系统与已有唇语识别系统相比较，具有更高的识别准确率。

权利要求书

1.一种适用于中文的自动唇语识别系统，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块；其连接关系为：头戴式摄像头的输出端与人机交互模块的输入端连接；人机交互模块的输出端与唇部轮廓定位模块的输入端连接；唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接；几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接；运动向量获取模块的输出端与特征矩阵构造模块的输入端连接；特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接；变换矩阵T获取模块与存储器A连接；转换特征矩阵获取模块与存储器A和存储器B连接；存储器A和存储器B还与典型相关判别分析模块的输入端连接；典型相关判别分析模块的输出端与人机交互模块的输入端连接；各模块及设备的主要功能是：头戴式摄像头的主要功能是：获取被试者发出的汉字发音图像序列；人机交互模块的主要功能是：①提供一个闭合轮廓曲线，以供被试者调整头戴式摄像头的位置，使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中；②获取头戴式摄像头拍摄的汉字发音图像序列；③对典型相关判别分析模块的结果进行输出；唇部轮廓定位模块的主要功能是：使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块；几何向量获取模块的主要功能是：从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量；并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异，对唇部几何特征向量做归一化操作，得到归一化操作后的唇部几何特征向量，并输出至运动向量获取模块和特征矩阵构造模块；运动向量获取模块的主要功能是：以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，然后将唇部运动特征向量输出至特征矩阵构造模块；特征矩阵构造模块的主要功能是：构造汉字发音图像序列的特征矩阵，然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块；变换矩阵T获取模块的主要功能是：针对训练数据的汉字发音图像序列的特征矩阵，采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A；转换特征矩阵获取模块的主要功能是：使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换，得到转换特征矩阵，并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A；存储器A：存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵；存储器B：存储测试数据的汉字发音图像序列的转换特征矩阵；典型相关判别分析模块：从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和，然后进一步对这些典型相关系数和进行处理，获得当前测试数据的识别结果，并将该识别结果输出到人机交互模块；所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程：系统训练过程的工作流程为：步骤1.1：选取m个汉字作为训练数据，m≥5且m为正整数；步骤1.2：人机交互模块显示一个闭合轮廓曲线；步骤1.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中；步骤1.4：被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧，n≥25且n为正整数；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块；步骤1.5：人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块；步骤1.6：唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块；其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线；步骤1.7：几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量，用g_i表示，i表示一个汉字发音图像序列中各帧图像的顺序号，1≤i≤n且i为正整数；并且为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量，用g_i′表示；然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块；获取经过归一化操作后的唇部几何特征向量的具体操作步骤为：步骤1.7.1：计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标；步骤1.7.2：将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L₁～L₁₂表示这12条线段的长度，称该12条线段的长度L₁～L₁₂为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B；步骤1.7.3：从左右嘴角两点中任选一点，称该点为点Q，将点Q分别与点A和点B用直线相连；∠AQO用θ₁表示，∠BQO用θ₂表示，可根据L₁～L₁₂，得到θ₁和θ₂的角度，进而得到θ₁和θ₂的余弦值；步骤1.7.4：L₁～L₁₂以及θ₁和θ₂的余弦值就构成了一帧图像中的唇部几何特征向量；由于L₁和L₇是连接左右嘴角线段长度的一半，所以它们的值相等，因此在唇部几何特征向量中去掉L₇，即一帧图像中的唇部几何特征向量g_i＝[L₁，…，L₆，L₈，…L₁₂，cosθ₁，cosθ₂]^t；步骤1.7.5：为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量，用g_i′表示；g_i′是一个13维横向量，g_i′＝[L₁′，…，L₆′，L₈′，…L₁₂′，cosθ₁，cosθ₂]；其中，j＝1，2，…6，8，…，12，是一个汉字发音图像序列的第一帧图像中左右嘴角间距离；步骤1.8：运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，用p_i表示，p_i是一个13维横向量，p_i＝(g_i′-g_i-1′)/Δt，其中，g₀′＝g₁′，Δt是两个连续帧的时间间隔；然后将唇部运动特征向量p_i输出至特征矩阵构造模块；步骤1.9：特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵，用Z_f表示，其中f表示训练数据的汉字发音图像序列的顺序号，1≤f≤m且f为正整数；然后将训练数据的汉字发音图像序列的特征矩阵Z_f分别输出至变换矩阵T获取模块和转换特征矩阵获取模块；构造汉字发音图像序列的特征矩阵的具体操作步骤为：步骤1.9.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量，用v_i表示，v_i是一个26维列向量，步骤1.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此训练数据的汉字发音图像序列的特征矩阵Z_f＝{v₁，v₂，...，v_n}∈R^26×n；步骤1.10：变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Z_f，采用T.-K.Kim等人提出的典型相关判别分析方法进行处理，得到变换矩阵T∈R^26×r，r＜26，且r为正整数，R表示实数，并将变换矩阵T存储到存储器A；步骤1.11：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Z_f进行转换，得到转换特征矩阵Z_f′＝T^TZ_f，并训练数据的汉字发音图像序列的转换特征矩阵Z_f′存储到存储器A；经过上述步骤的操作，即可完成对所述自动唇语识别系统的训练；系统测试过程的工作流程为：步骤2.1：从m个训练数据中选取m′个汉字作为测试数据，m′≤m且m′为正整数；步骤2.2：人机交互模块显示一个闭合轮廓曲线；步骤2.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中；步骤2.4：被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块；步骤2.5：人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块；步骤2.6：与系统训练过程中的步骤1.6的操作相同；步骤2.7：与系统训练过程中的步骤1.7的操作相同；步骤2.8：与系统训练过程中的步骤1.8的操作相同；步骤2.9：特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵，用Z_e表示，其中e表示测试数据的汉字发音图像序列的顺序号，1≤e≤m′且e为正整数；然后将测试数据的汉字发音图像序列的特征矩阵Z_e输出至转换特征矩阵获取模块；构造汉字发音图像序列的特征矩阵的具体操作步骤为：步骤2.9.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量v_i，v_i是一个26维列向量，步骤2.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此测试数据的汉字发音图像序列的特征矩阵Z_e＝{v₁，v₂，...，v_n}∈R^26×n；步骤2.10：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Z_e进行转换，得到转换特征矩阵Z_e′＝T^TZ_e，并将测试数据的汉字发音图像序列的转换特征矩阵Z_e′存储到存储器B；步骤2.11：典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Z_f′，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Z_e′，然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Z_e′与每个训练数据的转换特征矩阵Z_f′的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中对应的汉字输出到人机交互模块；步骤2.12：人机交互模块显示典型相关判别分析模块传输过来的汉字；经过上述步骤，即可完成对测试数据的自动分类识别。

说明书

一种适用于中文的自动唇语识别系统

技术领域

本发明涉及一种自动唇语识别系统，特别涉及一种适用于中文的自动唇语识别系统，属于自动唇语识别技术领域。

背景技术

唇语识别或唇读是人机交互(Human-Computer Interaction，HCI)中很引人注目的领域，它在自动语言识别(Automatic Speech Recognition，ASR)系统中起着重要作用。人类语言感知是一个很自然的多模态过程。听力受损的人群会充分利用唇语的提示，即使正常人也可以利用视觉信息来增强对语言的理解，特别是在嘈杂环境中。利用视觉通道的信息会有效地提高现代自动语言识别系统的性能和鲁棒性。

唇语识别任务一般包含三个主要步骤：①在发音图像序列中检测脸部及唇部区域；②从唇部区域提取适合分类的特征；③使用唇部区域特征进行唇语识别。

针对第①步，已有方法中主要使用图像处理的算法来定位脸部及唇部区域，此类方法容易受到光照、角度、旋转、遮挡等影响，会产生一定误差。

第②步中提到的唇语特征，在已有的文献中分为三大类：(1)低层的基于纹理的特征；(2)高层的基于轮廓的特征；(3)前二者的组合。这些特征中，基于轮廓的特征中的唇部几何特征(如唇的高度、宽度、角度)以及唇部运动特征被认为是最可用的视觉信息。关于唇形轮廓线分割的大量近期工作都使用了可变形模板(deformable model)，其中一种有效方法就是使用Snake模型和改进的Snake模型，如梯度矢量流(Gradient Vector Flow，GVF)Snake模型、虚拟静电场(Virtual Electric Field，VEF)Snake模型、卷积虚拟静电场(Convolutional Virtual Electric Field，Convolutional VEF)Snake模型。相比较而言，卷积虚拟静电场Snake模型通过使用虚拟静电场(virtual electric field，VEF)作为外力(external force)，以及使用卷积(convolution)机制，该模型可以更快速准确地定位唇部轮廓。

在第③步使用唇部区域特征进行唇语识别中，广泛使用的分类方法是隐马尔科夫模型(hidden markov model(HMM))。隐马尔科夫模型在语言识别中很有用，因为它可以自然地对语言的时域特性进行建模。但是考虑到语言的本质属性，隐马尔科夫模型的分段式静态以及依赖性的假设(the piece-wise stationary and independence assumptions)是该模型的两个局限。

本发明中使用到的一项重要的已有技术是：基于卷积虚拟静电场Snake模型的唇形跟踪算法。

吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》(第六届和谐人机环境联合学术会议，2010)中公开了基于卷积虚拟静电场Snake模型的唇形跟踪算法的详细设计。

本发明使用到的另外一项重要的已有技术是：典型相关判别分析(Discriminative Analysis of Canonical Correlation，DCC)方法。

T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vol.29，No.6(2007))中公开了典型相关判别分析方法的操作步骤。该方法中通过引入一个变换矩阵T来最大化同类数据集(within-class sets)的相似度(用典型相关系数和表示)，最小化异类数据集(between-class sets)的相似度，以达到更好的识别效果。

近年来典型相关判别分析方法已被成功地应用于图像集匹配、人脸或物体识别等领域，因此将典型相关判别分析方法用于解决唇语识别问题从理论上讲是一个简单而有效的方法。但是，目前为止，还未查找到将典型相关判别分析方法用于自动唇语识别识别中的相关文献及实际应用。

发明内容

本发明的目的是为了克服已有技术存在的不足，提出了一种适用于中文的自动唇语识别系统。

本发明的目的是通过下述技术方案实现的。

一种适用于中文的自动唇语识别系统，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。

其连接关系为：头戴式摄像头的输出端与人机交互模块的输入端连接；人机交互模块的输出端与唇部轮廓定位模块的输入端连接；唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接；几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接；运动向量获取模块的输出端与特征矩阵构造模块的输入端连接；特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接；变换矩阵T获取模块与存储器A连接；转换特征矩阵获取模块与存储器A和存储器B连接；存储器A和存储器B还与典型相关判别分析模块的输入端连接；典型相关判别分析模块的输出端与人机交互模块的输入端连接。

各模块及设备的主要功能是：

头戴式摄像头的主要功能是：获取被试者发出的汉字发音图像序列。

人机交互模块的主要功能是：①提供一个闭合轮廓曲线，以供被试者调整头戴式摄像头的位置，使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。②获取头戴式摄像头拍摄的汉字发音图像序列；③对典型相关判别分析模块的结果进行输出。

唇部轮廓定位模块的主要功能是：使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。

几何向量获取模块的主要功能是：从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量；并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异，对唇部几何特征向量做归一化操作，得到归一化操作后的唇部几何特征向量，并输出至运动向量获取模块和特征矩阵构造模块。

运动向量获取模块的主要功能是：以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，然后将唇部运动特征向量输出至特征矩阵构造模块。

特征矩阵构造模块的主要功能是：构造汉字发音图像序列的特征矩阵，然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。

变换矩阵T获取模块的主要功能是：针对训练数据的汉字发音图像序列的特征矩阵，采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vo1.29，No.6(2007))中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A。

转换特征矩阵获取模块的主要功能是：使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换，得到转换特征矩阵，并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。

存储器A：存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。

存储器B：存储测试数据的汉字发音图像序列的转换特征矩阵。

典型相关判别分析模块：从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和，然后进一步对这些典型相关系数和进行处理，获得当前测试数据的识别结果，并将该识别结果输出到人机交互模块。

所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程：

系统训练过程的工作流程为：

步骤1.1：选取m个汉字作为训练数据，m≥5且m为正整数；

步骤1.2：人机交互模块显示一个闭合轮廓曲线。

步骤1.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中。

步骤1.4：被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧，n≥25且n为正整数；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。

步骤1.5：人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块。

步骤1.6：唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。

步骤1.7：几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量，用g_i表示，i表示一个汉字发音图像序列中各帧图像的顺序号，1≤i≤n且i为正整数；并且为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量，用g_i′表示；然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为：

步骤1.7.1：计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标。

步骤1.7.2：将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L₁～L₁₂表示这12条线段的长度，称该12条线段的长度L₁～L₁₂为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B。

步骤1.7.3：从左右嘴角两点中任选一点，称该点为点Q，将点Q分别与点A和点B用直线相连；∠AQO用θ₁表示，∠BQO用θ₂表示，可根据L₁～L₁₂，得到θ₁和θ₂的角度，进而得到θ₁和θ₂的余弦值；

步骤1.7.4：L₁～L₁₂以及θ₁和θ₂的余弦值就构成了一帧图像中的唇部几何特征向量；由于L₁和L₇是连接左右嘴角线段长度的一半，所以它们的值相等，因此在唇部几何特征向量中去掉L₇，即一帧图像中的唇部几何特征向量g_i＝[L₁，…，L₆，L₈，…L₁₂，cosθ₁，cosθ₂]^t；

步骤1.7.5：为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量，用g_i′表示；g_i′是一个13维横向量，g_i′＝[L₁′，…，L₆′，L₈′，…L₁₂′，cosθ₁，cosθ₂]；其中，j＝1，2，…6，8，…，12，是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。

步骤1.8：运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量(用p_i表示)，p_i是一个13维横向量，p_i＝(g_i′-g_i-1′)/Δt，其中，g₀′＝g₁′，Δt是两个连续帧的时间间隔；然后将唇部运动特征向量p_i输出至特征矩阵构造模块；

步骤1.9：特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵(用Z_f表示，其中f表示训练数据的汉字发音图像序列的顺序号，1≤f≤m且f为正整数)，然后将训练数据的汉字发音图像序列的特征矩阵Z_f分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤1.9.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量(用v_i表示)，v_i是一个26维列向量，

步骤1.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此训练数据的汉字发音图像序列的特征矩阵Z_f＝{v₁，v₂，...，v_n}∈R^26×n。

步骤1.10：变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Z_f，采用T.-K.Kim等人提出的典型相关判别分析方法进行处理，得到变换矩阵T∈R^26×r，r＜26，且r为正整数，R表示实数，并将变换矩阵T存储到存储器A。

步骤1.11：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Z_f进行转换，得到转换特征矩阵Z_f′＝T^TZ_f，并训练数据的汉字发音图像序列的转换特征矩阵Z_f′存储到存储器A。

经过上述步骤的操作，即可完成对所述自动唇语识别系统的训练。

系统测试过程的工作流程为：

步骤2.1：从m个训练数据中选取m′个汉字作为测试数据，m′≤m且m′为正整数。

步骤2.2：人机交互模块显示一个闭合轮廓曲线。

步骤2.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中。

步骤2.4：被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。

步骤2.5：人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块。

步骤2.6：与系统训练过程中的步骤1.6的操作相同。

步骤2.7：与系统训练过程中的步骤1.7的操作相同。

步骤2.8：与系统训练过程中的步骤1.8的操作相同。

步骤2.9：特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵(用Z_e表示，其中e表示测试数据的汉字发音图像序列的顺序号，1≤e≤m′且e为正整数)，然后将测试数据的汉字发音图像序列的特征矩阵Z_e输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤2.9.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量v_i，v_i是一个26维列向量，

步骤2.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此测试数据的汉字发音图像序列的特征矩阵Z_e＝{v₁，v₂，...，v_n}∈R^26×n。

步骤2.10：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Z_e进行转换，得到转换特征矩阵Z_e′＝T^TZ_e，并将测试数据的汉字发音图像序列的转换特征矩阵Z_e′存储到存储器B。

步骤2.11：典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Z_f′，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Z_e′，然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vol.29，No.6(2007))中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Z_e′与每个训练数据的转换特征矩阵Z_f′的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中对应的汉字输出到人机交互模块。

步骤2.12：人机交互模块显示典型相关判别分析模块传输过来的汉字。

经过上述步骤，即可完成对测试数据的自动识别。

有益效果

与已有中文自动唇语识别系统相比，本发明具有以下优点：

①本发明中使用头戴式摄像头来直接获取唇部图像序列，每次实验开始时被试使用人机交互的方式来调整头戴式摄像头的位置，实验过程中摄像头和人脸的相对位置是固定的，被试可以自然地进行汉字发音，不用刻意去保持头部姿势和位置。相比前人方法，本文可以非常准确地获取唇部图像序列，前期运算量大大减少，且可以减少对被试的约束，使实验过程更加自然。

②本发明使用卷积虚拟静电场Snake模型定位唇部轮廓，更快速准确。

③本发明提取的唇语特征结合了唇部几何特征和唇部运动特征，使分析更准确。

④本发明首次将典型相关判别分析方法成功的运用到唇语自动识别领域，克服了隐马尔科夫模型在语言识别中的局限性。

附图说明

图1为本发明具体实施方式中的适用于中文的自动唇语识别系统的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

一种适用于中文的自动唇语识别系统，其系统结构如图1所示，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。

各模块及设备的主要功能是：

头戴式摄像头的主要功能是：获取被试者发出的汉字发音图像序列。

唇部轮廓定位模块的主要功能是：使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。

变换矩阵T获取模块的主要功能是：针对训练数据的汉字发音图像序列的特征矩阵，采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vol.29，No.6(2007))中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A。

存储器A：存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。

存储器B：存储测试数据的汉字发音图像序列的转换特征矩阵。

使用上述系统进行实验，试验中选择10名被试者(4名男性和6名女性)，然后让他们每人对”零、一、二、三、四、五、我、爱、北、京”10个汉字发音20次，每个汉字得到200个汉字发音图像序列；然后，对于每个汉字，从其对应的200个汉字发音图像序列中随机选取80％(160个)作为训练数据，剩下的20％(40个)的汉字发音图像序列作为测试数据；因此训练数据有1600个，测试数据有400个。

2000个汉字发音图像序列获取的步骤如下：

步骤1：人机交互模块显示一个闭合轮廓曲线。

步骤2：10名被试人依次将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤1中所述的闭合轮廓曲线中。

步骤3：被试者以每秒钟1个汉字的语速对”零、一、二、三、四、五、我、爱、北、京”10个汉字进行发音，每个汉字发音20次，同时头戴式摄像头的拍摄速度为每秒30帧，因此每个汉字发音的视频流由30帧图像序列组成；将一个汉字的30帧图像序列称为一个汉字发音图像序列。

经过上述步骤的操作，即可获取10个汉字的2000个汉字发音图像序列。

然后，实验人员使用随机选取的1600个汉字发音图像序列作为训练数据对系统进行训练，过程如下：

步骤1：将人机交互模块中出现的闭合轮廓曲线和1600个汉字发音图像序列发送至唇部轮廓定位模块。

步骤2：唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。

步骤3：几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量g₁～g₃₀表示，；并且为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g₁～g₃₀做归一化操作，得到归一化操作后的唇部几何特征向量g₁′～g₃₀′；然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为：

步骤3.1：计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标。

步骤3.2：将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L₁～L₁₂表示这12条线段的长度，称该12条线段的长度L₁～L₁₂为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B。

步骤3.3：将左嘴角称为点Q，将点Q分别与点A和点B用直线相连；∠AQO用θ₁表示，∠BQO用θ₂表示，可根据L₁～L₁₂，得到θ₁和θ₂的角度，进而得到θ₁和θ₂的余弦值；

步骤3.4：L₁～L₁₂以及θ₁和θ₂的余弦值就构成了一帧图像中的唇部几何特征向量；由于L₁和L₇是连接左右嘴角线段长度的一半，所以它们的值相等，因此在唇部几何特征向量中去掉L₇，即一帧图像中的唇部几何特征向量g_i＝[L₁，…，L₆，L₈，…L₁₂，cosθ₁，cosθ₂]^t，i＝1，2，…，30；

步骤3.5：为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量g_i′；g_i′是一个13维横向量，g_i′＝[L₁′，…，L₆′，L₈′，…L₁₂′，cosθ₁，cosθ₂]；其中，j＝1，2，…6，8，…，12，是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。

步骤4：运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量p_i，p_i是一个13维横向量，p_i＝(g_i′-g_i-1′)/Δt，其中，g₀′＝g₁′，Δt是两个连续帧的时间间隔；然后将唇部运动特征向量p_i输出至特征矩阵构造模块；

步骤5：特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵Z_f，f＝1，2，…，1600，然后将训练数据的汉字发音图像序列的特征矩阵Z_f分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤5.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量v_i，v_i是一个26维列向量，

步骤5.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此训练数据的汉字发音图像序列的特征矩阵Z_f＝{v₁，v₂，...，v_n}∈R^26×30。

步骤1.6：变换矩阵T获取模块针对1600个训练数据的汉字发音图像序列的特征矩阵Z_f，采用T.-K.Kim等人提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将变换矩阵T存储到存储器A。

步骤1.7：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Z_f进行转换，得到转换特征矩阵Z_f′＝T^TZ_f，并训练数据的汉字发音图像序列的转换特征矩阵Z_f′存储到存储器A。

经过上述步骤的操作，即可完成对所述自动唇语识别系统的训练。

将自动唇语识别系统训练好以后，实验人员使用400条测试数据对该系统进行测试，过程如下：

步骤1：将人机交互模块中出现的闭合轮廓曲线和400个汉字发音图像序列发送至唇部轮廓定位模块。

步骤3.1：计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标。

步骤3.3：将左嘴角称为点Q，将点Q分别与点A和点B用直线相连；∠AQ0用θ₁表示，∠BQO用θ₂表示，可根据L₁～L₁₂，得到θ₁和θ₂的角度，进而得到θ₁和θ₂的余弦值；

步骤4：特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵Z_e，e＝1，2，…，400，然后将测试数据的汉字发音图像序列的特征矩阵Z_e输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤4.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量v_i，v_i是一个26维列向量，

步骤4.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此测试数据的汉字发音图像序列的特征矩阵Z_e＝{v₁，v₂，...，v_n}∈R^26×30。

步骤5：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Z_e进行转换，得到转换特征矩阵Z_e′＝T^TZ_e，并将测试数据的汉字发音图像序列的转换特征矩阵Z_e′存储到存储器B。

步骤6：典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Z_f′，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Z_e′，然后采用T.-K.Kim等人提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Z_e′与每个训练数据的转换特征矩阵Z_f′的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中对应的汉字输出到人机交互模块。

步骤7：人机交互模块显示典型相关判别分析模块传输过来的汉字。

经过上述步骤，即可完成对测试数据的自动识别，该系统的识别准确率如表1中的第2列所示；同时为了说明本发明的效果，还进行了2项实验：

1.在相同的实验环境、训练数据、测试数据的情况下，将本发明中使用的卷积虚拟静电场Snake模型换成传统Snake模型、其它功能不变，得到的识别准确率如表1中的第3列所示；

2.在相同的实验环境、训练数据、测试数据的情况下，将本发明中使用的典型相关分析方法换成连续隐马尔科夫模型(Continuous Hidden Markov Model，CHMM)、其它功能不变，得到的识别准确率如表1中的第4列所示。

表1不同方法的识别准确率比较结果(％)

  (1)
  (2)
  (3)
  “零”
  90.0
  73.5
  88.5
  “一”
  92.0
  75.0
  90.5
  “二”
  86.5
  76.0
  83.0
  “三”
  93.0
  81.5
  92.5
  “四”
  95.0
  83.0
  95.5
  “五”
  89.5
  73.0
  91.0
  “我”
  96.0
  82.0
  95.0
  “爱”

  97.0

  82.5

  95.5

  “北”

  93.5

  81.5

  94.0

  “京”

  90.0

  75.5

  88.0

实验表明本发明提出的系统具有更高的识别准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，或者对其中部分技术特征进行等同替换，这些改进和替换也应视为本发明的保护范围。

资源描述

《一种适用于中文的自动唇语识别系统.pdf》由会员分享，可在线阅读，更多相关《一种适用于中文的自动唇语识别系统.pdf（17页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102004549A43申请公布日20110406CN102004549ACN102004549A21申请号201010558253222申请日20101122G06F3/01200601G06K9/00200601H04N7/1820060171申请人北京理工大学地址100081北京市海淀区中关村南大街5号72发明人吕坤贾云得张欣54发明名称一种适用于中文的自动唇语识别系统57摘要一种自动唇语识别系统，包括头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关。

2、判别分析模块。头戴式摄像头用来录制汉字发音图像序列，通过人机交互模块传输至唇部轮廓定位模块，其使用卷积虚拟静电场SNAKE模型从中检测及跟踪唇部轮廓；几何向量获取模块和运动向量获取模块从唇部轮廓中分别提取出几何和运动特征，并将它们联合起来作为典型相关判别分析模块的输入特征矩阵；典型相关判别分析模块计算特征矩阵间的相似度，处理后获取识别结果。本发明系统与已有唇语识别系统相比较，具有更高的识别准确率。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书11页附图1页CN102004562A1/4页21一种适用于中文的自动唇语识别系统，包括头戴式摄像头、人机交互模块、唇。

3、部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块；其连接关系为头戴式摄像头的输出端与人机交互模块的输入端连接；人机交互模块的输出端与唇部轮廓定位模块的输入端连接；唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接；几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接；运动向量获取模块的输出端与特征矩阵构造模块的输入端连接；特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接；变换矩阵T获取模块与存储器A连接；转换特征矩阵获取模块与存储器A和存。

4、储器B连接；存储器A和存储器B还与典型相关判别分析模块的输入端连接；典型相关判别分析模块的输出端与人机交互模块的输入端连接；各模块及设备的主要功能是头戴式摄像头的主要功能是获取被试者发出的汉字发音图像序列；人机交互模块的主要功能是提供一个闭合轮廓曲线，以供被试者调整头戴式摄像头的位置，使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中；获取头戴式摄像头拍摄的汉字发音图像序列；对典型相关判别分析模块的结果进行输出；唇部轮廓定位模块的主要功能是使用吕坤等人在文献基于卷积虚拟静电场SNAKE模型的唇形跟踪算法中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到。

5、唇部轮廓曲线，并将其输出至几何向量获取模块；几何向量获取模块的主要功能是从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量；并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异，对唇部几何特征向量做归一化操作，得到归一化操作后的唇部几何特征向量，并输出至运动向量获取模块和特征矩阵构造模块；运动向量获取模块的主要功能是以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，然后将唇部运动特征向量输出至特征矩阵构造模块；特征矩阵构造模块的主要功能是构造汉字发音图像序列的特征矩阵，然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转。

6、换特征矩阵获取模块；变换矩阵T获取模块的主要功能是针对训练数据的汉字发音图像序列的特征矩阵，采用TKKIM等人在文献DISCRIMINATIVELEARNINGANDRECOGNITIONOFIMAGESETCLASSESUSINGCANONICALCORRELATIONS中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A；转换特征矩阵获取模块的主要功能是使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换，得到转换特征矩阵，并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A；存储器A存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵；存储器。

7、B存储测试数据的汉字发音图像序列的转换特征矩阵；典型相关判别分析模块从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和，然后进一步对这些典型相关系数和进行处理，获得当前测试数据的识别结果，并将该识别结果输出到人机交互模块；权利要求书CN102004549ACN102004562A2/4页3所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程系统训练过程的工作流程为步骤11选取M个汉字作为训练数据，M5且M为正整数；步骤12人机交互模块显示一个闭合轮廓曲线；步骤13被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被。

8、试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤12中所述的闭合轮廓曲线中；步骤14被试者以每秒钟1个汉字的语速对步骤11中所述的M个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒N帧，N25且N为正整数；因此每个汉字发音的视频流由N帧图像序列组成；将一个汉字的N帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块；步骤15人机交互模块将步骤12中所述闭合轮廓曲线和步骤14中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块；步骤16唇部轮廓定位模块使用吕坤等人在文献基于卷积虚拟。

9、静电场SNAKE模型的唇形跟踪算法提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块；其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场SNAKE模型的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场SNAKE模型的初始曲线采用该图像的前一图像的唇部定位结果曲线；步骤17几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量，用GI表示，I表示一个汉字发音图像序列中各帧图像的顺序号，1IN且I为正整数；并且。

10、为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量GI做归一化操作，得到归一化操作后的唇部几何特征向量，用GI表示；然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块；获取经过归一化操作后的唇部几何特征向量的具体操作步骤为步骤171计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标；步骤172将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L1L12表示这12条线段的长度，称该12条线。

11、段的长度L1L12为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B；步骤173从左右嘴角两点中任选一点，称该点为点Q，将点Q分别与点A和点B用直线相连；AQO用1表示，BQO用2表示，可根据L1L12，得到1和2的角度，进而得到1和2的余弦值；步骤174L1L12以及1和2的余弦值就构成了一帧图像中的唇部几何特征向量；由于L1和L7是连接左右嘴角线段长度的一半，所以它们的值相等，因此在唇部几何特征向量中去掉L7，即一帧图像中的唇部几何特征向量GIL1，L6，L8，L12，COS1，COS2T；权利要求书CN102004549ACN10200456。

12、2A3/4页4步骤175为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量GI做归一化操作，得到归一化操作后的唇部几何特征向量，用GI表示；GI是一个13维横向量，GIL1，L6，L8，L12，COS1，COS2；其中，J1，2，6，8，12，是一个汉字发音图像序列的第一帧图像中左右嘴角间距离；步骤18运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，用PI表示，PI是一个13维横向量，PIGIGI1/T，其中，G0G1，T是两个连续帧的时间间隔；然后将唇部运动特征向量PI输出至特征矩阵构造模块；步骤19特征矩阵构造模块构造训练数据的汉。

13、字发音图像序列的特征矩阵，用ZF表示，其中F表示训练数据的汉字发音图像序列的顺序号，1FM且F为正整数；然后将训练数据的汉字发音图像序列的特征矩阵ZF分别输出至变换矩阵T获取模块和转换特征矩阵获取模块；构造汉字发音图像序列的特征矩阵的具体操作步骤为步骤191依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量，用VI表示，VI是一个26维列向量，步骤192汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量VI组合而成，因此训练数据的汉字发音图像序列的特征矩阵ZFV1，V2，VNR26N；步骤110变换矩阵T获取模块针对M。

14、个训练数据的汉字发音图像序列的特征矩阵ZF，采用TKKIM等人提出的典型相关判别分析方法进行处理，得到变换矩阵TR26R，R26，且R为正整数，R表示实数，并将变换矩阵T存储到存储器A；步骤111转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵ZF进行转换，得到转换特征矩阵ZFTTZF，并训练数据的汉字发音图像序列的转换特征矩阵ZF存储到存储器A；经过上述步骤的操作，即可完成对所述自动唇语识别系统的训练；系统测试过程的工作流程为步骤21从M个训练数据中选取M个汉字作为测试数据，MM且M为正整数；步骤22人机交互模块显示一个闭合轮廓曲线；。

15、步骤23被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤22中所述的闭合轮廓曲线中；步骤24被试者以每秒钟1个汉字的语速对步骤21中所述的M个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒N帧；因此每个汉字发音的视频流由N帧图像序列组成；将一个汉字的N帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块；步骤25人机交互模块将步骤22中所述闭合轮廓曲线和步骤24中所述的汉字发音图像序列发送至唇部轮廓定位模块；步骤26。

16、与系统训练过程中的步骤16的操作相同；权利要求书CN102004549ACN102004562A4/4页5步骤27与系统训练过程中的步骤17的操作相同；步骤28与系统训练过程中的步骤18的操作相同；步骤29特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵，用ZE表示，其中E表示测试数据的汉字发音图像序列的顺序号，1EM且E为正整数；然后将测试数据的汉字发音图像序列的特征矩阵ZE输出至转换特征矩阵获取模块；构造汉字发音图像序列的特征矩阵的具体操作步骤为步骤291依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量VI，VI是一个26维列。

17、向量，步骤292汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量VI组合而成，因此测试数据的汉字发音图像序列的特征矩阵ZEV1，V2，VNR26N；步骤210转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵ZE进行转换，得到转换特征矩阵ZETTZE，并将测试数据的汉字发音图像序列的转换特征矩阵ZE存储到存储器B；步骤211典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵ZF，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵ZE，然后采用TKKIM等人在文献DISCRIMINATIVELEAR。

18、NINGANDRECOGNITIONOFIMAGESETCLASSESUSINGCANONICALCORRELATIONS中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵ZE与每个训练数据的转换特征矩阵ZF的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中对应的汉字输出到人机交互模块；步骤212人机交互模块显示典型相关判别分析模块传输过来的汉字；经过上述步骤，即可完成对测试数据的自动分类识别。权利要求书CN102004。

19、549ACN102004562A1/11页6一种适用于中文的自动唇语识别系统技术领域0001本发明涉及一种自动唇语识别系统，特别涉及一种适用于中文的自动唇语识别系统，属于自动唇语识别技术领域。背景技术0002唇语识别或唇读是人机交互HUMANCOMPUTERINTERACTION，HCI中很引人注目的领域，它在自动语言识别AUTOMATICSPEECHRECOGNITION，ASR系统中起着重要作用。人类语言感知是一个很自然的多模态过程。听力受损的人群会充分利用唇语的提示，即使正常人也可以利用视觉信息来增强对语言的理解，特别是在嘈杂环境中。利用视觉通道的信息会有效地提高现代自动语言识别系统的性。

20、能和鲁棒性。0003唇语识别任务一般包含三个主要步骤在发音图像序列中检测脸部及唇部区域；从唇部区域提取适合分类的特征；使用唇部区域特征进行唇语识别。0004针对第步，已有方法中主要使用图像处理的算法来定位脸部及唇部区域，此类方法容易受到光照、角度、旋转、遮挡等影响，会产生一定误差。0005第步中提到的唇语特征，在已有的文献中分为三大类1低层的基于纹理的特征；2高层的基于轮廓的特征；3前二者的组合。这些特征中，基于轮廓的特征中的唇部几何特征如唇的高度、宽度、角度以及唇部运动特征被认为是最可用的视觉信息。关于唇形轮廓线分割的大量近期工作都使用了可变形模板DEFORMABLEMODEL，其中一种有效。

21、方法就是使用SNAKE模型和改进的SNAKE模型，如梯度矢量流GRADIENTVECTORFLOW，GVFSNAKE模型、虚拟静电场VIRTUALELECTRICFIELD，VEFSNAKE模型、卷积虚拟静电场CONVOLUTIONALVIRTUALELECTRICFIELD，CONVOLUTIONALVEFSNAKE模型。相比较而言，卷积虚拟静电场SNAKE模型通过使用虚拟静电场VIRTUALELECTRICFIELD，VEF作为外力EXTERNALFORCE，以及使用卷积CONVOLUTION机制，该模型可以更快速准确地定位唇部轮廓。0006在第步使用唇部区域特征进行唇语识别中，广泛使用的。

22、分类方法是隐马尔科夫模型HIDDENMARKOVMODELHMM。隐马尔科夫模型在语言识别中很有用，因为它可以自然地对语言的时域特性进行建模。但是考虑到语言的本质属性，隐马尔科夫模型的分段式静态以及依赖性的假设THEPIECEWISESTATIONARYANDINDEPENDENCEASSUMPTIONS是该模型的两个局限。0007本发明中使用到的一项重要的已有技术是基于卷积虚拟静电场SNAKE模型的唇形跟踪算法。0008吕坤等人在文献基于卷积虚拟静电场SNAKE模型的唇形跟踪算法第六届和谐人机环境联合学术会议，2010中公开了基于卷积虚拟静电场SNAKE模型的唇形跟踪算法的详细设计。0009。

23、本发明使用到的另外一项重要的已有技术是典型相关判别分析DISCRIMINATIVEANALYSISOFCANONICALCORRELATION，DCC方法。说明书CN102004549ACN102004562A2/11页70010TKKIM等人在文献DISCRIMINATIVELEARNINGANDRECOGNITIONOFIMAGESETCLASSESUSINGCANONICALCORRELATIONSIEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE，VOL29，NO62007中公开了典型相关判别分析方法的操作步骤。该方法中通过引。

24、入一个变换矩阵T来最大化同类数据集WITHINCLASSSETS的相似度用典型相关系数和表示，最小化异类数据集BETWEENCLASSSETS的相似度，以达到更好的识别效果。0011近年来典型相关判别分析方法已被成功地应用于图像集匹配、人脸或物体识别等领域，因此将典型相关判别分析方法用于解决唇语识别问题从理论上讲是一个简单而有效的方法。但是，目前为止，还未查找到将典型相关判别分析方法用于自动唇语识别识别中的相关文献及实际应用。发明内容0012本发明的目的是为了克服已有技术存在的不足，提出了一种适用于中文的自动唇语识别系统。0013本发明的目的是通过下述技术方案实现的。0014一种适用于中文的自。

25、动唇语识别系统，包括头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。0015其连接关系为头戴式摄像头的输出端与人机交互模块的输入端连接；人机交互模块的输出端与唇部轮廓定位模块的输入端连接；唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接；几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接；运动向量获取模块的输出端与特征矩阵构造模块的输入端连接；特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接；变换矩阵T。

26、获取模块与存储器A连接；转换特征矩阵获取模块与存储器A和存储器B连接；存储器A和存储器B还与典型相关判别分析模块的输入端连接；典型相关判别分析模块的输出端与人机交互模块的输入端连接。0016各模块及设备的主要功能是0017头戴式摄像头的主要功能是获取被试者发出的汉字发音图像序列。0018人机交互模块的主要功能是提供一个闭合轮廓曲线，以供被试者调整头戴式摄像头的位置，使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。获取头戴式摄像头拍摄的汉字发音图像序列；对典型相关判别分析模块的结果进行输出。0019唇部轮廓定位模块的主要功能是使用吕坤等人在文献基于卷积虚拟静电场SNAKE模型的唇。

27、形跟踪算法中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。0020几何向量获取模块的主要功能是从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量；并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异，对唇部几何特征向量做归一化操作，得到归一化操作后的唇部几何特征向量，并输出至运动向量获取模块和特征矩阵构造模块。说明书CN102004549ACN102004562A3/11页80021运动向量获取模块的主要功能是以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征。

28、向量，然后将唇部运动特征向量输出至特征矩阵构造模块。0022特征矩阵构造模块的主要功能是构造汉字发音图像序列的特征矩阵，然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。0023变换矩阵T获取模块的主要功能是针对训练数据的汉字发音图像序列的特征矩阵，采用TKKIM等人在文献DISCRIMINATIVELEARNINGANDRECOGNITIONOFIMAGESETCLASSESUSINGCANONICAICORRELATIONSIEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE，VO129，NO62007。

29、中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A。0024转换特征矩阵获取模块的主要功能是使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换，得到转换特征矩阵，并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。0025存储器A存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。0026存储器B存储测试数据的汉字发音图像序列的转换特征矩阵。0027典型相关判别分析模块从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和，然后进一步对这些典型相关系数和进行处理，获得当前测试数据的识别结果，并将该。

30、识别结果输出到人机交互模块。0028所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程0029系统训练过程的工作流程为0030步骤11选取M个汉字作为训练数据，M5且M为正整数；0031步骤12人机交互模块显示一个闭合轮廓曲线。0032步骤13被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤12中所述的闭合轮廓曲线中。0033步骤14被试者以每秒钟1个汉字的语速对步骤11中所述的M个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒N帧，N25且N。

31、为正整数；因此每个汉字发音的视频流由N帧图像序列组成；将一个汉字的N帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。0034步骤15人机交互模块将步骤12中所述闭合轮廓曲线和步骤14中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块。0035步骤16唇部轮廓定位模块使用吕坤等人在文献基于卷积虚拟静电场SNAKE模型的唇形跟踪算法提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场SNAKE模型。

32、的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场SNAKE模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。0036步骤17几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲说明书CN102004549ACN102004562A4/11页9线中获取唇部几何特征向量，用GI表示，I表示一个汉字发音图像序列中各帧图像的顺序号，1IN且I为正整数；并且为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量GI做归一化操作，得到归一化操作后的唇部几何特征向量，用GI表示；然后将归一化操作后的唇部几何特征向量输。

33、出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为0037步骤171计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标。0038步骤172将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L1L12表示这12条线段的长度，称该12条线段的长度L1L12为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B。0039步骤173从左右嘴角两点中任选一。

34、点，称该点为点Q，将点Q分别与点A和点B用直线相连；AQO用1表示，BQO用2表示，可根据L1L12，得到1和2的角度，进而得到1和2的余弦值；0040步骤174L1L12以及1和2的余弦值就构成了一帧图像中的唇部几何特征向量；由于L1和L7是连接左右嘴角线段长度的一半，所以它们的值相等，因此在唇部几何特征向量中去掉L7，即一帧图像中的唇部几何特征向量GIL1，L6，L8，L12，COS1，COS2T；0041步骤175为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量GI做归一化操作，得到归一化操作后的唇部几何特征向量，用GI表示；GI是一个13维横向量，GIL1，L6，L。

35、8，L12，COS1，COS2；其中，J1，2，6，8，12，是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。0042步骤18运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量用PI表示，PI是一个13维横向量，PIGIGI1/T，其中，G0G1，T是两个连续帧的时间间隔；然后将唇部运动特征向量PI输出至特征矩阵构造模块；0043步骤19特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵用ZF表示，其中F表示训练数据的汉字发音图像序列的顺序号，1FM且F为正整数，然后将训练数据的汉字发音图像序列的特征矩阵ZF分别输出至变换矩阵T获取模块和转换特征。

36、矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为0044步骤191依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量用VI表示，VI是一个26维列向量，0045步骤192汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量VI组合而成，因此训练数据的汉字发音图像序列的特征矩阵ZFV1，V2，VNR26N。0046步骤110变换矩阵T获取模块针对M个训练数据的汉字发音图像序列的特征矩阵ZF，采用TKKIM等人提出的典型相关判别分析方法进行处理，得到变换矩阵TR26R，说明书CN102004549ACN10200。

37、4562A5/11页10R26，且R为正整数，R表示实数，并将变换矩阵T存储到存储器A。0047步骤111转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵ZF进行转换，得到转换特征矩阵ZFTTZF，并训练数据的汉字发音图像序列的转换特征矩阵ZF存储到存储器A。0048经过上述步骤的操作，即可完成对所述自动唇语识别系统的训练。0049系统测试过程的工作流程为0050步骤21从M个训练数据中选取M个汉字作为测试数据，MM且M为正整数。0051步骤22人机交互模块显示一个闭合轮廓曲线。0052步骤23被试人将头戴式摄像头固定在头部；被试人调整。

38、头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤22中所述的闭合轮廓曲线中。0053步骤24被试者以每秒钟1个汉字的语速对步骤21中所述的M个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒N帧；因此每个汉字发音的视频流由N帧图像序列组成；将一个汉字的N帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。0054步骤25人机交互模块将步骤22中所述闭合轮廓曲线和步骤24中所述的汉字发音图像序列发送至唇部轮廓定位模块。0055步骤26与系统训练过程中的步骤16。

39、的操作相同。0056步骤27与系统训练过程中的步骤17的操作相同。0057步骤28与系统训练过程中的步骤18的操作相同。0058步骤29特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵用ZE表示，其中E表示测试数据的汉字发音图像序列的顺序号，1EM且E为正整数，然后将测试数据的汉字发音图像序列的特征矩阵ZE输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为0059步骤291依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量VI，VI是一个26维列向量，0060步骤292汉字发音图像序列的特征矩阵由该汉字发音图。

40、像序列中的每帧图像的联合特征向量VI组合而成，因此测试数据的汉字发音图像序列的特征矩阵ZEV1，V2，VNR26N。0061步骤210转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵ZE进行转换，得到转换特征矩阵ZETTZE，并将测试数据的汉字发音图像序列的转换特征矩阵ZE存储到存储器B。0062步骤211典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵ZF，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵ZE，然后采用TKKIM等人在文献DISCRIMINATIVELEARNINGANDRECOGNITIONOF。

41、IMAGESETCLASSESUSINGCANONICAICORRELATIONSIEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE，VOL29，NO62007中提出的典型相关判别分析方法计算该测试说明书CN102004549ACN102004562A6/11页11数据的转换特征矩阵ZE与每个训练数据的转换特征矩阵ZF的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中。

42、对应的汉字输出到人机交互模块。0063步骤212人机交互模块显示典型相关判别分析模块传输过来的汉字。0064经过上述步骤，即可完成对测试数据的自动识别。0065有益效果0066与已有中文自动唇语识别系统相比，本发明具有以下优点0067本发明中使用头戴式摄像头来直接获取唇部图像序列，每次实验开始时被试使用人机交互的方式来调整头戴式摄像头的位置，实验过程中摄像头和人脸的相对位置是固定的，被试可以自然地进行汉字发音，不用刻意去保持头部姿势和位置。相比前人方法，本文可以非常准确地获取唇部图像序列，前期运算量大大减少，且可以减少对被试的约束，使实验过程更加自然。0068本发明使用卷积虚拟静电场SNAKE。

43、模型定位唇部轮廓，更快速准确。0069本发明提取的唇语特征结合了唇部几何特征和唇部运动特征，使分析更准确。0070本发明首次将典型相关判别分析方法成功的运用到唇语自动识别领域，克服了隐马尔科夫模型在语言识别中的局限性。附图说明0071图1为本发明具体实施方式中的适用于中文的自动唇语识别系统的结构示意图。具体实施方式0072下面结合附图和具体实施例对本发明进行详细说明。0073一种适用于中文的自动唇语识别系统，其系统结构如图1所示，包括头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、。

44、典型相关判别分析模块。0074其连接关系为头戴式摄像头的输出端与人机交互模块的输入端连接；人机交互模块的输出端与唇部轮廓定位模块的输入端连接；唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接；几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接；运动向量获取模块的输出端与特征矩阵构造模块的输入端连接；特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接；变换矩阵T获取模块与存储器A连接；转换特征矩阵获取模块与存储器A和存储器B连接；存储器A和存储器B还与典型相关判别分析模块的输入端连接；典型相关判别分析模块的输出端与人机交互模块的输入端连接。。

45、0075各模块及设备的主要功能是0076头戴式摄像头的主要功能是获取被试者发出的汉字发音图像序列。0077人机交互模块的主要功能是提供一个闭合轮廓曲线，以供被试者调整头戴式摄像头的位置，使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。说明书CN102004549ACN102004562A7/11页12获取头戴式摄像头拍摄的汉字发音图像序列；对典型相关判别分析模块的结果进行输出。0078唇部轮廓定位模块的主要功能是使用吕坤等人在文献基于卷积虚拟静电场SNAKE模型的唇形跟踪算法提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至。

46、几何向量获取模块。0079几何向量获取模块的主要功能是从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量；并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异，对唇部几何特征向量做归一化操作，得到归一化操作后的唇部几何特征向量，并输出至运动向量获取模块和特征矩阵构造模块。0080运动向量获取模块的主要功能是以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，然后将唇部运动特征向量输出至特征矩阵构造模块。0081特征矩阵构造模块的主要功能是构造汉字发音图像序列的特征矩阵，然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换。

47、特征矩阵获取模块。0082变换矩阵T获取模块的主要功能是针对训练数据的汉字发音图像序列的特征矩阵，采用TKKIM等人在文献DISCRIMINATIVELEARNINGANDRECOGNITIONOFIMAGESETCLASSESUSINGCANONICALCORRELATIONSIEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE，VOL29，NO62007中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A。0083转换特征矩阵获取模块的主要功能是使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换，。

48、得到转换特征矩阵，并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。0084存储器A存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。0085存储器B存储测试数据的汉字发音图像序列的转换特征矩阵。0086典型相关判别分析模块从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和，然后进一步对这些典型相关系数和进行处理，获得当前测试数据的识别结果，并将该识别结果输出到人机交互模块。0087使用上述系统进行实验，试验中选择10名被试者4名男性和6名女性，然后让他们每人对”零、一、二、三、四、五、我、爱、北、京”10个汉字发音20次，每。

49、个汉字得到200个汉字发音图像序列；然后，对于每个汉字，从其对应的200个汉字发音图像序列中随机选取80160个作为训练数据，剩下的2040个的汉字发音图像序列作为测试数据；因此训练数据有1600个，测试数据有400个。00882000个汉字发音图像序列获取的步骤如下0089步骤1人机交互模块显示一个闭合轮廓曲线。0090步骤210名被试人依次将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤1中所述的闭合轮廓曲线中。0091步骤3被试者以每秒钟1个汉字的语速对”零、一、二、三、四、五、我、爱、北、京”10说明书CN102004549ACN102004562A8/11页13个汉字进行发音，每个汉字发音20次，同时头戴式摄像头的拍摄速度为每秒30帧，因此每个汉字发音的视频流由30帧图像序列组成；将一个汉字的30帧。

展开阅读全文