汉语音位－视位参数的计算机转换方法和系统.pdf

摘要
申请专利号：	CN02117330.3	申请日：	2002.05.17
公开号：	CN1379348A	公开日：	2002.11.13
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):G06F 17/28申请日:20020517授权公告日:20040602终止日期:20110517\|\|\|授权\|\|\|实质审查的生效\|\|\|公开\|\|\|实质审查的生效
IPC分类号：	G06F17/28	主分类号：	G06F17/28
申请人：	清华大学; 北京炎黄新星网络科技有限公司
发明人：	蔡莲红; 王志明; 张毅
地址：	100084北京市100084－82信箱
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

汉语音位－视位参数的计算机转换方法及系统属于语音—人脸动态图像信息的转换和处理技术领域。其特征在于,它包含根据确定的音位系列同步完成语音和人脸图像的录音、录像,并把录像数据转换为音视频同步的数字图像数据输入计算机,确定汉语静态视位的抽取时刻,从国际标准MPEG－4中选取描述汉语视位的人脸动画参数FAP参数集,测量人脸特征点,计算汉语静态视位的人脸动画参数FAP参数值,建立汉语基本视位集,构筑用于描述某一视位对应FAP参数变化的基于权值融合的动态视位模型,确定动态视位模型各参数的学习方法各步骤,相应地提出了音位—视位计算机转换系统,从而实现从汉语音位生成其对应FAP参数的方法和系统。它对于待转换的文本,由汉语基本视位集提供对应的视位号,从而生成汉语文本所对应的FAP参数。

权利要求书

1：汉语音位-视位参数的计算机转换方法，含有在发音人读出所有声韵时，放置与人脸正面成45度角的镜子录像，同步完成人脸正面和侧面图像的录像和录音，通过与计算机相连的数字图像采集卡，把录像数据转换为音视频同步的数字图像数据的步骤，其特征在于，它依次包含以下步骤： (1)选定需要录像和录音的汉语音位，建立包括复合元音的视位在内的基本视位集所需的音位系列； (2)在读出步骤(1)所述音位系列中所有声韵母时，放置与人脸正面成45度角的镜子录像，同步完成人脸正面和侧面图像的录像和录音，再通过与计算机相连的数字图像采集卡，把录像数据转换为音视频同步的数字图像数据； (3)从音视频流中确定汉语静态视位的抽取时刻； (3.1)由AVI文件中与时间有关的语音信号数据，按下式计算从第n 0 个样本开始的一帧语音的短时能量，随时间依次得到短时能量随时间变化的曲线，取语音短时能量曲线的中心时刻作为韵母静态视位的抽取时刻； E n 0 = Σ n = n 0 N - 1 + n 0 ( S 2 ( n ) ) - - - n 0 ≤ n ≤ N - 1 + n 0 ]]> 其中N为计算语音短时能量的语音帧长(样本点数)，n 0 为起始样本号，S(n)表示第 n个样本的语音信号幅度值； (3.2)语音短时能量曲线随时间变化的起始时刻作为声母静态视位的抽取时刻； (4)从国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)所定义的68个人脸动画参数FAP(Facial Animation Parameters)中选取24个FAP参数来描述汉语视位，现列出如下： #3 open_jaw下腭张开度 #16push_b_lip下唇突出度 #4 lower_t_midlip内上唇中点下移量 #17push_t_lip上唇突出度 #5 raise_b_midlip内下唇中点上移量 #51lower_t_lip_o外上唇中点下移量 #6 stretch_l_cornerlip左内唇角拉开度 #52raise_b_midlip_o外下唇中点上移量 #7 stretch_r_conerlip右内唇角拉开度 #53stretch_l_cornerlip_o左外唇角拉开度 #8 lower_t_lip_lm内上唇左中点下移量 #54stretch_r_conerlip_o右外唇角拉开度 #9 lower_t_lip_rm内上唇右中点下移量 #55lower_t_lip_lm_o外上唇左中点下移量 #10raise_b_lip_lm内下唇左中点上移量 #56lower_t_lip_rm_o外上唇右中点下移量 #11raise_b_lip_rm内下唇右中点上移量 #57raise_b_lip_lm_o外下唇左中点上移量 #12raise_l_cornerlip左内唇角上移度 #58raise_b_lip_rm_o外下唇右中点上移量 #13raise_r_cornerlip右内唇角上移度 #59raise_l_cornerlip_o左外唇角上移度 #14thrust_jaw下腭突出度 #60raise_r_cornerlip_o右外唇角上移度 (5)利用计算机自动测量或手动测量视频流中面部特征点的运动，计算出相应的汉语静态视位的FAP参数： (5.1)定义以下的人脸特征点：双鼻孔点，外唇左右角点和上、下唇中点，内唇左右角点和上、下唇中点，侧面图中的鼻尖点，上、下唇突出点和下腭突出点和下腭下角点；还有，外唇上轮廓线上左、右半边的中点，内唇上轮廓线上左、右半边的中点，外唇下轮廓线上左、右半边的中点，内唇下轮廓线上左、右半边的中点； (5.2)利用公知技术对上述人脸特征点定位，再根据MPEG-4标准的规定计算相应的汉语静态视位参数FAP； (6)通过计算机自动聚类分析产生汉语基本视位集，包括根据聚类误差建立汉语音位的视觉混淆树和选择适当的类别数，它依次包含以下步骤： (6.1)设初始表类别数为总视位个数，对声母为M＝20，韵母M＝15，即把每个视位作为一类，设总误差J(M)＝0； (6.2)选择两类合并，M＝M-1，设合并后形成类别号为m，类中视位个数为Nm，计算合并后形成的第m个类的类中心： μ m ( p ) = 1 N m Σ k = 1 N m Fa p k ( p ) ; ]]> (6.3)在所有可能的两两合并中，选择使得按标准欧氏距离由下式计算出的总的误差最小：，并记录这一类别数的总误差J(M)，其中Fap i (k)表示第 k个视位的第p个FAP参数值，P为所采用的总的FAP参数个数； (6.4)重复步骤(6.2)、(6.3)步，直到总的类别数减为1； (6.5)根据以上几步所得到的不同类别数下每一类中的音位成员，画出按各个音位视位相似性进行合并过程的树状图； (6.6)画出误差随类别数变化的曲线，画出视位分类线去选择误差剧烈增加之前的类别数作为最佳的类别； (6.7)视位分类线下对应的视位即通过对汉语静态视位分类而得到的汉语基本视位集共20个，现列出如下： #0 NA(自动状态) #7 r #14 er #1 b，p，m #8 z， c， s #15 i #2 f #9 a， ang #16 o #3 d，t，n，l #10 ai， an #17 ou #4 g，k，h #11 ao #18 u #5 j，q，x #12 e， eng #19 ü #6 zh，ch，sh #13 ei， en (7)建立一个用于描述某一视位对应的FAP参数变化过程的基于权值融合的动态视位模型WB-DVM(Weight Blending-Dynamic Viseme Model)：每个动态视位的FAP参数由一个基本控制权值函数和前、后两个无声模型控制权值函数来决定，三个控制权值函数的基本函数形式都是指数函数，可表示为： W = αe θ | τ | c ]]> 其中：α给出视位中心处的控制权值幅度； θ为控制权值衰减或增加的速度； |τ|表示当前时刻到控制权值函数中心点时刻的时间距离； c为一常数；α、θ、|τ|、c都大于零；前无声模型控制权值函数W l 为： W l = α l e θ l | τ | c - - - τ 0 , ]]> W l = α l e - θ l | τ | c - - - τ > 0 , τ = t si - t l - t , ]]> 后无声模型控制权值函数W r 为： W r = α r e - θ r | τ | c - - - τ 0 , ]]> W r = α r e θ r | τ | c - - - τ > 0 , τ = t ei - t r - t , ]]> 第i个声母视位基本控制权值函数W i 为： W i = α i e - θ i ( - ) | τ | c - - - τ 0 , ]]> W i = α i e - θ i ( + ) | τ | c - - - τ > 0 , τ = t si - t ii - t , ]]> 第i个韵母视位基本控制权值函数W i 为： W i = α i e - θ i ( - ) | τ | c - - - τ 0 , ]]> W i = α i e - θ i ( + ) | τ | c - - - τ > 0 , τ = t ci - t fi - t , ]]> 其中t si 、t ei 、t ci 分别为语音段的起始时刻、结束时刻和中心时刻，t ii 为从语音段的开始时刻t si 到声母控制权值函数参数中心点的距离，t fi 为从语音段的中心时刻t ci 到韵母控制权值函数参数中心点的距离，它与韵母的发音长度有关，可记为t fi ＝k fi *(t ei -t si )， -0.5≤k fi ≤0.5；t l 、t r 分别表示从前无声模型中心到语音起始时刻和从后无声模型中心到语音结束时刻的时间距离，τ表示当前时刻t到控制权值函数中心点时刻的距离；单独发某一音位i时，任意时刻的第p个FAP参数的动态参数值由这三者按其控制权值函数值加权计算得出： F ip ( t ) = W i ( t ) * T ip W i ( t ) + W l ( t ) + W r ( t ) ; ]]> 其中T表示视位在其控制权值中心时刻的视位参数值，T ip 即指视位i第p个FAP参数的中心处参数值；在连续语流中，各个视位的口形受到其周围视位的影响，最终的FAP参数可以由各个FAP 参数按基本控制权值函数值加权得到： F p ( t ) = ( Σ i = 1 I ( W i ( t ) × T ip ) ) / ( Σ i = 1 I W i ( t ) ) ]]> 其中的i包含了前、后无声模型，I为协同发音所考虑的视位及无声模型总个数；相邻视位之间的无声模型由前后无声模型相交构成； (8)动态视位模型中的各个参数的确定： (8.1)需要确定的参数为：控制权值函数的指数参数c，与前后无声模型有关的参数：α l 、α r 、θ l 、θ r 、t l 、t r ；确定每个视位的参数：α i (中心处控制权值函数值)、θ i(-) 、θ i(+) (由控制函数中心向前和向后的衰减系数)、t fi 或k fi (控制权值函数中心与语音中心的时间距离)或t ii (控制权值函数中心与语音起始时刻的时间距离)，以及第p个FAP参数的中心处参数值T ip ； (8.2)估计模型参数，即采用分组、分阶段、分步骤进行机器学习的方法从实际数据中获取：先根据用上述步骤确定的汉语基本静态视位集，对每个静态视位类所对应的音位分别进行发音录像，并用上述FAP参数测量方法得到实际发音过程中的FAP参数，再依次按以下步聚估算： (8.
2： 1)根据经验设定所有FAP参数共用的模型参数的初始值：指数参数c＝1.0，t l ＝100ms，t r ＝60ms；α l ＝α r ＝1，θ l ＝θ r ＝0.03； (8.2.2)设置第i个韵母所对应的视位即韵母视位的模型参数α i ＝1，θ i(-) ＝θ i(+) ＝ 0.03，k fi ＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习，以模型产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，即，其中N为实际测量的音位发音过程中动态视位长度，单位为图像帧，Fap i，k (p)表示第i个韵母视位的第k帧FAP参数p的实测数值，Fap′ i，k (p)表示模型生成的第i个韵母视位的第k帧FAP参数p的数值； (8.2.3)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差J i 最小，其中各个参数的调节范围为：α i (0.5～1.5)，θ i(-) 、θ i(+) (0.01～0.05)，k fi (-0.5～0.5)； (8.2.4)重复步骤(8.2.2)～(8.2.3)，直到学完所有韵母视位的模型参数，并记录总的误差和，其中K为总的韵母视位个数； (8.2.5)用上述梯度下降法调节指数参数c和前后无声模型参数t l 、t r 、α l 、α r 、θ l 、 θ r 后返回步骤(8.2.2)，经多次叠代使总的误差和J最小，各个参数的调节范围为：c(0.8～ 1.2)，t l 、t r (0～200ms)，α l 、α r (0.5～1.5)，θ l 、θ r 、(0.01～0.05)； (8.2.6)学习第i个声母所对应的视位参数时，对包括第i个声母的音节进行发音录像，并测得整个音节发音过程的视位参数； (8.2.7)设置第i个声母即声母视位的模型参数α i ＝1，θ i(-) ＝θ i(+) ＝0.03，t ii ＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习；根据模型参数和上述步骤学得的指数参数c和前后无声模型参数t l 、t r 、α l 、α r 、θ l 、θ r 以及韵母模型参数计算出整个音节的视位参数，以模型参数产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，，其中N为实际测量的音节发音过程中动态视位长度，单位为图像帧，Fap i，k (p)表示整个音节的第k帧FAP参数p的实测数值， Fap′ i，k (p)表示模型生成的整个音节的第k帧FAP参数p的数值； (8.2.8)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差J i 最小，其中各个参数的调节范围为：α i (0.5～1.5)，θ i(-) 、θ i(+) (0.01～0.05)，t ii (0～200ms)； (8.2.9)重复步骤(8.2.6)～(8.2.8)，直到学完所有声母视位的模型参数。 2.根据权利要求1的汉语音位-视位参数的计算机转换方法所设计的系统，其特征在于，它含有中央处理器，经总线与中央处理器相连的视频图像采集设备中，声音输入/输出设备，视频图像显示设备、键盘、鼠标以及内存储器。
3： 1)由AVI文件中与时间有关的语音信号数据，按下式计算从第n 0 个样本开始的一帧语音的短时能量，随时间依次得到短时能量随时间变化的曲线，取语音短时能量曲线的中心时刻作为韵母静态视位的抽取时刻； E n 0 = Σ n = n 0 N - 1 + n 0 ( S 2 ( n ) ) - - - n 0 ≤ n ≤ N - 1 + n 0 ]]> 其中N为计算语音短时能量的语音帧长(样本点数)，n 0 为起始样本号，S(n)表示第 n个样本的语音信号幅度值； (3.2)语音短时能量曲线随时间变化的起始时刻作为声母静态视位的抽取时刻； (4)从国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)所定义的68个人脸动画参数FAP(Facial Animation Parameters)中选取24个FAP参数来描述汉语视位，现列出如下： #3 open_jaw下腭张开度 #16push_b_lip下唇突出度 #4 lower_t_midlip内上唇中点下移量 #17push_t_lip上唇突出度 #5 raise_b_midlip内下唇中点上移量 #51lower_t_lip_o外上唇中点下移量 #6 stretch_l_cornerlip左内唇角拉开度 #52raise_b_midlip_o外下唇中点上移量 #7 stretch_r_conerlip右内唇角拉开度 #53stretch_l_cornerlip_o左外唇角拉开度 #8 lower_t_lip_lm内上唇左中点下移量 #54stretch_r_conerlip_o右外唇角拉开度 #9 lower_t_lip_rm内上唇右中点下移量 #55lower_t_lip_lm_o外上唇左中点下移量 #10raise_b_lip_lm内下唇左中点上移量 #56lower_t_lip_rm_o外上唇右中点下移量 #11raise_b_lip_rm内下唇右中点上移量 #57raise_b_lip_lm_o外下唇左中点上移量 #12raise_l_cornerlip左内唇角上移度 #58raise_b_lip_rm_o外下唇右中点上移量 #13raise_r_cornerlip右内唇角上移度 #59raise_l_cornerlip_o左外唇角上移度 #14thrust_jaw下腭突出度 #60raise_r_cornerlip_o右外唇角上移度 (5)利用计算机自动测量或手动测量视频流中面部特征点的运动，计算出相应的汉语静态视位的FAP参数： (5.1)定义以下的人脸特征点：双鼻孔点，外唇左右角点和上、下唇中点，内唇左右角点和上、下唇中点，侧面图中的鼻尖点，上、下唇突出点和下腭突出点和下腭下角点；还有，外唇上轮廓线上左、右半边的中点，内唇上轮廓线上左、右半边的中点，外唇下轮廓线上左、右半边的中点，内唇下轮廓线上左、右半边的中点； (5.2)利用公知技术对上述人脸特征点定位，再根据MPEG-4标准的规定计算相应的汉语静态视位参数FAP； (6)通过计算机自动聚类分析产生汉语基本视位集，包括根据聚类误差建立汉语音位的视觉混淆树和选择适当的类别数，它依次包含以下步骤： (6.1)设初始表类别数为总视位个数，对声母为M＝20，韵母M＝15，即把每个视位作为一类，设总误差J(M)＝0； (6.2)选择两类合并，M＝M-1，设合并后形成类别号为m，类中视位个数为Nm，计算合并后形成的第m个类的类中心： μ m ( p ) = 1 N m Σ k = 1 N m Fa p k ( p ) ; ]]> (6.3)在所有可能的两两合并中，选择使得按标准欧氏距离由下式计算出的总的误差最小：，并记录这一类别数的总误差J(M)，其中Fap i (k)表示第 k个视位的第p个FAP参数值，P为所采用的总的FAP参数个数； (6.4)重复步骤(6.2)、(6.3)步，直到总的类别数减为1； (6.5)根据以上几步所得到的不同类别数下每一类中的音位成员，画出按各个音位视位相似性进行合并过程的树状图； (6.6)画出误差随类别数变化的曲线，画出视位分类线去选择误差剧烈增加之前的类别数作为最佳的类别； (6.7)视位分类线下对应的视位即通过对汉语静态视位分类而得到的汉语基本视位集共20个，现列出如下： #0 NA(自动状态) #7 r #14 er #1 b，p，m #8 z， c， s #15 i #2 f #9 a， ang #16 o #3 d，t，n，l #10 ai， an #17 ou #4 g，k，h #11 ao #18 u #5 j，q，x #12 e， eng #19 ü #6 zh，ch，sh #13 ei， en (7)建立一个用于描述某一视位对应的FAP参数变化过程的基于权值融合的动态视位模型WB-DVM(Weight Blending-Dynamic Viseme Model)：每个动态视位的FAP参数由一个基本控制权值函数和前、后两个无声模型控制权值函数来决定，三个控制权值函数的基本函数形式都是指数函数，可表示为： W = αe θ | τ | c ]]> 其中：α给出视位中心处的控制权值幅度； θ为控制权值衰减或增加的速度； |τ|表示当前时刻到控制权值函数中心点时刻的时间距离； c为一常数；α、θ、|τ|、c都大于零；前无声模型控制权值函数W l 为： W l = α l e θ l | τ | c - - - τ 0 , ]]> W l = α l e - θ l | τ | c - - - τ > 0 , τ = t si - t l - t , ]]> 后无声模型控制权值函数W r 为： W r = α r e - θ r | τ | c - - - τ 0 , ]]> W r = α r e θ r | τ | c - - - τ > 0 , τ = t ei - t r - t , ]]> 第i个声母视位基本控制权值函数W i 为： W i = α i e - θ i ( - ) | τ | c - - - τ 0 , ]]> W i = α i e - θ i ( + ) | τ | c - - - τ > 0 , τ = t si - t ii - t , ]]> 第i个韵母视位基本控制权值函数W i 为： W i = α i e - θ i ( - ) | τ | c - - - τ 0 , ]]> W i = α i e - θ i ( + ) | τ | c - - - τ > 0 , τ = t ci - t fi - t , ]]> 其中t si 、t ei 、t ci 分别为语音段的起始时刻、结束时刻和中心时刻，t ii 为从语音段的开始时刻t si 到声母控制权值函数参数中心点的距离，t fi 为从语音段的中心时刻t ci 到韵母控制权值函数参数中心点的距离，它与韵母的发音长度有关，可记为t fi ＝k fi *(t ei -t si )， -0.5≤k fi ≤0.5；t l 、t r 分别表示从前无声模型中心到语音起始时刻和从后无声模型中心到语音结束时刻的时间距离，τ表示当前时刻t到控制权值函数中心点时刻的距离；单独发某一音位i时，任意时刻的第p个FAP参数的动态参数值由这三者按其控制权值函数值加权计算得出： F ip ( t ) = W i ( t ) * T ip W i ( t ) + W l ( t ) + W r ( t ) ; ]]> 其中T表示视位在其控制权值中心时刻的视位参数值，T ip 即指视位i第p个FAP参数的中心处参数值；在连续语流中，各个视位的口形受到其周围视位的影响，最终的FAP参数可以由各个FAP 参数按基本控制权值函数值加权得到： F p ( t ) = ( Σ i = 1 I ( W i ( t ) × T ip ) ) / ( Σ i = 1 I W i ( t ) ) ]]> 其中的i包含了前、后无声模型，I为协同发音所考虑的视位及无声模型总个数；相邻视位之间的无声模型由前后无声模型相交构成； (8)动态视位模型中的各个参数的确定： (8.1)需要确定的参数为：控制权值函数的指数参数c，与前后无声模型有关的参数：α l 、α r 、θ l 、θ r 、t l 、t r ；确定每个视位的参数：α i (中心处控制权值函数值)、θ i(-) 、θ i(+) (由控制函数中心向前和向后的衰减系数)、t fi 或k fi (控制权值函数中心与语音中心的时间距离)或t ii (控制权值函数中心与语音起始时刻的时间距离)，以及第p个FAP参数的中心处参数值T ip ； (8.2)估计模型参数，即采用分组、分阶段、分步骤进行机器学习的方法从实际数据中获取：先根据用上述步骤确定的汉语基本静态视位集，对每个静态视位类所对应的音位分别进行发音录像，并用上述FAP参数测量方法得到实际发音过程中的FAP参数，再依次按以下步聚估算： (8.2.1)根据经验设定所有FAP参数共用的模型参数的初始值：指数参数c＝1.0，t l ＝100ms，t r ＝60ms；α l ＝α r ＝1，θ l ＝θ r ＝0.03； (8.2.2)设置第i个韵母所对应的视位即韵母视位的模型参数α i ＝1，θ i(-) ＝θ i(+) ＝ 0.03，k fi ＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习，以模型产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，即，其中N为实际测量的音位发音过程中动态视位长度，单位为图像帧，Fap i，k (p)表示第i个韵母视位的第k帧FAP参数p的实测数值，Fap′ i，k (p)表示模型生成的第i个韵母视位的第k帧FAP参数p的数值； (8.2.3)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差J i 最小，其中各个参数的调节范围为：α i (0.5～1.5)，θ i(-) 、θ i(+) (0.01～0.05)，k fi (-0.5～0.5)； (8.2.4)重复步骤(8.2.2)～(8.2.3)，直到学完所有韵母视位的模型参数，并记录总的误差和，其中K为总的韵母视位个数； (8.2.5)用上述梯度下降法调节指数参数c和前后无声模型参数t l 、t r 、α l 、α r 、θ l 、 θ r 后返回步骤(8.2.2)，经多次叠代使总的误差和J最小，各个参数的调节范围为：c(0.8～ 1.2)，t l 、t r (0～200ms)，α l 、α r (0.5～1.5)，θ l 、θ r 、(0.01～0.05)； (8.2.6)学习第i个声母所对应的视位参数时，对包括第i个声母的音节进行发音录像，并测得整个音节发音过程的视位参数； (8.2.7)设置第i个声母即声母视位的模型参数α i ＝1，θ i(-) ＝θ i(+) ＝0.03，t ii ＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习；根据模型参数和上述步骤学得的指数参数c和前后无声模型参数t l 、t r 、α l 、α r 、θ l 、θ r 以及韵母模型参数计算出整个音节的视位参数，以模型参数产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，，其中N为实际测量的音节发音过程中动态视位长度，单位为图像帧，Fap i，k (p)表示整个音节的第k帧FAP参数p的实测数值， Fap′ i，k (p)表示模型生成的整个音节的第k帧FAP参数p的数值； (8.2.8)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差J i 最小，其中各个参数的调节范围为：α i (0.5～1.5)，θ i(-) 、θ i(+) (0.01～0.05)，t ii (0～200ms)； (8.2.9)重复步骤(8.2.6)～(8.2.8)，直到学完所有声母视位的模型参数。 2.根据权利要求1的汉语音位-视位参数的计算机转换方法所设计的系统，其特征在于，它含有中央处理器，经总线与中央处理器相连的视频图像采集设备中，声音输入/输出设备，视频图像显示设备、键盘、鼠标以及内存储器。

说明书

汉语音位-视位参数的计算机转换方法和系统
    【技术领域】

    汉语音位-视位参数的计算机转换方法和系统属于语音-人脸动态信息之间的信息转换和处理技术领域。背景技术

    音位是指语音系统中最小的能够区别词或词素意义的语音单位。汉语拼音符号可作为音位符号，表示音位或音位系列。如汉语拼音e的音位用/e/表示，其国际音标为[□]，读音为“额”。

    视位：国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)给出了视位的定义：视位是指与某一音位相对应的嘴、舌头、下腭等可视发音器官地物理形状。一种语言的音位约有几十个。有些音位在发音时其面部图像相似，即音位与视位之间存在着多对一的关系，因此需要对音位进行合理的分类，据此建立相应的视位集。MPEG-4按照国际音标定义了1 5静态视位。各种语言具有不同的音位内容和语音系统，相应的视位也有所不同。目前国外定义了英语、德语等语言的静态视位，而汉语静态视位还没有一个完整的定义和具体分类结果；即使有，也是根据发音规则主观确定，不同的人作了不同的分类，没有人采用一个较为客观的分类方法。但是，研究人在讲话时脸部图像的变化以及声音与人脸图像的关系在计算机合成人脸动画、聋哑人辅助发声练习、汉语文字-可视语音转换上有着重大的意义。

    在计算机内，视位就是以某种参数表达的图像。上述MPEG-4国际标准定义了描述视位的参数：人脸动画参数FAP(Facial Animation Parameters)。目前，还没有专门描述汉语视位的视位参数。另外，MPEG-4标准还定义了静态视位(Static Viseme)，但人们发音本身是一个动态的过程，简单地用一个静态视位来表示必然丢失许多有用的信息。另一方面，在人脸动画合成过程中也需要任意时刻的人脸动画参数。现在解决这一问题的方法有二：一是由一个个静态FAP参数在时间上进行插值计算，以得出连续语流中任意时刻的人脸动画参数。对连续语流中视位参数的插值计算大多采用固定的函数进行插值；二是对协同发音的处理，这是指连续说话过程中，每个视位都要受到它周围其它视位的影响，如美国加洲大学的Cohen和Massaro提出的协同发音处理模型；在汉语可视语音合成中未见到相关报道，而且上述方法都是从静态视位出发，考虑相互之间的影响和过渡，而没有把视位作为一个完整的动态过程来考虑。发明内容

    本发明的目的在于提出一种汉语音位—视位参数的计算机转换方法和系统，它采用国标际准定义的FAP参数描述汉语静态视位，通过客观测量得到各个音位对应的FAP参数，再通过数据聚类得到一种汉语基本视位集；它还提出一个动态视位模型，给出了从实际数据估计其模型参数的方法。据此，对于待转换的文本，本发明提供与文本对应的汉语基本视位集，根据具体视位集和动态视位模型，可用计算机实现的汉语音位—视位参数转换系统，即一个根据一定模型和规则生成汉语音位串的FAP参数的系统。

    本发明的方法其特征在于，它依次包含以下步骤：

    (1)选定需要录像和录音的汉语音位，建立包括复合元音的视位在内的基本视位集所需的音位系列；

    (2)在读出步骤(1)所述音位系列中所有声韵母时，放置与人脸正面成45度角的镜子录像，同步完成人脸正面和侧面图像的录像和录音，再通过与计算机相连的数字图像采集卡，把录像数据转换为音视频同步的数字图像数据；

    (3)从音视频流中确定汉语静态视位的抽取时刻；

    (3.1)由AVI文件中与时间有关的语音信号数据，按下式计算从第n0个样本开始的一帧语音的短时能量，随时间依次得到短时能量随时间变化的曲线，取语音短时能量曲线的中心时刻作为韵母静态视位的抽取时刻；En0=Σn=n0N-1+n0(S2(n))----n0≤n≤N-1+n0]]>

    其中N为计算语音短时能量的语音帧长(样本点数)，n0为起始样本号，S(n)表示第n个样本的语音信号幅度值；

    (3.2)语音短时能量曲线随时间变化的起始时刻作为声母静态视位的抽取时刻；

    (4)从国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)所定义的68个人脸动画参数FAP(Facial AnimationParameters)中选取24个FAP参数来描述汉语视位，现列出如下：#3open_jaw下腭张开度                    #16push_b_lip       下唇突出度#4lower_t_midlip内上唇中点下移量        #17push_t_lip       上唇突出度#5raise_b_midlip内下唇中点上移量        #51lower_t_lip_o    外上唇中点下移量#6stretch_l_cornerlip左内唇角拉开度     #52raise_b_midlip_o外下唇中点上移量#7stretch_r_conerlip右内唇角拉开度      #53stretch_l_cornerlip_o左外唇角拉开度#8lower_t_lip_lm内上唇左中点下移量      #54stretch_r_conerlip_o右外唇角拉开度#9lower_t_lip_rm内上唇右中点下移量      #55lower_t_lip_lm_o外上唇左中点下移量#10raise_b_lip_lm内下唇左中点上移量     #56lower_t_lip_rm_o外上唇右中点下移量#11raise_b_lip_rm内下唇右中点上移量     #57raise_b_lip_lm_o外下唇左中点上移量#12raise_l_cornerlip左内唇角上移度      #58raise_b_lip_rm_o外下唇右中点上移量#13raise_r_cornerlip右内唇角上移度      #59raise_l_cornerlip_o  左外唇角上移度#14thrust_jaw下腭突出度                 #60raise_r_cornerlip_o  右外唇角上移度

    (5)利用计算机自动测量或手动测量视频流中面部特征点的运动，计算出相应的汉语静态视位的FAP参数：

    (5.1)定义以下的人脸特征点：

    双鼻孔点，外唇左右角点和上、下唇中点，内唇左右角点和上、下唇中点，侧面图中的鼻尖点，上、下唇突出点和下腭突出点和下腭下角点；还有，外唇上轮廓线上左、右半边的中点，内唇上轮廓线上左、右半边的中点，外唇下轮廓线上左、右半边的中点，内唇下轮廓线上左、右半边的中点；

    (5.2)利用公知技术对上述人脸特征点定位，再根据MPEG-4标准的规定计算相应的汉语静态视位参数FAP；

    (6)通过计算机自动聚类分析产生汉语基本视位集，包括根据聚类误差建立汉语音位的视觉混淆树和选择适当的类别数，它依次包含以下步骤：

    (6.1)设初始表类别数为总视位个数，对声母为M＝20，韵母M＝15，即把每个视位作为一类，设总误差J(M)＝0；

    (6.2)选择两类合并，M＝M-1，设合并后形成类别号为m，类中视位个数为Nm，计算合并后形成的第m个类的类中心：μm(p)=1NmΣk=1NmFapk(p);]]>

    (6.3)在所有可能的两两合并中，选择使得按标准欧氏距离由下式计算出的总的误差最小：，并记录这一类别数的总误差J(M)，其中Fapi(k)表示第k个视位的第p个FAP参数值，P为所采用的总的FAP参数个数；

    (6.4)重复步骤(6.2)、(6.3)步，直到总的类别数减为1；

    (6.5)根据以上几步所得到的不同类别数下每一类中的音位成员，画出按各个音位视位相似性进行合并过程的树状图；

    (6.6)画出误差随类别数变化的曲线，画出视位分类线去选择误差剧烈增加之前的类别数作为最佳的类别；

    (6.7)视位分类线下对应的视位即通过对汉语静态视位分类而得到的汉语基本视位集共20个，现列出如下：

    #0    NA(自动状态)    #7   r          #14  er

    #1    b，p，m         #8   z，c，s    #15  i

    #2    f               #9   a，ang     #16  o

    #3    d，t，n，l      #10  ai，an     #17  ou

    #4    g，k，h         #11  ao         #18  u

    #5    j，q，x         #12  e，eng     #19  ü

    #6    zh，ch，sh      #13  ei，en

    (7)建立一个用于描述某一视位对应的FAP参数变化过程的基于权值融合的动态视位模型WB-DVM(Weight Blending-Dynamic Viseme Model)：

    每个动态视位的FAP参数由一个基本控制权值函数和前、后两个无声模型控制权值函数来决定，三个控制权值函数的基本函数形式都是指数函数，可表示为：W=αeθ|τ|c]]>其中：α给出视位中心处的控制权值幅度；θ为控制权值衰减或增加的速度；|τ|表示当前时刻到控制权值函数中心点时刻的时间距离；c为一常数；α、θ、|τ|、c都大于零；前无声模型控制权值函数Wl为：Wl=αleθl|τ|c---τ<0,]]>Wl=αle-θl|τ|c---τ>0,τ=tsi-tl-t,]]>后无声模型控制权值函数Wr为：Wr=αre-θr|τ|c---τ<0,]]>Wr=αreθr|τ|c---τ>0,τ=tei-tr-t,]]>第i个声母视位基本控制权值函数Wi为：Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tsi-tii-t,]]>第i个韵母视位基本控制权值函数Wi为：Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tci-tfi-t,]]>

    其中tsi、tei、tci分别为语音段的起始时刻、结束时刻和中心时刻，tii为从语音段的开始时刻tsi到声母控制权值函数参数中心点的距离，tfi为从语音段的中心时刻tci到韵母控制权值函数参数中心点的距离，它与韵母的发音长度有关，可记为tfi＝kfi*(tei-tsi)，-0.5≤kfi≤0.5；tl、tr分别表示从前无声模型中心到语音起始时刻和从后无声模型中心到语音结束时刻的时间距离，τ表示当前时刻t到控制权值函数中心点时刻的距离；

    单独发某一音位i时，任意时刻的第p个FAP参数的动态参数值由这三者按其控制权值函数值加权计算得出：Fip(t)=Wi(t)*TipWi(t)+Wl(t)+Wr(t);]]>

    其中T表示视位在其控制权值中心时刻的视位参数值，Tip即指视位i第p个FAP参数的中心处参数值；

    在连续语流中，各个视位的口形受到其周围视位的影响，最终的FAP参数可以由各个FAP参数按基本控制权值函数值加权得到：Fp(t)=(Σi=1I(Wi(t)×Tip))/(Σi=1IWi(t))]]>

    其中的i包含了前、后无声模型，I为协同发音所考虑的视位及无声模型总个数；相邻视位之间的无声模型由前后无声模型相交构成；

    (8)动态视位模型中的各个参数的确定：

    (8.1)需要确定的参数为：

    控制权值函数的指数参数c，

    与前后无声模型有关的参数：αl、αr、θl、θr、tl、tr；

    确定每个视位的参数：αi(中心处控制权值函数值)、θi(-)、θi(+)(由控制函数中心向前和向后的衰减系数)、tfi或kfi(控制权值函数中心与语音中心的时间距离)或tii(控制权值函数中心与语音起始时刻的时间距离)，以及第p个FAP参数的中心处参数值Tip；

    (8.2)估计模型参数，即采用分组、分阶段、分步骤进行机器学习的方法从实际数据中获取：先根据用上述步骤确定的汉语基本静态视位集，对每个静态视位类所对应的音位分别进行发音录像，并用上述FAP参数测量方法得到实际发音过程中的FAP参数，再依次按以下步聚估算：

    (8.2.1)根据经验设定所有FAP参数共用的模型参数的初始值：

    指数参数c＝1.0，tl＝100ms，tr＝60ms；αl＝αr＝1，θl＝θr＝0.03；

    (8.2.2)设置第i个韵母所对应的视位即韵母视位的模型参数αi＝1，θi(-)＝θi(+)＝0.03，kfi＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习，以模型产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，即，其中N为实际测量的音位发音过程中动态视位长度，单位为图像帧，Fapi，k(p)表示第i个韵母视位的第k帧FAP参数p的实测数值，Fap′i，k(p)表示模型生成的第i个韵母视位的第k帧FAP参数p的数值；

    (8.2.3)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差Ji最小，其中各个参数的调节范围为：αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，kfi(-0.5～0.5)；

    (8.2.4)重复步骤(8.2.2)～(8.2.3)，直到学完所有韵母视位的模型参数，并记录总的误差和，其中K为总的韵母视位个数；

    (8.2.5)用上述梯度下降法调节指数参数c和前后无声模型参数tl、tr、αl、αr、θl、θr后返回步骤(8.2.2)，经多次叠代使总的误差和J最小，各个参数的调节范围为：c(0.8～1.2)，tl、tr(0～200ms)，αl、αr (0.5～1.5)，θl、θr、(0.01～0.05)；

    (8.2.6)学习第i个声母所对应的视位参数时，对包括第i个声母的音节进行发音录像，并测得整个音节发音过程的视位参数；

    (8.2.7)设置第i个声母即声母视位的模型参数αi＝1，θi(-)＝θi(+)＝0.03，tii＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习；根据模型参数和上述步骤学得的指数参数c和前后无声模型参数tl、tr、αl、αr、θl、θr以及韵母模型参数计算出整个音节的视位参数，以模型参数产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，，其中N为实际测量的音节发音过程中动态视位长度，单位为图像帧，Fapi，k(p)表示整个音节的第k帧FAP参数p的实测数值，Fap′i，k(p)表示模型生成的整个音节的第k帧FAP参数p的数值；

    (8.2.8)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差Ji最小，其中各个参数的调节范围为：αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，tii(0～200ms)；

    (8.2.9)重复步骤(8.2.6)～(8.2.8)，直到学完所有声母视位的模型参数。

    本发明的系统其特征在于，它含有中央处理器，经总线与中央处理器相连的视频图像采集设备中，声音输入/输出设备，视频图像显示设备、键盘、鼠标以及内存储器。

    实验证明，它达到了预期的目的。附图说明

    图1适用于本发明实施例的计算机系统。

    图2汉语音位-视位参数转换方法和系统的计算机流程图。

    图3双视觉录像及人脸特征点定位的示例图。

    图4汉语韵母静态视位的抽取时刻示意图。

    图5汉语声母静态视位的抽取时刻示意图。

    图6嘴唇轮廓定位用的变形模板曲线图。

    图7汉语静态视位分类的程序流程图。

    图8是根据误差最小原则建立的汉语声母和韵母音位的视觉混淆树。

    图9分别汉语声母和韵母视位在合并过程中总的分类误差随视位分类数变化的曲线。

    图10汉语动态视位模型的控制权值函数及FAP参数变化过程示意图。

    图11连续语流中的无声模型构成的示意图。

    图12汉语动态视位模型参数学习过程的示意图。

    图13音位-视位转换系统流程图。

    图14汉语基本视位集和动态视位模型建立方法的基本流程图。具体实施方式

    图1描述了一个适用于本发明实施例的计算机系统。该计算机系统包括中央处理器(CPU)和一些输入输出设备，如键盘、鼠标、显示器等。还可以包括视频图像采集设备、声音输入输出设备等。实施本发明的软件存储在内存中，CPU可以对内存进行存取，并运行相应的指令，以获得本发明的实施结果。

    图2是汉语音位-视位参数转换方法和系统的计算机流程图。图中右半部分是从汉语音位集生成汉语基本视位集和动态视位模型的过程。左半部分是由汉语音位转换成视位参数的过程。下面将逐一解释之。

    从图2中看出，首先选定需要录像和录音的汉语音位[模块2]。我们参照《汉语拼音方案》、《现代汉语词典》，根据汉语发音规则和音位发音过程中参数的变化规律，选定建立汉语视位所需音位列表，如表1和表2。表1是建立基本视位集所需音位或音位序列，包括汉语声母、单元音韵母、前响的二合元音韵母，共计36个声韵母视位，需要对这些音位进行发音录像。表二是不在表一中的其他复合元音音位，它们所对应的视位由表一中的元音视位组合而成。

    表1  建立基本视位集所需音位列表    声母音位/b/，/p/，/m/，/f/，/d/，/t/，/l/，/n/，/g/，/k/，/h/，/j/，/q/，/x/，/zh/，/ch/，/sh/，/r/，/z/，                   /c/，/s/    单元音韵母音位       /a/，/o/，/e/，/i/，/u/，/ü/前响二合元音韵母音位/an/，/ai/，/ao/，/ang/，/ei/，/en/，/eng/，                 /er/，/ou/

    对于不包括在汉语基本静态视位中的音位，如汉语中后响二合元音韵母和三合元音韵母，可以根据一定规则将其分解为基本静态视位，分解方法如表2所示。

    表2复合元音的视位由表一中的元音视位组合而成    /ia/＝/i/+/a/，/ie/＝/i/+/e/，/in/＝/i/+/ei/，  /ing/＝/i/+/eng/，/iao/＝/i/+/ao/，/iou/＝/i/+/ou/  /ian/＝/i/+/an/，/iang/＝/i/+/ang/，/ua/＝/u/+/a/，      /uo/＝/u／+/o/，/uai/＝/u/+/ai/  /uei/＝/u/+/ei/，/uan/＝/u/+/an/，/un/＝/u/+/en/，      /uang/＝/u/+/ang/，/ueng(ong)/＝/u/+/eng/    /üan/＝/ü/+/an/，/üe/＝/ü/+/e/，/ün/＝/ü/+/ei/

    关于汉语声韵母、辅音、元音及前响、后响的定义可参见《汉语拼音方案》、《现代汉语词典》。

    首先选择发音人，读出表一中的所有声韵母[模块2]。放置与人脸正面成45度角的镜子录像，同步获得人脸正面和侧面图像，如图3。完成双视角的同步录像和录音。

    通过数字图像采集卡，将录像数据转换为音视频同步的数字图像数据，数据格式为Windows AVI文件。

    静态视位是指代表某音位发音过程中某一时刻的一帧典型的面部图像。基于音频视频流，选择适当时刻作为抽取静态视位的时刻[模块3]。如图3是发某音位时的视位图像。通过对汉语发音特点的研究，我们提出一种基于短时能量的确定汉语静态视位抽取时刻的方法。语音的短时能量的计算已如上述。我们发现，在人们对一个包括声母和韵母的汉语音节发音过程中，汉语韵母所占时间较长，在发音的中部能量呈现稳定的状态，口形也呈稳定状态。因此应取语音短时能量的中心时刻作为韵母静态视位的抽取时刻，如图4所示，图中实线为语音的短时能量随时间变化曲线，虚线为外唇高度变化曲线，竖直线所对应的横轴坐标为韵母静态视位抽取时刻；对于声母，其视位在声音发出前已形成，在发音过程中向韵母视位过渡。因此，我们取语音短时能量的起始时刻作为声母静态视位的抽取时刻，如图5所示。外唇高度数据指外上唇中点到外下唇中点的距离，具体获取方法在下述的嘴唇轮廓的定位。

    对于视位参数，发明中对视位的描述采用MPEG-4(ISO/IEC 14496-2)所定义的人脸动画FAP参数[模块4]，从MPEG-4所定义的68个FAP参数中选取24个来描述汉语视位，包括FAP3#-FAP14#，FAP16#-FAP17#，FAP51#-FAP60#，如表3所示：

                               表3  描述汉语视位的FAP参数  FAP#    名称    说明  FAP  #    名称    说明    3  open_jaw  下腭张开度  16  push_b_lip    下唇突出度    4 lower_t_midli       p内上唇中点下移量  17  push_t_lip    上唇突出度    5 raise_b_midli       p内下唇中点上移量  51  lower_t_lip_o  外上唇中点下移量    6 stretch_l_cor      nerlip  左内唇角拉开度  52  raise_b_midlip_o  外下唇中点上移量    7 stretch_r_con    erlip  右内唇角拉开度  53  stretch_l_corner        lip_o  左外唇角拉开度    8 lower_t_lip_l       m内上唇左中点下移    量  54  stretch_r_conerl        ip_o  右外唇角拉开度    9 lower_t_lip_r       m内上唇右中点下移    量  55  lower_t_lip_lm_o  外上唇左中点下移    量    10 raise_b_lip_l       m内下唇左中点上移    量  56  lower_t_lip_rm_o  外上唇右中点下移    量    11 raise_b_lip_r       m内下唇右中点上移    量  57  raise_b_lip_lm_o  外下唇左中点上移    量    12 raise_l_corne     rlip  左内唇角上移度  58  raise_b_lip_rm_o  外下唇右中点上移    量  13 raise_r_corne      rlip  右内唇角上移度  59  raise_l_cornerli        p_o  左外唇角上移度  14  thrust_jaw    下腭突出度  60  raise_r_cornerli        p_o  右外唇角上移度

    人脸特征点的定位

    双鼻孔点的定位：

    在上一帧图像中标出的双鼻孔点周围确定矩形框。设上一帧图像中双鼻孔点间距为K像素，则矩形框的左边界为从上一帧的左鼻孔点向左移K像素，右边界为从上一帧的右鼻孔点向右移K像素，上下边界分别为从上一帧图像中双鼻孔点水平均值向上和向下移K像素。对此矩形框内的所有像素计算其亮度，对最暗的20％像素以区域水平中心为界分左右两部分计算其重心，即定为本帧图像中的双鼻孔点。计算公式如下：x=1MΣi=1Mxi]]>y=1MΣi=1Myi]]>

    其中xi、yi分别为第i个暗区像素点的横坐标和纵坐标，M为总的左边或右边暗区像素点个数，x、y为计算出的左边或右边暗鼻孔点坐标。

    嘴唇轮廓的定位：

    在采用变形模板(Deformable Template)的方法，分别用二次曲线和四次曲线来拟合内外唇轮廓线，如图6所示。

    内唇曲线由两个二次曲线组成，其方程为：上唇：y=h3(1-x2wi2)]]>下唇：y=h4(1-x2wi2)]]>

    其中h3和h4分别为模板中心到内上唇和内下唇点的距离，wi为内唇宽度的一半；

    外上唇曲线由两个四次曲线组成，外下唇曲线由一个四次曲线组成，其曲线方程分别为：外上唇左半部分：y=h1(1-(x+a)2wo2)+4q1((x+a)4wo4-(x+a)2wo2)]]>外上唇右半部分：y=h1(1-(x-a)2wo2)+4q1((x-a)4wo4-(x-a)2wo2)]]>外下唇：y=h2(1-x2wo2)+4q2(x4wo4-x2wo2)]]>

    其中h1和h2分别为模板中心到外上唇和外下唇点的距离，wo为外唇宽度的一半，a表示四次上唇曲线中心处与上唇中点的距离，q1和q2表示曲线与二次曲线的差别大小，详见图6。

    侧面图中特征点的定位：

    设初始侧面图中手动标出的鼻尖点到下腭下角点的距离为M像素，分别以鼻尖点左移M/3像素和右移M/3像素为肤色点和背景点，记录其像素值。在后续图像帧中，对上一帧图中鼻尖点左移2*M/3、右移M/3、上移M/5、下移3*M/2构成的矩形框内所有像素点分为肤色点和背景点，从右向左找出边缘轮廓线，边缘轮廓线上最右三点分别为鼻尖点、下唇突出点和下唇突出点。下腭下角点为曲线上下唇突出点以下斜率等于1的点，下腭突出点为下唇突出点与下腭下角点纵向中点处的边缘点。

    人脸动画参数FAP的计算：

    由初始点位置计算出口鼻距离MNSO(我们以左右鼻孔点的中点到内上唇中点的距离近似)和外唇宽度MWO，并根据MNS＝MNSO/1024和MW＝MWO/1024转换为MNS和MW。在后续帧中根据特征点相对于初始点位置的位移量，可以按照MPEG-4标准的规定算出相应的FAP参数。

    对测量得到的每个音位所对应的FAP参数进行聚类分析[模块6]，即对相似的静态视位进行合并，找到所有音位中有区别又具代表性的静态视位。其集合称为汉语基本视位集。图7是汉语静态视位分类的程序流程图。考虑到声母与韵母的差别，聚类分析在声母和韵母间分别进行，首先根据误差最小原则建立的汉语声母和韵母音位的视觉混淆树，其步骤如上所述。

    在图8中，最下端是所有待合并的视位，最上端将所有视位合为一类。中间每一次将两个类别合并，合并处的纵坐标代表了合并误差的大小，合并处纵坐标越小，说明这两类的相似性越强。其中图8(a)是声母视位，图8(b)是韵母视位。

    如图9所示，误差并非线性变化，应该选择误差剧烈增加之前的类别数作为最佳的类别。图9中虚线中一种选择结果所对应的视位分类线。其中图9(a)是声母视位，图9(b)是韵母视位。表4即得到汉语基本视位集。

                  表4汉语基本视位集基本视位序号  汉语音位基本视位序号  汉语音位    0    NA    9    a，ang    1    b，p，m    10    ai，an    2    f    11    ao    3    d，t，n，l    12    e，eng    4    g，k，h    13    ei，en    5    j，q，x    14    er    6    zh，ch，sh    15    i    7    r    16    o    8    z，c，s    17    ou    18    u    19    ü

    本发明中所述的基于权值融合的动态视位模型WB-DVM(Weight Blending-DynamicViseme Model)是一个用来描述某一视位所对应的FAP参数变化过程的数学模型[模块7]。

    通过对大量发音录像的观察和跟踪处理后我们发现，在人们开始发音时，面部表情超前于语音，如声音未发出之前，嘴已开始动；在人们结束发音时，面部表情滞后于语音，如声音停止后，嘴还未合上。面部表情经历了一个从无到有再逐渐消失的过程。因此我们将每个动态视位的FAP参数由一个基本控制权值函数和前后两个无声模型控制权值函数来决定。整个动态视位的参数变化过程由静态FAP参数在这三个控制权值函数共同作用下形成，其建模过程已如上述。

    表5就是在不同控制权值函数中动态视位模型的各个参数，其定义已如上述。

          表5不同控制权值函数中动态视位模型的各个参数  参数值第i个声母视位基本控制    权值第i个韵母视位基本控制    权值  前无声模型  控制权值  后无声模型  控制权值  α               αi    αl    αr  θ(τ＜0)               -θi(-)    θl    -θr  θ(τ＞0)               -θi(+)    -θl    θr  τ    tsi-tii-t  tci-tfi-t    tsi-tl-t    tei+tr-t

    以上各个时刻与时间段的关系、控制权值函数曲线及最终FAP参数曲线见图10所示。图中横坐标代表时间，上部分的纵坐标代表控制权值函数值，下半部分的纵坐标代表FAP参数值(对于实线)和语音能量值(对于虚线)。图中上半部分为前、后无声模型与视位模型的控制权值函数曲线，其中前、后无声模型控制权值函数曲线中超出2.2的部分以直线代替，但其实际值是以指数上升的。图中上半部分中的虚直线指出了三个α系数，并假定αi＝αl＝αr。图中下半部分中的虚线为语音能量的示意图，虚直线在横坐标上指出了语音时间中心。在图11中，虚线表示在连续语流中前后两个无声模型相交后抛弃的部分，中间的实线表示新构成的无声模型权值函数曲线。

    动态视位模型中的各个参数和确定方法已如上述。其动态视位模型参数学习流程见图12。

    本发明用于单位—视位参数转换系统的主流程图见图13。其汉语基本视位集和动态视位模型的建立方法的基本流程图见图14。

    下面以读“大学”一词时视位参数转换为例加以具体说明。

    1、所需视位动态视位模型的建立：

    (1)“大学”一词的拼音串为’da xue’，涉及到的音位有’d’、’a’、’x’、’ ü’和’e’；

    (2)将包括’a’、 ’e’、’i’、’ü’、’xi’和’de’音节发音的录像和录音数据读入计算机内存(取’i’是为了与’xi’相结合学习声母视位’x’的模型参数)，其中图像的采样率为25Hz，分辨率为720X576像素；语音的采样率为11.025kHz，16bit量化；

    (3)利用计算机计算语音的短时能量，帧长采用40ms，每帧样本点个数为N＝300；统计所有帧短时能量的最大值Emax和最小值Emin以TH＝Emin+(Emax-Emin)/10为阈值区分出所有时间范围内的语音段和无声段。

    (4)根据已知录音文本的顺序，得到音节’de’、’xi’、’a’、’e’、’i’和’ü’对应的语音段时间范围，如表6中第3、4列所示；根据韵母取语音中心时刻、声母取语音起始时刻的原则，得到对应的静态视位时间分别如表6中第6列所示。

                         表6各个视位在录像中相关时刻      音节视位起始时刻(ms)语音起始时刻(ms)语音结束时刻(ms)视位结束时刻(ms)视位提取时刻(ms)    ‘de’  10360  11120  11520  11600  11120    ’xi’  30000  30320  30920  30920  30320    ‘a’  48360  49120  49640  49880  49380    ‘e’  52120  52560  53240  53360  52900    ‘i’  54080  54400  55040  55360  54720    ’ü’  57360  58040  58760  58920  58400

    (5)按对模块5说明中所述的方法测出面部各特征点的位置并计算得出每个静态视位的FAP参数，如下表7所示：  FAP#  ‘d’‘x’  ‘a’  ‘e’ ’i’  ’ü’    3  173133 251 193 154 208    4  -38-19 -19 -77 -77 62    5  -212-222 -289 -212 -212 -292    6  -43-21 -43 -10 0 -54    7  -43-21 -43 -10 0 -54    8  -38-38 -38 -38 -38 62    9  -38-38 -38 -38 -38 62    10  -251-251 -309 -212 -193 -334    11  -251-251 -309 -212 -193 -334    12  -96-77 -154 -115 -77 -167    13  -96-77 -154 -115 -77 -167    14  -5719 -135 -19 0 -146    16  -1996 -77 19 19 41    17  3877 57 57 57 146    51  -38-19 -19 0 -19 62    52  -212-222 -289 -193 -173 -292    53  -43-21 -43 -43 -21 -54    54  -43-21 -43 -43 -21 -54    55  3819 19 19 38 62    56  3819 19 19 38 62    57  -173-173 -251 -154 -135 -250  58 -173 -173 -251 -154 -135 -250  59 -96 -77 -154 -115 -77 -167  60 -96 -77 -154 -115 -77 -167

    (6)因为面部动作超前于语音开始并滞后于语音结束，可以从各个音节的语音开始处向前找到视位开始时刻，从语音结束处向后找到视位结束时刻。以FAP3#和FAP4#及FAP5#都等于零作为搜索终止条件。得到音节’de’、’xi’、’a’、’e’、’i’和’ü’对应的视位时间范围，如表6中第2、5列所示。对应的图像帧数分别为32、24、39、32、33和40。

    (7)对于得到的原始视位参数，按图12所示的学习流程，得到视位’a’、’e’、’i’、’ü’、’x’和’d’的动态视位模型参数。具体学习过程如下：

    (A)设定初始参数值：指数系数c＝1.0，前后无声模型参数tl＝100ms，tr＝60ms，αl＝αr＝1，θl＝θr＝0.03；

    (B)设置韵母视位’a’(视位编号为’9’)的模型参数α9＝1，θ9(-)＝θ9(+)＝0.03，kf9＝0，设置初始中心处参数值为静态视位的FAP参数值，如表5中第2列所示。实际跟踪得出的视位时长1580ms，根据以上设定的模型参数和式(4)计算出合成的各个FAP参数值，并计算误差平方和，即，式中p的取值范围为所有用到的FAP参数号，即3～14，16～17，51～60。设定各个参数的改变步进量为：Δα＝0.05、Δθ＝0.005、ΔT＝10、Δk＝0.05，分别将各参数减少和增加其步进量后计算出新的误差平方和J9-和J9+，利用梯度下降法调节各个参数，经多次叠代使得总的误差J9最小。各个参数的调节范围为：αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，kfi(-0.5～0.5)。最终得到视位’a’在固定系数c及无声模型参数情况下的一组最佳参数。(C)重复(B)学习韵母视位’e’、’i’、’ü’，并记录总的误差和

    (D)设定各个参数的改变步进量为：Δc＝0.05、Δα＝0.05、Δθ＝0.005、Δk＝0.05，分别将各参数减少和增加其步进量后计算出新的误差平方和J-和J+，根据梯度下降法调节指数系数c和前后无声模型各个参数tl、tr、αl、αr、θl、θr，各个参数的调节范围为：c(0.8～1.2)，tl、tr(0～200ms)、αl、αr(0.5～1.5)，θl、θr、(0.01～0.05)。然后返回(E)，经多次重复(B)、(C)、(D)叠代使总的误差和J最小，找到最佳的指数系数和无声模型参数。

    学习得到的指数系数为：c＝0.9663，前后无声模型参数tl＝64ms，tr＝45ms，αl＝0.8383，αr＝0.9332，θl＝0.0351，θr＝0.0479；及四个韵母视位参数如下表所示：

                     表8韵母视位动态视位模型的参数值  视位    αi    θi(-)    θi(+)    kfi FAP3#中  心值T3    ‘a’  1.1558  0.0225  0.0212  0.177    283    ‘e’  1.1867  0.0223  0.0225  0.190    207    ‘i’  1.1279  0.0208  0.0250  0.143    170    ’ü’  1.1974  0.0203  0.0225  0.135    222

    (F)根据以上步骤确定的指数参数、无声模型参数和韵母视位模型’e’的参数，从音节’de’中学习声母视位’d’的视位模型参数：设置声母视位’d’(视位编号为’3’)的模型参数α3＝1，θ3(-)＝θ3(+)＝0.03，tf3＝50ms，实际跟踪得出的音节’de’的视位时长1240ms，根据以上得出的指数系数、前后无声模型参数以及韵母’e’的视位模型参数，可由式(4)计算出合成的各个时刻的FAP参数值，并计算出合成值与实际跟踪值的误差平方和，即，式中p的取值范围为所有用到的FAP参数号，即3～14，16～17，51～60。设定各个参数的改变步进量为：Δα＝0.05、Δθ＝0.005、ΔT＝10、Δt＝20ms，分别将各参数减少和增加其步进量后计算出新的误差平方和J3-和J3+，利用梯度下降法调节各个参数，经多次叠代使得总的误差J3最小。各个参数的调节范围为：α3(0.5～1.5)，θ3(-)、θ3(+)(0.01～0.05)，ti3(0～200ms)。最终得到声母视位’d’的模型参数为：α3＝1.2432，θ3(-)＝0.0457、θ3(+)＝0.0432，ti3＝8ms、FAP3#中心值T3＝156。

    与学习视位’d’模型参数的方法相同，利用指数系数、前后无声模型参数以及韵母’i’的视位模型参数，从音节’xi’中学习声母视位’x’的模型参参数。最终得到声母视位’x’的模型参数为：α5＝1.1982，θ5(-)＝0.0361、θ5(+)＝0.0354，ti5＝5ms、FAP3#中心值T5＝125。

    2、音位到视位参数的转换：

    (1)查找静态视位集中声韵母与视位类别号的对应关系得到下面的静态视位号序列(前后有无声模型，中间没有语音停顿，无声模型自动消失)：    NA    d    a    x    ü    e    NA    0    3    9    5    19    12    0

    (2)根据语音合成系统从语音库中得到对应各音位的时长如下(也可以人为指定，单位为ms)：   NA     d    a   x    ü    e    NA  150    50  130  80  200  100    70

    总的视位参数变化过程为780ms。

    (3)设对某一视位的协同发音只考虑其前后相邻的两个视位对它的影响，则根据(2)可得到计算不同时间范围内的视位参数时所用到的动态视位模型编号如下表所示：  0～  150ms  150～  200ms  200～  330ms  330～  410ms  410～  610ms  610～  710ms  710～  780ms  0-3  0-3-9  3-9-5  9-5-19  5-19-12  19-12-0  12-0

    (4)在以上各个时间段内，根据所用到的动态视位模型可由(4)式计算出任意时刻视位参数值。下表计算出的各时刻下腭张开度(FAP3#)参数值，其他参数计算方法相同。帧序号1 2 3 4 5 6 7 8 9时间(ms)0 40 80 120 160 200 240 280 320 FAP3#0 4 34 133 187 253 259 212 153帧序号10 11 12 13 14 15 16 17 18时间(ms)360 400 440 480 520 560 600 640 680 FAP3#170 202 218 221 219 215 209 206 194帧序号19 20时间(ms)720 760 FAP3#117 21