口语纠错方法及设备.pdf

上传人:b*** 文档编号:4594928 上传时间:2018-10-21 格式:PDF 页数:10 大小:1.07MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410790090.9

申请日:

2014.12.17

公开号:

CN104505089A

公开日:

2015.04.08

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G10L 15/02申请日:20141217|||公开

IPC分类号:

G10L15/02; G10L15/19(2013.01)I; G10L25/51(2013.01)I

主分类号:

G10L15/02

申请人:

福建网龙计算机网络信息技术有限公司

发明人:

关胤; 刘德建; 陈宏展; 刘进学; 林伟; 吴拥民

地址:

350000福建省福州市开发区星发路8号生产力促进中心大厦三层301室

优先权:

专利代理机构:

福州市鼓楼区京华专利事务所(普通合伙)35212

代理人:

林晓琴

PDF下载: PDF下载
内容摘要

本发明提供一种口语纠错方法,包括客户端流程和服务端流程;所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。本发明的计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。

权利要求书

1.  一种口语纠错方法,其特征在于:包括客户端流程和服务端流程;
所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;
所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。

2.
  根据权利要求1所述的口语纠错方法,其特征在于:
所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
步骤24、根据A和B计算每个词元的综合得分。

3.
  根据权利要求1或2所述的口语纠错方法,其特征在于:所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。

4.
  根据权利要求2或3所述的口语纠错方法,其特征在于:所述骤12中对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。

5.
  根据权利要求1所述的口语纠错方法,其特征在于:所述步骤21中的参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;
所述步骤24中所述图像特征是通过对唇部图像进行SVD分解得到。

6.
  一种口语纠错设备,其特征在于:包括:
客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;
服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。

7.
  根据权利要求6所述的口语纠错设备,其特征在于:
所述客户端具体包括:
采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至 服务端;
所述服务端具体包括:
获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;
词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
综合得分计算模块,用于根据A和B计算每个词元的综合得分。

8.
  根据权利要求7所述的口语纠错设备,其特征在于:所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。

9.
  根据权利要求7所述的口语纠错设备,其特征在于:所述检测模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。

10.
  根据权利要求7所述的口语纠错设备,其特征在于:
所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;
所述图像特征是通过对唇部图像进行SVD分解得到的。

说明书

口语纠错方法及设备
技术领域
本发明涉及口语评测技术领域,特别涉及一种口语纠错方法及设备。
背景技术
口语评测技术是结合语音识别相关技术,对口语学习者根据给定文本或自由朗读进行评测,给出其口语水平的自动评分,并提示发音有误的单词,短语或句子。
传统的口语评测技术,通常针对口语学习者的朗读语音进行分析评测,例如中国发明第200710135346.2,201310034371.7,以及201010266766.6号等,均属于这种情况。中国发明专利第201110085339.2号则公开了一种融合口型图像识别与说话人情绪检测等多维度特征的评测方法,提出了有别于与传统口语评测技术的优化方案,达到较好的技术效果。
众所周知,平板设备越来越成为我们生活中不可缺少的部分,而且在加速向低年龄的儿童渗透。触屏界面使得计算机更加易用,成为了儿童可以很快上手的上网、娱乐和学习终端。虽然平板的娱乐性会让人担忧,但是只要家长善于引导,它也可以帮助儿童学习知识、提高智力,成为一个出色的教育工具。引入融合多维度特征的口语评测方法可以很好地增强教育平板的语言教学应用效果。但是,上述发明口型图像识别处理过程计算量大,对于CPU和电池受限的平板设备而言,需要进一步优化才可有效使用。
发明内容
本发明要解决的技术问题之一,在于提供一种口语纠错方法,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
本发明要解决的技术问题之一是这样实现的:一种口语纠错方法,包括客户端流程和服务端流程;所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声 音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
进一步的,所述客户端流程包括:
所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
步骤24、根据A和B计算每个词元的综合得分。
进一步的,所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。
进一步的,所述步骤12中对时间窗内视频数据抽取图像帧的方法为: 获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。且所述步骤24中所述图像特征是通过对唇部图像进行SVD分解得到。
本发明要解决的技术问题之二,在于提供一种口语纠错设备,其口型图像识别处理过程计算量小,可减少传输量,且效率高,便于在平板设备中推广。
本发明要解决的技术问题之二是这样实现的:一种口语纠错设备,其特征在于:包括客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
进一步的,所述客户端具体包括:采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端具体包括:获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;综合得分计算模 块,用于根据A和B计算每个词元的综合得分。
进一步的,所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。
进一步的,所述检测分析模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。
进一步的,所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;所述图像特征是通过对唇部图像进行SVD分解得到的。
本发明具有如下优点:本发明采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法客户端的执行流程图。
图2为本发明方法服务端的执行流程图。
具体实施方式
本发明的口语纠错方法,包括客户端流程和服务端流程。所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的 图像特征,计算图像得分B,根据A和B计算获得综合得分。这种采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
如图1所示,所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
其中,对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。更具体的,首先对图像进行等宽高比例压缩,使其最长边为256px,再对此压缩图像进行人脸检测,获取局部区域后,再将该局部区域坐标映射到原图像,并从原图像上截取局部图像,并将该局部图像等宽高比例压缩,使其最长边为256px。
对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。更具体的,对E,EM进行归一化处理,使EM为1.0,E为一取值0~1.0的实数,取b为1.0,a为1.0。
如图2所示,所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动 图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;所述图像特征是通过对唇部图像进行SVD分解得到的。
步骤24、根据A和B计算每个词元的综合得分。
本发明的口语纠错设备,包括客户端和服务端,所述客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。这种采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
所述客户端具体包括:
采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
其中,所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。更具体的,首先对图像进行等宽高比例压缩,使其最长边为256px,再对此压缩图像进行人脸检测,获取局部区域后,再将该局部区域坐标映射到原图像,并从原图像上截取局部图像,并将该局部图像等宽高比例压缩,使其最长边为256px。
所述检测分析模块对时间窗内视频数据抽取图像帧的方法为:获取每帧 图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。更具体的,对E,EM进行归一化处理,使EM为1.0,E为一取值0~1.0的实数,取b为1.0,a为1.0。
所述服务端具体包括:
获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;
词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;所述图像特征是通过对唇部图像进行SVD分解得到的。
综合得分计算模块,用于根据A和B计算每个词元的综合得分。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

口语纠错方法及设备.pdf_第1页
第1页 / 共10页
口语纠错方法及设备.pdf_第2页
第2页 / 共10页
口语纠错方法及设备.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《口语纠错方法及设备.pdf》由会员分享,可在线阅读,更多相关《口语纠错方法及设备.pdf(10页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410790090.9 (22)申请日 2014.12.17 G10L 15/02(2006.01) G10L 15/19(2013.01) G10L 25/51(2013.01) (71)申请人 福建网龙计算机网络信息技术有限 公司 地址 350000 福建省福州市开发区星发路 8 号生产力促进中心大厦三层 301 室 (72)发明人 关胤 刘德建 陈宏展 刘进学 林伟 吴拥民 (74)专利代理机构 福州市鼓楼区京华专利事务 所 ( 普通合伙 ) 35212 代理人 林晓琴 (54) 发明名称 口语纠错方法及设备 (57) 摘要 。

2、本发明提供一种口语纠错方法, 包括客户端 流程和服务端流程 ; 所述客户端流程包括采集声 音数据及视频数据, 根据声音数据进行端点检测, 根据端点检测得到的时间窗截取对应时间的声音 数据及视频数据, 将获取的声音、 视频数据发送至 服务端 ; 所述服务端流程包括获取客户端发送语 音、 视频数据 ; 获取一参考文本, 根据所述参考文 本获取词元序列, 利用词元序列及语音数据, 得到 发音得分 A 及每个词元发音时间, 利用视频数据 提取唇部区域的图像特征, 计算图像得分 B, 根据 A 和 B 计算获得综合得分。本发明的计算过程是 通过客户端上传到服务器进行云计算, 其客户端 识别处理过程计算量。

3、小, 且效率高, 便于在平板设 备中推广。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图2页 (10)申请公布号 CN 104505089 A (43)申请公布日 2015.04.08 CN 104505089 A 1/2 页 2 1.一种口语纠错方法, 其特征在于 : 包括客户端流程和服务端流程 ; 所述客户端流程包括采集声音数据及视频数据, 根据声音数据进行端点检测, 根据端 点检测得到的时间窗截取对应时间的声音数据及视频数据, 将获取的声音、 视频数据发送 至服务端 ; 所述服务端流程包括获取客户端发送语音、 视频数。

4、据 ; 获取一参考文本, 根据所述参考 文本获取词元序列, 利用词元序列及语音数据, 得到发音得分 A 及每个词元发音时间, 利用 视频数据提取唇部区域的图像特征, 计算图像得分 B, 根据 A 和 B 计算获得综合得分。 2.根据权利要求 1 所述的口语纠错方法, 其特征在于 : 所述客户端流程具体包括 : 步骤 11、 每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据 ; 步骤 12、 对语音数据进行端点检测, 获取时间窗, 对时间窗内视频数据提取若干帧图 像, 并对其进行人脸检测, 如果人脸检测通过率达一给定阈值, 则标注为有效数据, 并将给 时间窗内对应的语音数据及视频数。

5、据发送至服务端 ; 所述服务端流程具体包括 : 步骤 21、 获取客户端发送语音及图像数据, 获取参考文本数据 ; 步骤 22、 采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及 得分 A ; 步骤 23、 从所述视频图像序列中检测出人脸的位置 ; 利用主动外观模型 AAM 在人脸区 域中定位内外唇的精确位置, 并输出唇部的特征点位置, 并生成唇动视频序列 ; 将唇动视频 序列以词元为单位分割成若干个音元唇动图像序列 ; 针对音元唇动图像序列中的每帧图 像, 提取唇部区域的图像特征 ; 将所述图像特征与数据库中对应音元特征模型比对, 得到该 音元得分 B ; 步骤 24、 根。

6、据 A 和 B 计算每个词元的综合得分。 3.根据权利要求 1 或 2 所述的口语纠错方法, 其特征在于 : 所述步骤 12 中对时间窗内 视频数据抽取若干帧图像执行人脸检测, 获得一宽为 w、 高为 h 的矩形区域 ; 截取该区域下 段宽为 w、 高为 h/2 范围内的局部图像数据 ; 以此局部图像数据上传至服务端。 4.根据权利要求 2 或 3 所述的口语纠错方法, 其特征在于 : 所述骤 12 中对时间窗内视 频数据抽取图像帧的方法为 : 获取每帧图像对应时间内的音频能量值 E, 对所有能量值求 最大值 EM, 对每帧图像, 以概率 a*(E/(EM+b) 抽取, 其中 a、 b 为给定。

7、参数, 用于调和抽取图 像帧的总数。 5.根据权利要求 1 所述的口语纠错方法, 其特征在于 : 所述步骤 21 中的参考文本数据 由客户端上传, 或由客户端上传一指定 ID, 服务端根据 ID 获取实现保存的文本数据, 或由 服务端根据客户端发送的语音数据进行语音识别处理获取 ; 所述步骤 24 中所述图像特征是通过对唇部图像进行 SVD 分解得到。 6.一种口语纠错设备, 其特征在于 : 包括 : 客户端, 采集声音数据及视频数据, 根据声音数据进行端点检测, 根据端点检测得到的 时间窗截取对应时间的声音数据及视频数据, 将获取的声音、 视频数据发送至服务端 ; 服务端, 获取客户端发送语。

8、音、 视频数据 ; 获取一参考文本, 根据所述参考文本获取词 元序列, 利用词元序列及语音数据, 得到发音得分 A 及每个词元发音时间, 利用视频数据提 权 利 要 求 书 CN 104505089 A 2 2/2 页 3 取唇部区域的图像特征, 计算图像得分 B, 根据 A 和 B 计算获得综合得分。 7.根据权利要求 6 所述的口语纠错设备, 其特征在于 : 所述客户端具体包括 : 采集模块, 每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据 ; 检测模块, 对语音数据进行端点检测, 获取时间窗, 对时间窗内视频数据提取若干帧图 像, 并对其进行人脸检测, 如果人脸检测通过率。

9、达一给定阈值, 则标注为有效数据, 并将给 时间窗内对应的语音数据及视频数据发送至服务端 ; 所述服务端具体包括 : 获取文本及语音数据模块, 获取客户端发送语音及图像数据, 获取参考文本数据 ; 词元分析模块, 采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音 时间及得分 A ; 检测分析模块, 从所述视频图像序列中检测出人脸的位置 ; 利用主动外观模型 AAM 在 人脸区域中定位内外唇的精确位置, 并输出唇部的特征点位置, 并生成唇动视频序列 ; 将唇 动视频序列以词元为单位分割成若干个音元唇动图像序列 ; 针对音元唇动图像序列中的每 帧图像, 提取唇部区域的图像特征 ; 将所。

10、述图像特征与数据库中对应音元特征模型比对, 得 到该音元得分 B ; 综合得分计算模块, 用于根据 A 和 B 计算每个词元的综合得分。 8.根据权利要求 7 所述的口语纠错设备, 其特征在于 : 所述检测模块对时间窗内视频 数据抽取若干帧图像执行人脸检测, 获得一宽为 w、 高为 h 的矩形区域 ; 截取该区域下段宽 为 w、 高为 h/2 范围内的局部图像数据 ; 以此局部图像数据上传至服务端。 9.根据权利要求 7 所述的口语纠错设备, 其特征在于 : 所述检测模块对时间窗内视频 数据抽取图像帧的方法为 : 获取每帧图像对应时间内的音频能量值 E, 对所有能量值求最 大值 EM, 对每帧。

11、图像, 以概率 a*(E/(EM+b) 抽取 , 其中 a、 b 为给定参数, 用于调和抽取图 像帧的总数。 10.根据权利要求 7 所述的口语纠错设备, 其特征在于 : 所述参考文本数据由客户端上传, 或由客户端上传一指定 ID, 服务端根据 ID 获取实现 保存的文本数据, 或由服务端根据客户端发送的语音数据进行语音识别处理获取 ; 所述图像特征是通过对唇部图像进行 SVD 分解得到的。 权 利 要 求 书 CN 104505089 A 3 1/5 页 4 口语纠错方法及设备 技术领域 0001 本发明涉及口语评测技术领域, 特别涉及一种口语纠错方法及设备。 背景技术 0002 口语评测技。

12、术是结合语音识别相关技术, 对口语学习者根据给定文本或自由朗读 进行评测, 给出其口语水平的自动评分, 并提示发音有误的单词, 短语或句子。 0003 传统的口语评测技术, 通常针对口语学习者的朗读语音进行分析评测, 例如中国 发明第200710135346.2, 201310034371.7, 以及201010266766.6号等, 均属于这种情况。 中 国发明专利第 201110085339.2 号则公开了一种融合口型图像识别与说话人情绪检测等多 维度特征的评测方法, 提出了有别于与传统口语评测技术的优化方案, 达到较好的技术效 果。 0004 众所周知, 平板设备越来越成为我们生活中不可。

13、缺少的部分, 而且在加速向低年 龄的儿童渗透。 触屏界面使得计算机更加易用, 成为了儿童可以很快上手的上网、 娱乐和学 习终端。 虽然平板的娱乐性会让人担忧, 但是只要家长善于引导, 它也可以帮助儿童学习知 识、 提高智力, 成为一个出色的教育工具。 引入融合多维度特征的口语评测方法可以很好地 增强教育平板的语言教学应用效果。 但是, 上述发明口型图像识别处理过程计算量大, 对于 CPU 和电池受限的平板设备而言, 需要进一步优化才可有效使用。 发明内容 0005 本发明要解决的技术问题之一, 在于提供一种口语纠错方法, 其客户端识别处理 过程计算量小, 且效率高, 便于在平板设备中推广。 0。

14、006 本发明要解决的技术问题之一是这样实现的 : 一种口语纠错方法, 包括客户端流 程和服务端流程 ; 所述客户端流程包括采集声音数据及视频数据, 根据声音数据进行端点 检测, 根据端点检测得到的时间窗截取对应时间的声音数据及视频数据, 将获取的声音、 视 频数据发送至服务端 ; 所述服务端流程包括获取客户端发送语音、 视频数据 ; 获取一参考 文本, 根据所述参考文本获取词元序列, 利用词元序列及语音数据, 得到发音得分 A 及每个 词元发音时间, 利用视频数据提取唇部区域的图像特征, 计算图像得分B, 根据A和B计算获 得综合得分。 0007 进一步的, 所述客户端流程包括 : 0008。

15、 所述客户端流程具体包括 : 0009 步骤 11、 每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数 据 ; 0010 步骤 12、 对语音数据进行端点检测, 获取时间窗, 对时间窗内视频数据提取若干帧 图像, 并对其进行人脸检测, 如果人脸检测通过率达一给定阈值, 则标注为有效数据, 并将 给时间窗内对应的语音数据及视频数据发送至服务端 ; 0011 所述服务端流程具体包括 : 说 明 书 CN 104505089 A 4 2/5 页 5 0012 步骤 21、 获取客户端发送语音及图像数据, 获取参考文本数据 ; 0013 步骤 22、 采用隐马尔科夫强制对齐方法处理该语音数。

16、据以获得每个词元的发音时 间及得分 A ; 0014 步骤 23、 从所述视频图像序列中检测出人脸的位置 ; 利用主动外观模型 AAM 在人 脸区域中定位内外唇的精确位置, 并输出唇部的特征点位置, 并生成唇动视频序列 ; 将唇动 视频序列以词元为单位分割成若干个音元唇动图像序列 ; 针对音元唇动图像序列中的每帧 图像, 提取唇部区域的图像特征 ; 将所述图像特征与数据库中对应音元特征模型比对, 得到 该音元得分 B ; 0015 步骤 24、 根据 A 和 B 计算每个词元的综合得分。 0016 进一步的, 所述步骤 12 中对时间窗内视频数据抽取若干帧图像执行人脸检测, 获 得一宽为 w、。

17、 高为 h 的矩形区域 ; 截取该区域下段宽为 w、 高为 h/2 范围内的局部图像数据 ; 以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。 0017 进一步的, 所述步骤 12 中对时间窗内视频数据抽取图像帧的方法为 : 获取每帧 图像对应时间内的音频能量值 E, 对所有能量值求最大值 EM, 对每帧图像, 以概率 a*(E/ (EM+b) 抽取, 其中 a、 b 为给定参数, 用于调和抽取图像帧的总数。且所述步骤 24 中所述 图像特征是通过对唇部图像进行 SVD 分解得到。 0018 本发明要解决的技术问题之二, 在于提供一种口语纠错设备, 其口型图像识别处 。

18、理过程计算量小, 可减少传输量, 且效率高, 便于在平板设备中推广。 0019 本发明要解决的技术问题之二是这样实现的 : 一种口语纠错设备, 其特征在于 : 包括客户端, 采集声音数据及视频数据, 根据声音数据进行端点检测, 根据端点检测得到的 时间窗截取对应时间的声音数据及视频数据, 将获取的声音、 视频数据发送至服务端 ; 服务 端, 获取客户端发送语音、 视频数据 ; 获取一参考文本, 根据所述参考文本获取词元序列, 利 用词元序列及语音数据, 得到发音得分 A 及每个词元发音时间, 利用视频数据提取唇部区 域的图像特征, 计算图像得分 B, 根据 A 和 B 计算获得综合得分。 00。

19、20 进一步的, 所述客户端具体包括 : 采集模块, 每隔一定时间间隔获取麦克风采集的 声音数据和摄像头采集的视频数据 ; 检测模块, 对语音数据进行端点检测, 获取时间窗, 对 时间窗内视频数据提取若干帧图像, 并对其进行人脸检测, 如果人脸检测通过率达一给定 阈值, 则标注为有效数据, 并将给时间窗内对应的语音数据及视频数据发送至服务端 ; 0021 所述服务端具体包括 : 获取文本及语音数据模块, 获取客户端发送语音及图像数 据, 获取参考文本数据 ; 词元分析模块, 采用隐马尔科夫强制对齐方法处理该语音数据以获 得每个词元的发音时间及得分 A ; 检测分析模块, 从所述视频图像序列中检。

20、测出人脸的位 置 ; 利用主动外观模型 AAM 在人脸区域中定位内外唇的精确位置, 并输出唇部的特征点位 置, 并生成唇动视频序列 ; 将唇动视频序列以词元为单位分割成若干个音元唇动图像序列 ; 针对音元唇动图像序列中的每帧图像, 提取唇部区域的图像特征 ; 将所述图像特征与数据 库中对应音元特征模型比对, 得到该音元得分 B ; 综合得分计算模块, 用于根据 A 和 B 计算 每个词元的综合得分。 0022 进一步的, 所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测, 获 得一宽为 w、 高为 h 的矩形区域 ; 截取该区域下段宽为 w、 高为 h/2 范围内的局部图像数据 ; 以。

21、此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。 说 明 书 CN 104505089 A 5 3/5 页 6 0023 进一步的, 所述检测分析模块对时间窗内视频数据抽取图像帧的方法为 : 获取每 帧图像对应时间内的音频能量值 E, 对所有能量值求最大值 EM, 对每帧图像, 以概率 a*(E/ (EM+b) 抽取 , 其中 a、 b 为给定参数, 用于调和抽取图像帧的总数。 0024 进一步的, 所述参考文本数据由客户端上传, 或由客户端上传一指定 ID, 服务端根 据 ID 获取实现保存的文本数据, 或由服务端根据客户端发送的语音数据进行语音识别处 理获取 ; 所。

22、述图像特征是通过对唇部图像进行 SVD 分解得到的。 0025 本发明具有如下优点 : 本发明采用客户端和服务端的模式, 使计算过程是通过客 户端上传到服务器进行云计算, 其客户端识别处理过程计算量小, 且效率高, 便于在平板设 备中推广。 附图说明 0026 下面参照附图结合实施例对本发明作进一步的说明。 0027 图 1 为本发明方法客户端的执行流程图。 0028 图 2 为本发明方法服务端的执行流程图。 具体实施方式 0029 本发明的口语纠错方法, 包括客户端流程和服务端流程。所述客户端流程包括采 集声音数据及视频数据, 根据声音数据进行端点检测, 根据端点检测得到的时间窗截取对 应时。

23、间的声音数据及视频数据, 将获取的声音、 视频数据发送至服务端 ; 所述服务端流程包 括获取客户端发送语音、 视频数据 ; 获取一参考文本, 根据所述参考文本获取词元序列, 利 用词元序列及语音数据, 得到发音得分 A 及每个词元发音时间, 利用视频数据提取唇部区 域的图像特征, 计算图像得分 B, 根据 A 和 B 计算获得综合得分。这种采用客户端和服务端 的模式, 使计算过程是通过客户端上传到服务器进行云计算, 其客户端识别处理过程计算 量小, 且效率高, 便于在平板设备中推广。 0030 如图 1 所示, 所述客户端流程具体包括 : 0031 步骤 11、 每隔一定时间间隔获取麦克风采集。

24、的声音数据和摄像头采集的视频数 据 ; 0032 步骤 12、 对语音数据进行端点检测, 获取时间窗, 对时间窗内视频数据提取若干帧 图像, 并对其进行人脸检测, 如果人脸检测通过率达一给定阈值, 则标注为有效数据, 并将 给时间窗内对应的语音数据及视频数据发送至服务端 ; 0033 其中, 对时间窗内视频数据抽取若干帧图像执行人脸检测, 获得一宽为 w、 高为 h 的矩形区域 ; 截取该区域下段宽为 w、 高为 h/2 范围内的局部图像数据 ; 以此局部图像数据 上传至服务端。 更具体的, 首先对图像进行等宽高比例压缩, 使其最长边为256px, 再对此压 缩图像进行人脸检测, 获取局部区域。

25、后, 再将该局部区域坐标映射到原图像, 并从原图像上 截取局部图像, 并将该局部图像等宽高比例压缩, 使其最长边为 256px。 0034 对时间窗内视频数据抽取图像帧的方法为 : 获取每帧图像对应时间内的音频能量 值 E, 对所有能量值求最大值 EM, 对每帧图像, 以概率 a*(E/(EM+b) 抽取, 其中 a、 b 为给定 参数, 用于调和抽取图像帧的总数。更具体的, 对 E, EM 进行归一化处理, 使 EM 为 1.0, E 为 一取值 0 1.0 的实数, 取 b 为 1.0, a 为 1.0。 说 明 书 CN 104505089 A 6 4/5 页 7 0035 如图 2 所。

26、示, 所述服务端流程具体包括 : 0036 步骤 21、 获取客户端发送语音及图像数据, 获取参考文本数据 ; 0037 步骤 22、 采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时 间及得分 A ; 0038 步骤 23、 从所述视频图像序列中检测出人脸的位置 ; 利用主动外观模型 AAM 在人 脸区域中定位内外唇的精确位置, 并输出唇部的特征点位置, 并生成唇动视频序列 ; 将唇动 视频序列以词元为单位分割成若干个音元唇动图像序列 ; 针对音元唇动图像序列中的每帧 图像, 提取唇部区域的图像特征 ; 将所述图像特征与数据库中对应音元特征模型比对, 得到 该音元得分 B ; 。

27、所述图像特征是通过对唇部图像进行 SVD 分解得到的。 0039 步骤 24、 根据 A 和 B 计算每个词元的综合得分。 0040 本发明的口语纠错设备, 包括客户端和服务端, 所述客户端, 采集声音数据及视频 数据, 根据声音数据进行端点检测, 根据端点检测得到的时间窗截取对应时间的声音数据 及视频数据, 将获取的声音、 视频数据发送至服务端 ; 所述服务端, 获取客户端发送语音、 视 频数据 ; 获取一参考文本, 根据所述参考文本获取词元序列, 利用词元序列及语音数据, 得 到发音得分 A 及每个词元发音时间, 利用视频数据提取唇部区域的图像特征, 计算图像得 分 B, 根据 A 和 B。

28、 计算获得综合得分。这种采用客户端和服务端的模式, 使计算过程是通过 客户端上传到服务器进行云计算, 其客户端识别处理过程计算量小, 且效率高, 便于在平板 设备中推广。 0041 所述客户端具体包括 : 0042 采集模块, 每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数 据 ; 0043 检测模块, 对语音数据进行端点检测, 获取时间窗, 对时间窗内视频数据提取若干 帧图像, 并对其进行人脸检测, 如果人脸检测通过率达一给定阈值, 则标注为有效数据, 并 将给时间窗内对应的语音数据及视频数据发送至服务端 ; 0044 其中, 所述检测模块对时间窗内视频数据抽取若干帧图像执行人。

29、脸检测, 获得一 宽为 w、 高为 h 的矩形区域 ; 截取该区域下段宽为 w、 高为 h/2 范围内的局部图像数据 ; 以此 局部图像数据上传至服务端。更具体的, 首先对图像进行等宽高比例压缩, 使其最长边为 256px, 再对此压缩图像进行人脸检测, 获取局部区域后, 再将该局部区域坐标映射到原图 像, 并从原图像上截取局部图像, 并将该局部图像等宽高比例压缩, 使其最长边为 256px。 0045 所述检测分析模块对时间窗内视频数据抽取图像帧的方法为 : 获取每帧图像对应 时间内的音频能量值 E, 对所有能量值求最大值 EM, 对每帧图像, 以概率 a*(E/(EM+b) 抽 取 , 其。

30、中 a、 b 为给定参数, 用于调和抽取图像帧的总数。更具体的, 对 E, EM 进行归一化处 理, 使 EM 为 1.0, E 为一取值 0 1.0 的实数, 取 b 为 1.0, a 为 1.0。 0046 所述服务端具体包括 : 0047 获取文本及语音数据模块, 获取客户端发送语音及图像数据, 获取参考文本数据 ; 所述参考文本数据由客户端上传, 或由客户端上传一指定 ID, 服务端根据 ID 获取实现保存 的文本数据, 或由服务端根据客户端发送的语音数据进行语音识别处理获取 ; 0048 词元分析模块, 采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的 发音时间及得分 A ;。

31、 说 明 书 CN 104505089 A 7 5/5 页 8 0049 检测分析模块, 从所述视频图像序列中检测出人脸的位置 ; 利用主动外观模型 AAM 在人脸区域中定位内外唇的精确位置, 并输出唇部的特征点位置, 并生成唇动视频序 列 ; 将唇动视频序列以词元为单位分割成若干个音元唇动图像序列 ; 针对音元唇动图像序 列中的每帧图像, 提取唇部区域的图像特征 ; 将所述图像特征与数据库中对应音元特征模 型比对, 得到该音元得分 B ; 所述图像特征是通过对唇部图像进行 SVD 分解得到的。 0050 综合得分计算模块, 用于根据 A 和 B 计算每个词元的综合得分。 0051 虽然以上描述了本发明的具体实施方式, 但是熟悉本技术领域的技术人员应当理 解, 我们所描述的具体的实施例只是说明性的, 而不是用于对本发明的范围的限定, 熟悉本 领域的技术人员在依照本发明的精神所作的等效的修饰以及变化, 都应当涵盖在本发明的 权利要求所保护的范围内。 说 明 书 CN 104505089 A 8 1/2 页 9 图 1 说 明 书 附 图 CN 104505089 A 9 2/2 页 10 图 2 说 明 书 附 图 CN 104505089 A 10 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 乐器;声学


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1