基于深度学习的唇语识别唇形训练数据库的生成方法.pdf

上传人:a1 文档编号:4590667 上传时间:2018-10-21 格式:PDF 页数:5 大小:194.26KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510018956.9

申请日:

2014.12.26

公开号:

CN104537358A

公开日:

2015.04.22

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06K 9/00申请日:20141226|||公开

IPC分类号:

G06K9/00; G06K9/62

主分类号:

G06K9/00

申请人:

安徽寰智信息科技股份有限公司

发明人:

陈拥权; 李建中; 郑荣稳

地址:

241000安徽省芜湖市中山南路717号科普产业园B6

优先权:

专利代理机构:

福州市鼓楼区博深专利代理事务所(普通合伙)35214

代理人:

林志峥

PDF下载: PDF下载
内容摘要

本发明公开了一种基于深度学习的唇语识别唇形训练数据库的生成方法,该方法包括以下步骤:有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库。本发明的优点在于:该技术方案大幅提高了唇形模型库的构建效率。

权利要求书

1.  基于深度学习的唇语识别唇形训练数据库的生成方法,其特征在于,该 方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视 频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分 析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析, 获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练 数据库。

2.
  如权利要求1所述的基于深度学习的唇语识别唇形训练数据库的生成方 法,其特征在于,所述目标人员的数量应不少于2人。

说明书

基于深度学习的唇语识别唇形训练数据库的生成方法
本申请是分案申请,原申请的申请号为201410829417.9,申请日为2014年 12月26日,发明创造名称为:基于深度学习的唇语识别唇形模型库构建方法。
技术领域
本发明涉及人机交互模型库构建技术领域,具体涉及基于深度学习的唇语 识别唇形训练数据库的生成方法。
背景技术
人工智能技术的发展,人们已经开始将计算机视频分析技术用于唇语识别, 以解决生产车间等噪音场所的现场口头生产指令下达问题。在进行唇语识别过 程中,需要用到唇形模型库,其准确性、全面性将直接决定唇语识别的效率。 现有技术多通过人工进行唇形模型的逐个建立,不仅工作量大,而且其全面性 难以保证。
为解决上述问题,本发明提供一种基于深度学习的唇语识别唇形模型库构建方 法,可有效降低人工工作量,并提高唇形模型库的全面性。
发明内容
针对上述问题,本发明通过综合引用深度学习技术、语音识别技术和图像 分析技术,由计算机对大量有声唇部视频进行学习并自动构建唇形模型库的方 式,提供基于深度学习的唇语识别唇形训练数据库,从而有效提升唇形模型库 的构建效率。
本发明提供的具体技术方案是:一种基于深度学习的唇语识别唇形训练数 据库的生成方法,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视 频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分 析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析, 获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练 数据库。
所述目标人员的数量应不少于2人。
有益效果:本发明提供的一种基于深度学习的唇语识别唇形模型库构建方 法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成 说话声音对应文字,形成训练数据库,之后,利用深度学习技术对训练数据库 进行学习,构建唇形模型库。该技术方案为唇形模型库的构建提供了一种高效 的技术手段,大幅提高了唇形模型库的构建效率。
附图说明
图1所示是本发明工作流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技 术方案进行详细说明。
如图1所示,首先通过带有麦克风的摄像头同步采集目标人员的唇部视频 图像及说话声音。在进行唇部视频图像及说话声音采集时,需保证两者的同步 性,避免因声音延后等情况给后续分析带来误差。然后,由计算机根据图像分 析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识 别技术对所述说话声音进行分析,获得说话声音对应的文字信息。将所述唇形 特征值与所述文字信息一一对应,生成训练数据库,再由计算机根据深度学习 技术对所述训练数据库进行学习,构建唇形模型库。
唇形模型库中的每个唇形模型,分别对应与之相应的文字,即由说话声音 获得的文字。
对于深度学习,其训练效果与所采用的训练数据库的数据量多少有关,数 据量越大,训练结果越准确。因此,为了获得更好的唇形模型库,应采集尽量 多的有声视频图像,以形成数据量更为丰富的训练数据库。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

基于深度学习的唇语识别唇形训练数据库的生成方法.pdf_第1页
第1页 / 共5页
基于深度学习的唇语识别唇形训练数据库的生成方法.pdf_第2页
第2页 / 共5页
基于深度学习的唇语识别唇形训练数据库的生成方法.pdf_第3页
第3页 / 共5页
点击查看更多>>
资源描述

《基于深度学习的唇语识别唇形训练数据库的生成方法.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的唇语识别唇形训练数据库的生成方法.pdf(5页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于深度学习的唇语识别唇形训练数据库的生成方法,该方法包括以下步骤:有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库。本发明的优点在于。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1