字符内容提示的声纹识别方法.pdf

上传人:e1 文档编号:4573218 上传时间:2018-10-21 格式:PDF 页数:7 大小:343.74KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010221624.8

申请日:

2010.07.08

公开号:

CN102314877A

公开日:

2012.01.11

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G10L 17/00申请公布日:20120111|||实质审查的生效IPC(主分类):G10L 17/00申请日:20100708|||公开

IPC分类号:

G10L17/00

主分类号:

G10L17/00

申请人:

盛乐信息技术(上海)有限公司

发明人:

黄伟; 蔡洪滨; 李轶杰

地址:

201203 上海市浦东新区郭守敬路356号

优先权:

专利代理机构:

上海浦一知识产权代理有限公司 31211

代理人:

孙大为

PDF下载: PDF下载
内容摘要

本发明公开了一种字符内容提示的声纹识别方法,包括以下步骤:步骤一、通过随机种子产生一个长度为N的随机字符串,N为≥2的正整数;步骤二、每次显示一个字符,检测是否已完成单个字符的录音,如果已完成单个字符的录音再弹出下一个字符,直至最后一个字符被录音;步骤三、完成整个字符串的录音后,进行声纹验证。本发明通过实时的静音检测算法,采取一种冒泡式的字符串提示,使得连续字符串可视为一串孤立的字符,解决了字符连读对语音识别和声纹认证的性能影响。

权利要求书

1: 一种字符内容提示的声纹识别方法, 其特征在于, 包括以下步骤 : 步骤一、 通过随机种子产生一个长度为 N 的随机字符串, N 为≥ 2 的正整数 ; 步骤二、 每次显示一个字符, 检测是否已完成单个字符的录音, 如果已完成单个字符的 录音再弹出下一个字符, 直至最后一个字符被录音 ; 步骤三、 完成整个字符串的录音后, 进行声纹验证。
2: 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 所述步骤二中采 用实时静音检测算法检测是否已完成单个字符的录音。
3: 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 所述声纹验证包 括语音识别和声纹识别。
4: 如权利要求 3 所述的字符内容提示的声纹识别方法, 其特征在于, 所述语音识别包 括对说话人的语音进行分析, 判断是否为随机字符串的内容, 并给出一个是或否的答案, 在 这个过程中同时对语音进行切分, 产生语音中每一段属于哪个字符的标记。
5: 如权利要求 3 所述的字符内容提示的声纹识别方法, 其特征在于, 所述声纹识别模 块包括 : 注册部分, 说话人提供多个随机字符串的语音数据, 根据语音识别提供的标记, 以通用 背景模型为基础, 通过最大后验概率自适应算法建立该说话人的模型 ; 测试部分, 调用声明的说话人模型, 分析测试时提供的语音特征, 进行一个确认判决, 接受或拒绝。
6: 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 所述随机字符串 为 8 位, 通过图片或 Flash 的方式提供字符给用户。
7: 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 所述字符为数字。

说明书


字符内容提示的声纹识别方法

    【技术领域】
     本发明涉及一种智能识别方法, 具体涉及一种声纹识别方法。背景技术 所谓声纹 (Voiceprint), 是用电声学仪器显示的携带言语信息的声波频谱。
     人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程, 人在 讲话时使用的发声器官 -- 舌、 牙齿、 喉头、 肺、 鼻腔在尺寸和形态方面每个人的差异很大, 所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性, 又有变异 性, 不是绝对的、 一成不变的。这种变异可来自生理、 病理、 心理、 模拟、 伪装, 也与环境干扰 有关。尽管如此, 由于每个人的发音器官都不尽相同, 因此在一般情况下, 人们仍能区别不 同的人的声音或判断是否是同一人的声音。
     声纹识别的应用有一些缺点, 比如同一个人的声音具有易变性, 易受身体状况、 年 龄、 情绪等的影响 ; 比如不同的麦克风和信道对识别性能有影响 ; 比如环境噪音对识别有 干扰 ; 又比如混合说话人的情形下人的声纹特征不易提取 ; ……等等。尽管如此, 与其他 生物特征相比, 声纹识别的应用有一些特殊的优势 : (1) 蕴含声纹特征的语音获取方便、 自 然, 声纹提取可在不知不觉中完成, 因此使用者的接受程度也高 ; (2) 获取语音的识别成本 低廉, 使用简单, 一个麦克风即可, 在使用通讯设备时更无需额外的录音设备 ; (3) 适合远 程身份确认, 只需要一个麦克风或电话、 手机就可以通过网路 ( 通讯网络或互联网络 ) 实现 远程登录 ; (4) 声纹辨认和确认的算法复杂度低 ; (5) 配合一些其他措施, 如通过语音识别 进行内容鉴别等, 可以提高准确率 ; ……等等。这些优势使得声纹识别的应用越来越受到 方法开发者和用户青睐, 声纹识别的世界市场占有率 15.8%, 仅次于手指和手的生物特征 识别, 并有不断上升的趋势。
     声纹识别有文本相关的 (Text-Dependent) 和文本无关的 (Text-Independent) 两 种。与文本有关的声纹识别方法要求用户按照规定的内容发音, 每个人的声纹模型逐个被 精确地建立, 而识别时也必须按规定的内容发音, 因此可以达到较好的识别效果, 但方法需 要用户配合, 如果用户的发音与规定的内容不符合, 则无法正确识别该用户。
     目前常用的与文本相关的声纹识别其文本往往采用随机数字串的形式。 在随机数 字串的声纹认证方法中, 同时提供一个 8 位的数字串提示, 容易导致用户连读, 连读现象若 严重, 会严重影响方法的性能。 采用冒泡型的字符提示可以防止连读, 使其变成孤立词的语 音识别和声纹识别。同时, 这种提示方式更为生动形象, 易为用户接受。
     发明内容
     本发明所要解决的技术问题是提供一种字符内容提示的声纹识别方法, 它可以解 决字符连读对语音识别和声纹认证的性能影响。
     为了解决以上技术问题, 本发明提供了一种字符内容提示的声纹识别方法, 包括 以下步骤 : 步骤一、 通过随机种子产生一个长度为 N 的随机字符串, N 为≥ 2 的正整数 ; 步骤二、 每次显示一个字符, 检测是否已完成单个字符的录音, 如果已完成单个字符的录音再弹 出下一个字符, 直至最后一个字符被录音 ; 步骤三、 完成整个字符串的录音后, 进行声纹验 证。
     本发明的有益效果在于 : 通过实时的静音检测算法, 采取一种冒泡式的字符串提 示, 使得连续字符串可视为一串孤立的字符, 解决了字符连读对语音识别和声纹认证的性 能影响。 附图说明
     下面结合附图和具体实施方式对本发明作进一步详细说明。
     图 1 是本发明实施例所述方法的流程图 ;
     图 2 是本发明实施例所述智能字符内容提示示意图 ;
     图 3 是本发明实施例所述声纹识别示意图。 具体实施方式
     本发明设计了一种字符内容提示的声纹识别方法, 可提升后端语音识别和声纹认 证方法的性能。本发明所述的字符可以为字母或数字或符号, 只要是字符即可。其优选的 使用单音节的字符, 其中更优选的是采用数字作为本发明所述的字符。以下以数字为例介 绍本发明的具体实施例, 但本发明不限于数字作为字符内容提示使用。
     如图 1 所示, 本发明首先通过随机种子产生一个 8 位的随机数字串, 每次提供一个 数字, 用户录音过程中, 通过实时的静音检测程序检测到用户已完成单个数字的录音, 再弹 出下一个数字, 直至最后一个数字。 完成整个数字串的录音后, 再继续后端的语音识别和声 纹识别模块。
     本发明通过实时的静音检测算法, 采取一种冒泡式的数字串提示, 使得连续数字 串可视为一串孤立的数字, 解决了数字连读对语音识别和声纹认证的性能影响。
     本发明通过一种更为生动形象的交互方式, 使得整个方法更易被用户接受和使 用。
     前端的数字串提示主要步骤如下 :
     如图 2 所示, 首先通过随机种子产生一个 8 位的随机数字串, 方法每次以图片或 Flash 的方式提供一个数字给用户, 并通过实时的静音检测程序检测到用户已完成该数字 的录音, 再弹出下一个数字, 如此直至最后一个数字。
     后端的声纹验证方法将由两部分构成 :
     第一部分是语音识别模块, 该部分对说话人的语音进行分析, 判断是否为随机数 字串的内容, 并给出一个是或否的答案, 在这个过程中同时对语音进行切分, 产生语音码流 中每一帧属于哪个数字的标记。
     第二部分是一个声纹识别模块, 该部分由两部分组成, 注册部分和测试部分, 其 中, 所述注册部分如图 3 所示, 该部分可以包括以下步骤 : 说话人提供 3-5 个随机数字串的 语音数据, 根据前端语音识别模块提供的数字标记, 即每一段语音特征码的每一帧都有一 个相应的数字标记, 对每一帧特征码流, 分别以相应数字的通用背景模型为基础, 通过最大 后验概率自适应算法进行自适应训练, 建立该说话人各个数字的说话人模型 ; 测试部分, 仍采取冒泡式的数字串提示方法, 调用声明的说话人模型, 分析测试时提供的语音特征, 根据 测试语音的数字标记, 与相应数字模型进行匹配, 进行一个确认判决, 接受或拒绝。
     本发明并不限于上文讨论的实施方式。 以上对具体实施方式的描述旨在于为了描 述和说明本发明涉及的技术方案。 基于本发明启示的显而易见的变换或替代也应当被认为 落入本发明的保护范围。以上的具体实施方式用来揭示本发明的最佳实施方法, 以使得本 领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的 目的。

字符内容提示的声纹识别方法.pdf_第1页
第1页 / 共7页
字符内容提示的声纹识别方法.pdf_第2页
第2页 / 共7页
字符内容提示的声纹识别方法.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《字符内容提示的声纹识别方法.pdf》由会员分享,可在线阅读,更多相关《字符内容提示的声纹识别方法.pdf(7页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102314877 A (43)申请公布日 2012.01.11 CN 102314877 A *CN102314877A* (21)申请号 201010221624.8 (22)申请日 2010.07.08 G10L 17/00(2006.01) (71)申请人 盛乐信息技术 ( 上海 ) 有限公司 地址 201203 上海市浦东新区郭守敬路 356 号 (72)发明人 黄伟 蔡洪滨 李轶杰 (74)专利代理机构 上海浦一知识产权代理有限 公司 31211 代理人 孙大为 (54) 发明名称 字符内容提示的声纹识别方法 (57) 摘要 本发明公开了一种字符内容提示的。

2、声纹识别 方法, 包括以下步骤 : 步骤一、 通过随机种子产生 一个长度为 N 的随机字符串, N 为 2 的正整数 ; 步骤二、 每次显示一个字符, 检测是否已完成单个 字符的录音, 如果已完成单个字符的录音再弹出 下一个字符, 直至最后一个字符被录音 ; 步骤三、 完成整个字符串的录音后, 进行声纹验证。 本发明 通过实时的静音检测算法, 采取一种冒泡式的字 符串提示, 使得连续字符串可视为一串孤立的字 符, 解决了字符连读对语音识别和声纹认证的性 能影响。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 3 页 附图 2 页。

3、 CN 102314881 A1/1 页 2 1. 一种字符内容提示的声纹识别方法, 其特征在于, 包括以下步骤 : 步骤一、 通过随机种子产生一个长度为 N 的随机字符串, N 为 2 的正整数 ; 步骤二、 每次显示一个字符, 检测是否已完成单个字符的录音, 如果已完成单个字符的 录音再弹出下一个字符, 直至最后一个字符被录音 ; 步骤三、 完成整个字符串的录音后, 进行声纹验证。 2. 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 所述步骤二中采 用实时静音检测算法检测是否已完成单个字符的录音。 3. 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 。

4、所述声纹验证包 括语音识别和声纹识别。 4. 如权利要求 3 所述的字符内容提示的声纹识别方法, 其特征在于, 所述语音识别包 括对说话人的语音进行分析, 判断是否为随机字符串的内容, 并给出一个是或否的答案, 在 这个过程中同时对语音进行切分, 产生语音中每一段属于哪个字符的标记。 5. 如权利要求 3 所述的字符内容提示的声纹识别方法, 其特征在于, 所述声纹识别模 块包括 : 注册部分, 说话人提供多个随机字符串的语音数据, 根据语音识别提供的标记, 以通用 背景模型为基础, 通过最大后验概率自适应算法建立该说话人的模型 ; 测试部分, 调用声明的说话人模型, 分析测试时提供的语音特征,。

5、 进行一个确认判决, 接受或拒绝。 6. 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 所述随机字符串 为 8 位, 通过图片或 Flash 的方式提供字符给用户。 7. 如权利要求 1 所述的字符内容提示的声纹识别方法, 其特征在于, 所述字符为数字。 权 利 要 求 书 CN 102314877 A CN 102314881 A1/3 页 3 字符内容提示的声纹识别方法 技术领域 0001 本发明涉及一种智能识别方法, 具体涉及一种声纹识别方法。 背景技术 0002 所谓声纹 (Voiceprint), 是用电声学仪器显示的携带言语信息的声波频谱。 0003 人类语言的。

6、产生是人体语言中枢与发音器官之间一个复杂的生理物理过程, 人在 讲话时使用的发声器官 - 舌、 牙齿、 喉头、 肺、 鼻腔在尺寸和形态方面每个人的差异很大, 所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性, 又有变异 性, 不是绝对的、 一成不变的。这种变异可来自生理、 病理、 心理、 模拟、 伪装, 也与环境干扰 有关。尽管如此, 由于每个人的发音器官都不尽相同, 因此在一般情况下, 人们仍能区别不 同的人的声音或判断是否是同一人的声音。 0004 声纹识别的应用有一些缺点, 比如同一个人的声音具有易变性, 易受身体状况、 年 龄、 情绪等的影响 ; 比如不同的麦克风和。

7、信道对识别性能有影响 ; 比如环境噪音对识别有 干扰 ; 又比如混合说话人的情形下人的声纹特征不易提取 ; 等等。尽管如此, 与其他 生物特征相比, 声纹识别的应用有一些特殊的优势 : (1) 蕴含声纹特征的语音获取方便、 自 然, 声纹提取可在不知不觉中完成, 因此使用者的接受程度也高 ; (2) 获取语音的识别成本 低廉, 使用简单, 一个麦克风即可, 在使用通讯设备时更无需额外的录音设备 ; (3) 适合远 程身份确认, 只需要一个麦克风或电话、 手机就可以通过网路(通讯网络或互联网络)实现 远程登录 ; (4) 声纹辨认和确认的算法复杂度低 ; (5) 配合一些其他措施, 如通过语音识。

8、别 进行内容鉴别等, 可以提高准确率 ; 等等。这些优势使得声纹识别的应用越来越受到 方法开发者和用户青睐, 声纹识别的世界市场占有率 15.8, 仅次于手指和手的生物特征 识别, 并有不断上升的趋势。 0005 声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两 种。与文本有关的声纹识别方法要求用户按照规定的内容发音, 每个人的声纹模型逐个被 精确地建立, 而识别时也必须按规定的内容发音, 因此可以达到较好的识别效果, 但方法需 要用户配合, 如果用户的发音与规定的内容不符合, 则无法正确识别该用户。 0006 目前常用的与文本相关的声纹识。

9、别其文本往往采用随机数字串的形式。 在随机数 字串的声纹认证方法中, 同时提供一个 8 位的数字串提示, 容易导致用户连读, 连读现象若 严重, 会严重影响方法的性能。 采用冒泡型的字符提示可以防止连读, 使其变成孤立词的语 音识别和声纹识别。同时, 这种提示方式更为生动形象, 易为用户接受。 发明内容 0007 本发明所要解决的技术问题是提供一种字符内容提示的声纹识别方法, 它可以解 决字符连读对语音识别和声纹认证的性能影响。 0008 为了解决以上技术问题, 本发明提供了一种字符内容提示的声纹识别方法, 包括 以下步骤 : 步骤一、 通过随机种子产生一个长度为N的随机字符串, N为2的正整。

10、数 ; 步骤 说 明 书 CN 102314877 A CN 102314881 A2/3 页 4 二、 每次显示一个字符, 检测是否已完成单个字符的录音, 如果已完成单个字符的录音再弹 出下一个字符, 直至最后一个字符被录音 ; 步骤三、 完成整个字符串的录音后, 进行声纹验 证。 0009 本发明的有益效果在于 : 通过实时的静音检测算法, 采取一种冒泡式的字符串提 示, 使得连续字符串可视为一串孤立的字符, 解决了字符连读对语音识别和声纹认证的性 能影响。 附图说明 0010 下面结合附图和具体实施方式对本发明作进一步详细说明。 0011 图 1 是本发明实施例所述方法的流程图 ; 00。

11、12 图 2 是本发明实施例所述智能字符内容提示示意图 ; 0013 图 3 是本发明实施例所述声纹识别示意图。 具体实施方式 0014 本发明设计了一种字符内容提示的声纹识别方法, 可提升后端语音识别和声纹认 证方法的性能。本发明所述的字符可以为字母或数字或符号, 只要是字符即可。其优选的 使用单音节的字符, 其中更优选的是采用数字作为本发明所述的字符。以下以数字为例介 绍本发明的具体实施例, 但本发明不限于数字作为字符内容提示使用。 0015 如图1所示, 本发明首先通过随机种子产生一个8位的随机数字串, 每次提供一个 数字, 用户录音过程中, 通过实时的静音检测程序检测到用户已完成单个数。

12、字的录音, 再弹 出下一个数字, 直至最后一个数字。 完成整个数字串的录音后, 再继续后端的语音识别和声 纹识别模块。 0016 本发明通过实时的静音检测算法, 采取一种冒泡式的数字串提示, 使得连续数字 串可视为一串孤立的数字, 解决了数字连读对语音识别和声纹认证的性能影响。 0017 本发明通过一种更为生动形象的交互方式, 使得整个方法更易被用户接受和使 用。 0018 前端的数字串提示主要步骤如下 : 0019 如图 2 所示, 首先通过随机种子产生一个 8 位的随机数字串, 方法每次以图片或 Flash 的方式提供一个数字给用户, 并通过实时的静音检测程序检测到用户已完成该数字 的录音。

13、, 再弹出下一个数字, 如此直至最后一个数字。 0020 后端的声纹验证方法将由两部分构成 : 0021 第一部分是语音识别模块, 该部分对说话人的语音进行分析, 判断是否为随机数 字串的内容, 并给出一个是或否的答案, 在这个过程中同时对语音进行切分, 产生语音码流 中每一帧属于哪个数字的标记。 0022 第二部分是一个声纹识别模块, 该部分由两部分组成, 注册部分和测试部分, 其 中, 所述注册部分如图 3 所示, 该部分可以包括以下步骤 : 说话人提供 3-5 个随机数字串的 语音数据, 根据前端语音识别模块提供的数字标记, 即每一段语音特征码的每一帧都有一 个相应的数字标记, 对每一帧。

14、特征码流, 分别以相应数字的通用背景模型为基础, 通过最大 后验概率自适应算法进行自适应训练, 建立该说话人各个数字的说话人模型 ; 测试部分, 仍 说 明 书 CN 102314877 A CN 102314881 A3/3 页 5 采取冒泡式的数字串提示方法, 调用声明的说话人模型, 分析测试时提供的语音特征, 根据 测试语音的数字标记, 与相应数字模型进行匹配, 进行一个确认判决, 接受或拒绝。 0023 本发明并不限于上文讨论的实施方式。 以上对具体实施方式的描述旨在于为了描 述和说明本发明涉及的技术方案。 基于本发明启示的显而易见的变换或替代也应当被认为 落入本发明的保护范围。以上的具体实施方式用来揭示本发明的最佳实施方法, 以使得本 领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的 目的。 说 明 书 CN 102314877 A CN 102314881 A1/2 页 6 图 1 图 2 说 明 书 附 图 CN 102314877 A CN 102314881 A2/2 页 7 图 3 说 明 书 附 图 CN 102314877 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 乐器;声学


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1