降噪方法、通信方法及移动终端.pdf

摘要
申请专利号：	CN201510223926.1	申请日：	2015.05.05
公开号：	CN104811559A	公开日：	2015.07.29
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04M 1/725申请日:20150505\|\|\|公开
IPC分类号：	H04M1/725; G10L17/00(2013.01)I	主分类号：	H04M1/725
申请人：	上海青橙实业有限公司
发明人：	戴佑俊; 蒋伟鹏
地址：	201203上海市浦东新区张江路368号29号楼3楼
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明公开了一种降噪方法、通信方法及移动终端，所述降噪方法用于移动终端，所述移动终端包括至少一麦克风，所述移动终端预存用户的声纹信息，所述降噪方法包括：通过所述麦克风接收声音数据，其中，所述声音数据包括语音数据和背景声音；通过所述声纹信息从所述声音数据中获取所述用户的语音数据。本发明的降噪方法、通信方法及移动终端能够实现利用单一麦克风降低手机通话时的噪音，有效节约成本并简化手机硬件结构。

权利要求书

1.  一种降噪方法，用于移动终端，所述移动终端包括至少一麦克风，其特征在于，所述移动终端预存用户的声纹信息，所述降噪方法包括：
通过所述麦克风接收声音数据，其中，所述声音数据包括语音数据和背景声音；
通过所述声纹信息从所述声音数据中获取所述用户的语音数据。

2.  如权利要求1所述的降噪方法，其特征在于，所述移动终端包括一显示屏，接收声音数据前包括：
在所述显示屏上显示一文本信息，并接收用户朗读所述文本信息的声音数据；
从所述文本信息的声音数据中提取声音特征以形成所述声纹信息中的识别集合；
其中，所述移动终端通过所述识别集合识别声音数据中的语音数据，所述文本信息包括对话常用词语。

3.  如权利要求2所述的降噪方法，其特征在于，所述声纹信息还包括一背景集合，
所述背景集合中预设常用通话场景的背景声音的声音特征；
和/或，
所述移动终端接收声音数据，并从所述声音数据中提取背景声音的声音特征以形成所述背景集合；
所述移动终端通过所述识别集合以及背景集合识别声音数据中的语音数据。

4.  如权利要求3所述的降噪方法，其特征在于，将所述声音数据按照预设时长划分为若干声音区间，所述降噪方法包括：
判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则利用所述降噪方法处理下一个声音区间，若否则通过所述背景集合去除当前声音区间内的背景声音以获取所述语音数据并利用所述降噪方法处理下一个声音区间。

5.  如权利要求4所述的降噪方法，其特征在于，统计通过所述背景集合获取语音数据的声音区间的个数，若所述个数大于一第一预设值则通过双mic降噪方法处理剩余的声音区间内的声音数据以获取语音数据。

6.  如权利要求2所述的降噪方法，其特征在于，将所述声音数据按照预设时长划分为若干声音区间，所述降噪方法包括：
判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则利用所述降噪方法处理下一个声音区间，若否则通过双mic降噪方法处理当前声音区间内的声音数据以获取语音数据并利用所述降噪方法处理下一个声音区间。

7.  如权利要求5或6所述的降噪方法，其特征在于，所述降噪方法包括：
统计未用所述识别集合获取语音数据的声音区间的个数，若所述个数大于一第二预设值则在接收声音数据完成后验证所述用户的身份，若所述身份非法则启动所述移动终端的防盗模式。

8.  一种通信方法，用于移动终端，其特征在于，所述通信方法包括：
在电话通话或发送语音信息时，判断收到的声音数据中是否包括合法用户的语音，若是则利用如权利要求1至7中任意一项所述的降噪方法将声音数据转化为语音数据，然后发送所述语音数据。

9.  一种移动终端，所述移动终端包括至少一麦克风以及一显示屏，其特征在于，所述移动终端预存用户的声纹信息，所述移动终端还包括一接收模块、一获取模块以及一处理模块，
所述显示屏用于显示一文本信息；
所述接收模块用于通过麦克风接收声音数据，所述声音数据包括用户朗读所述文本信息的声音数据；
所述处理模块用于从所述文本信息的声音数据中提取声音特征以形成所述声纹信息中的识别集合，并用于从声音数据中提取背景声音的声音特征以形成所述背景集合；
所述获取模块用于通过所述识别集合以及背景集合获取声音数据中的语音数据；
其中，所述文本信息包括对话常用词语，所述背景集合中预设常用通话场景的背景声音的声音特征。

10.  如权利要求9所述的移动终端，其特征在于，所述移动终端还包括一判断模块以及一统计模块，
所述处理模块还用于将所述声音数据按照预设时长划分为若干声音区间；
所述判断模块用于判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则利用所述降噪方法处理下一个声音区间，若否则通过所述背景集合去除当前声音区间内的背景声音以获取所述语音数据；
所述统计模块用于统计通过所述背景集合获取语音数据的声音区间的个数，若所述个数大于一第一预设值则通过双mic降噪方法处理当前声音区间内的声音数据以获取语音数据。

说明书

降噪方法、通信方法及移动终端
技术领域
本发明涉及一种降噪方法、通信方法及移动终端。
背景技术
随着社会发展及经济的进步，手机已经成为人们日常生活中不可或缺的工具，手机在嘈杂环境下为了保证通话时对方能够不被噪音影响，通常会进行降噪处理。
现有技术中，降噪方法为双mic(麦克风)降噪方法，这种方法会用到两个麦克风，多出来的麦克风不仅会增加硬件成本而且会影像整机机构设计、布局，使手机结构相对复杂。而且利用双mic降噪方法处理得到的语音数据通常会经过信号放大处理，使得语音信号容易失真，语音播放效果差。
发明内容
本发明要解决的技术问题是为了克服现有技术中手机降噪方法使手机结构复杂，硬件成本高且效果差的缺陷，提供一种利用单一麦克风就能够实现降噪且效果更好的降噪方法、通信方法及移动终端。
本发明是通过下述技术方案来解决上述技术问题：
一种降噪方法，用于移动终端，所述移动终端包括至少一麦克风，其特点在于，所述移动终端预存用户的声纹信息，所述降噪方法包括：
通过所述麦克风接收声音数据，其中，所述声音数据包括语音数据和背景声音；
通过所述声纹信息从所述声音数据中获取所述用户的语音数据。
声纹(voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官：舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。
声纹识别(Voiceprint Recognition)已经应用到各个领域当中，包括身份确认、刑侦工作等，声纹识别包括说话人辨认(Speaker Identification)，在刑侦领域，说话人辨认能够做到在多人谈话语音中判断某段对话是哪一个所说的。
本发明利用声纹识别技术从一段包含语音数据和背景声音的声音数据中提取出语音数据提取出来，并排除背景声音，获取的语音数据清晰，失真程度低。
本发明的降噪方法应用范围广，包括将语音数据用于拨打电话、发送语音短信、社交软件的语聊以及语音备忘录等。
较佳地，所述移动终端包括一显示屏，接收声音数据前包括：
在所述显示屏上显示一文本信息，并接收用户朗读所述文本信息的声音数据；
从所述文本信息的声音数据中提取声音特征以形成所述声纹信息中的识别集合；
其中，所述移动终端通过所述识别集合识别声音数据中的语音数据，所述文本信息包括对话常用词语。
特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括：与人类的发音机制的解剖学结构有关的声学特征如频谱、倒频谱、共振峰、基音、反射系数等等、鼻音、带深呼吸音、沙哑音、笑声等。从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：声学特征、词法特征、韵律特征、语种、方言和口音信息、通道信息等等。
对话常用词语可以包括数字、问候用语、疑问语句、选择语句等日常对话出现频率较高的词语或句子。
较佳地，所述声纹信息还包括一背景集合，
所述背景集合中预设常用通话场景的背景声音的声音特征；
和/或，
所述移动终端接收声音数据，并从所述声音数据中提取背景声音的声音特征以形成所述背景集合；
所述移动终端通过所述识别集合以及背景集合识别声音数据中的语音数据。
当识别集合在识别中无法识别出语音数据时，可以利用背景集合识别背景声音并将背景声音消除后以获取语音数据。常用通话场景包括车站的环境声音、办公室的环境声音及学校的环境声音等。
利用本发明，用户还可以自行设置背景集合，用户在工作位置、车站位置采集声音数据，将所述声音数据中的声音特征设定为背景集合用于以后使用。
较佳地，将所述声音数据按照预设时长划分为若干声音区间，所述降噪方法包括：
判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则利用所述降噪方法处理下一个声音区间，若否则通过所述背景集合去除当前声音区间内的背景声音以获取所述语音数据并利用所述降噪方法处理下一个声音区间。
下一个声音区间是指处理最近获取了语音数据的声音区间的下一个声音区间，在处理“下一个声音区间”时，“下一个声音区间”被视为当前声音区间，利用所述降噪方法处理是指判断下一个声音区间内通过所述识别集合是否获取语音数据并根据判断结果执行后续流程。本发明以单个声音区间为单位进行处理，对于一个正在处理的声音区间，先利用识别集合来获取语音数据，如果无法识别则利用背景集合来去除背景声音以获取语音数据，一个声音区间处理完成后按照时序处理下一个声音区间直到声音数据全部处理完成。
较佳地，统计通过所述背景集合获取语音数据的声音区间的个数，若所述个数大于一第一预设值则通过双mic降噪方法处理剩余的声音区间内的声音数据以获取语音数据。
如果所述个数大于第一预设值可能出现用户感冒声音改变或他人使用所述手机，这时利用声纹识别的效果会受到影响，可以改变成利用双mic降噪方法提高降噪效果。
较佳地，将所述声音数据按照预设时长划分为若干声音区间，所述降噪方法包括：
判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则利用所述降噪方法处理下一个声音区间，若否则通过双mic降噪方法处理当前声音区间内的声音数据以获取语音数据并利用所述降噪方法处理下一个声音区间。
如果在陌生的背景环境中打电话，利用背景集合的效果并不理想，可以改变成利用双mic降噪方法提高降噪效果。
较佳地，所述降噪方法包括：
统计未用所述识别集合获取语音数据的声音区间的个数，若所述个数大于一第二预设值则在接收声音数据完成后验证所述用户的身份，若所述身份非法则启动所述移动终端的防盗模式。
声纹识别本身可以作为验证身份的手段，本申请利用声纹识别来判断移动终端是否落入他人手中以提高手机的安全性。防盗模式可以为锁定手机无法解锁、防刷机模式启动、发送位置信息等。
本发明还提供一种通信方法，用于移动终端，其特点在于，所述通信方法包括：
在电话通话或发送语音信息时，判断收到的声音数据中是否包括合法用户的语音，若是则利用如上所述的降噪方法将声音数据转化为语音数据，然后发送所述语音数据。
发送所述语音数据的方式包括拨打电话、发送语音短信、社交软件的语聊以及语音备忘录等。
本发明又提供一种移动终端，所述移动终端包括至少一麦克风以及一显示屏，其特点在于，所述移动终端预存用户的声纹信息，所述移动终端还包括一接收模块、一获取模块以及一处理模块，
所述显示屏用于显示一文本信息；
所述接收模块用于通过麦克风接收声音数据，所述声音数据包括用户朗读所述文本信息的声音数据；
所述处理模块用于从所述文本信息的声音数据中提取声音特征以形成所述声纹信息中的识别集合，并用于从声音数据中提取背景声音的声音特征以形成所述背景集合；
所述获取模块用于通过所述识别集合以及背景集合获取声音数据中的语音数据；
其中，所述文本信息包括对话常用词语，所述背景集合中预设常用通话场景的背景声音的声音特征。
较佳地，所述移动终端还包括一判断模块以及一统计模块，
所述处理模块还用于将所述声音数据按照预设时长划分为若干声音区间；
所述判断模块用于判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则利用所述降噪方法处理下一个声音区间，若否则通过所述背景集合去除当前声音区间内的背景声音以获取所述语音数据；
所述统计模块用于统计通过所述背景集合获取语音数据的声音区间的个数，若所述个数大于一第一预设值则通过双mic降噪方法处理当前声音区间内的声音数据以获取语音数据。
在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。
本发明的积极进步效果在于：本发明的降噪方法、通信方法及移动终端能够实现利用单一麦克风降低手机通话时的噪音，有效节约成本并简化手机硬件结构。
附图说明
图1为本发明实施例1的手机的结构示意图。
图2为本发明实施例1的降噪方法的流程图。
图3为本发明实施例3的降噪方法的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。
实施例1
参见图1，本实施例提供一手机1，所述手机包括一个麦克风11以及一个显示屏12，所述手机预存用户的声纹信息，所述手机还包括一接收模块13、一获取模块14、一判断模块15、一统计模块16以及一处理模块17。
所述显示屏用于显示一文本信息，其中，所述文本信息包括对话常用词语。
所述接收模块用于通过麦克风接收声音数据，所述声音数据包括用户朗读所述文本信息的声音数据。
所述处理模块用于从所述文本信息的声音数据中提取声音特征以形成所述声纹信息中的识别集合，并用于从声音数据中提取背景声音的声音特征以形成所述背景集合。
所述获取模块用于通过所述识别集合以及背景集合获取声音数据中的语音数据。
所述背景集合中预设常用通话场景的背景声音的声音特征。
本实施例的背景集合中预设有常用的通话场景的声音特征，另外用户还可以自行采集背景声音的声音特征。
所述处理模块还用于将所述声音数据按照预设时长(两秒)划分为若干声音区间。
所述判断模块用于判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则利用所述降噪方法处理下一个声音区间，若否则通过所述背景集合去除当前声音区间内的背景声音以获取所述语音数据；
所述统计模块用于统计通过所述背景集合获取语音数据的声音区间的个数，若所述个数大于50则在接收声音数据完成后验证所述用户的身份，若所述身份非法则启动所述手机的防盗模式。
参见图2，利用上述手机，本实施例还提供一种降噪方法，所述降噪方法包括：
步骤100、在所述显示屏上显示一文本信息，并通过所述麦克风接收用户朗读所述文本信息的声音数据。
所述声音数据包括语音数据及背景声音。
步骤101、从所述文本信息的声音数据中提取声音特征以形成所述声纹信息中的识别集合，并从所述声音数据中提取背景声音的声音特征以形成声纹信息的背景集合。
所述手机在使用前先进行初始化设置，也就是采集用户的声纹信息以及背景声音的声音特征，对于识别集合中的声音特征的采集和背景集合中的声音特征的采集可以分开进行，例如，用户在朗读所述文本信息时仅采集识别集合中的声音特征，采集完成后用户将手机拿到工作地点来采集背景集合中的声音特征，本实施例以同时采集识别集合和背景集合的声音特征为例，达到快速形成声纹信息的目的。
本实施例的背景集合中预设常用通话场景的背景声音的声音特征。
步骤102、拨号并进行手机通话，然后接收用户用于通话的声音数据。
步骤103、将所述声音数据按照预设时长(两秒)划分为若干声音区间，利用所述识别集合获取集合识别声音数据中的语音数据。
步骤104、判断在当前声音区间内通过所述识别集合是否获取语音数据，若是则执行步骤106，若否则执行步骤105。
步骤105、通过所述背景集合去除当前声音区间内的背景声音以获取所述语音数据。
步骤106、判断最近一个获取语音数据的声音区间是否为所述声音数据的最后一个声音区间，若是则结束流程，若否则将最近一个获取语音数据的声音区间的下一个声音区间作为当前声音区间然后返回步骤104。
所述降噪方法还包括：
统计未用所述识别集合获取语音数据的声音区间的个数，若所述个数大于50则在接收声音数据完成后验证所述用户的身份，若所述身份非法则启动所述手机的防盗模式。
利用上述降噪方法，本实施例还提供一种通信方法，所述通信方法包括：
步骤102包括判断收到的声音数据中是否包括合法用户的语音，若是则将语音数据发送至通话的接收端。具体方式为每完成一个声音区间的处理获取语音数据就发送一个。
本实施例的降噪方法、通信方法及手机能够实现利用单一麦克风降低手机通话时的噪音，有效节约成本并简化手机硬件结构。
实施例2
本实施例与实施例1基本相同，不同之处仅在于：
所述手机包括两个麦克风。
所述降噪方法包括：
统计通过所述背景集合获取语音数据的声音区间的个数，若所述个数大于10则通过双mic降噪方法处理剩余的声音区间内的声音数据以获取语音数据。
本实施例的降噪方法利用两种方式实现降噪，进一步确保通话质量。
实施例3
参见图3，本实施例与实施例1基本相同，不同之处仅在于步骤105替换为：
步骤105、通过双mic降噪方法处理当前声音区间内的声音数据以获取语音数据。
本实施例的降噪方法、通信方法及手机能够实现利用单一麦克风降低手机通话时的噪音，有效节约成本并简化手机硬件结构。
虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。