一种音频处理方法及装置.pdf

摘要
申请专利号：	CN201510701330.8	申请日：	2015.10.26
公开号：	CN106611603A	公开日：	2017.05.03
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G10L 25/51申请日:20151026\|\|\|公开
IPC分类号：	G10L25/51(2013.01)I	主分类号：	G10L25/51
申请人：	腾讯科技（深圳）有限公司
发明人：	刘培; 牟伟成
地址：	518000 广东省深圳市福田区振兴路赛格科技园2栋东403室
优先权：
专利代理机构：	北京三聚阳光知识产权代理有限公司 11250	代理人：	张建纲
PDF下载：	PDF下载

内容摘要

本发明提供一种音频处理方法和装置，可应用于K歌系统中，首先分别获取相同语音内容的标准音频文件和用户输入的比对音频文件，然后获取所述比对音频文件与所述标准音频文件的匹配程度，之后，根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对应不同的显示文本信息。该方案中根据用户输入的比对音频文件与标准音频文件的匹配程度来选择显示文本信息，避免了现有技术中只显示一个分数用户很难明确自己唱歌的水平的问题，针对用户的唱歌水平给出多样性的文字提示，使得用户可以更好的了解其水平，提高了用户体验，有其适用于K歌系统中。

权利要求书

1.一种音频处理方法，其特征在于，包括如下步骤：
分别获取相同语音内容的标准音频文件和用户输入的比对音频文件；
获取所述比对音频文件与所述标准音频文件的匹配程度；
根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对
应不同的显示文本信息。
2.根据权利要求1所述的方法，其特征在于，所述获取所述比对音频
文件与所述标准音频文件的匹配程度的步骤，包括
提取所述标准音频文件位于起始时刻和结束时刻之间的第一音调信
息；
提取所述比对音频文件位于起始时刻和结束时刻之间的第二音调信
息；
将所述第二音调信息与所述第一音调信息进行比较，以得到所述第二
音调信息与所述第一音调信息的相似度。
3.根据权利要求2所述的方法，其特征在于，不同的相似度区间对应
不同的显示文本信息。
4.根据权利要求1所述的方法，其特征在于，还包括获取所述标准音
频文件的音频发出者的信息，所述显示文本信息与所述音频发出者相对应。
5.根据权利要求1-4任一所述的方法，其特征在于，所述显示文本信
息和/音频发出者的信息存储在内容分发网络服务器中。
6.一种音频处理装置，其特征在于，包括：
输入单元，分别获取相同语音内容的标准音频文件和用户输入的比对
音频文件；
匹配单元，获取所述比对音频文件与所述标准音频文件的匹配程度；
文本显示单元，根据所述匹配程度获取对应的显示文本信息，不同的
匹配程度区间对应不同的显示文本信息。
7.根据权利要求6所述的装置，其特征在于，所述匹配单元包括
第一音调信息提取子单元，提取所述标准音频文件位于起始时刻和结
束时刻之间的第一音调信息；
第二音调信息提取子单元，提取所述比对音频文件位于起始时刻和结
束时刻之间的第二音调信息；
相似度计算子单元，将所述第二音调信息与所述第一音调信息进行比
较，以得到所述第二音调信息与所述第一音调信息的相似度。
8.根据权利要求7所述的装置，其特征在于，所述显示单元中，不同
的相似度区间对应不同的显示文本信息。
9.根据权利要求6或7或8所述的装置，其特征在于，还包括音频发
出者显示单元，获取所述标准音频文件的音频发出者的信息，所述显示文
本信息与所述音频发出者相对应。
10.根据权利要求6-9任一所述的装置，其特征在于，所述显示文本
信息存储在内容分发网络服务器中。

说明书

一种音频处理方法及装置

技术领域

本发明涉及声电领域，具体涉及一种音频处理方法及装置。

背景技术

K歌是目前很受欢迎的娱乐项目之一，K歌软件由于方便使用，也很受
欢迎。k歌软件其实就电脑录音软件，把用户自己的歌声融入在软件提供的
伴奏中，之后可以用软件进行免费的卡拉音频效果处理和ok音频编辑，比
如背景噪音处理、音频数据编辑、混音设置等。全民k歌是一款由腾讯公
司出品的k歌软件，具有智能打分、专业混音、好友擂台、趣味互动以及
社交分享功能。在K歌录歌页面，用户可以对着歌词，播放伴奏来录制歌
曲。用户在唱歌、录歌的过程中，全民K歌系统中还具有为用户唱歌打分
的分数展示区。

无论是全民K歌线上的版本，还是行业内的K歌产品，在唱歌的过程
中一般会使用分数来帮助用户感知自己这一句唱的怎么样，以便于用户的
改进和提高。但不同的K歌系统对分数的定义不同，总分数设置的也不同，
因此只通过一个分数用户很难明确自己唱歌的水平，用户体验性差。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的k歌评测方法
中用户很难明确自己的歌唱水平使得用户体验性差的缺陷，从而提供一种
提高了用户体验性的音频处理方法和系统。

本实施例中提供一种音频处理方法，包括如下步骤：

分别获取相同语音内容的标准音频文件和用户输入的比对音频文件；

获取所述比对音频文件与所述标准音频文件的匹配程度；

根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对
应不同的显示文本信息。

优选地，所述获取所述比对音频文件与所述标准音频文件的匹配程度
的步骤，包括

提取所述标准音频文件位于起始时刻和结束时刻之间的第一音调信
息；

提取所述比对音频文件位于起始时刻和结束时刻之间的第二音调信
息；

将所述第二音调信息与所述第一音调信息进行比较，以得到所述第二
音调信息与所述第一音调信息的相似度。

优选地，不同的相似度区间对应不同的显示文本信息。

优选地，还包括获取所述标准音频文件的音频发出者的信息，所述显
示文本信息与所述音频发出者相对应。

优选地，所述显示文本信息和/音频发出者的信息存储在内容分发网络
服务器中。

此外，本发明还提供一种音频处理装置，包括：

输入单元，分别获取相同语音内容的标准音频文件和用户输入的比对
音频文件；

匹配单元，获取所述比对音频文件与所述标准音频文件的匹配程度；

文本显示单元，根据所述匹配程度获取对应的显示文本信息，不同的
匹配程度区间对应不同的显示文本信息。

优选地，所述匹配单元包括

第一音调信息提取子单元，提取所述标准音频文件位于起始时刻和结
束时刻之间的第一音调信息；

第二音调信息提取子单元，提取所述比对音频文件位于起始时刻和结
束时刻之间的第二音调信息；

相似度计算子单元，将所述第二音调信息与所述第一音调信息进行比
较，以得到所述第二音调信息与所述第一音调信息的相似度。

优选地，所述显示单元中，不同的相似度区间对应不同的显示文本信
息。

优选地，还包括音频发出者显示单元，获取所述标准音频文件的音频
发出者的信息，所述显示文本信息与所述音频发出者相对应。

优选地，所述显示文本信息存储在内容分发网络服务器中。

本发明技术方案，具有如下优点：

1.本发明提供的音频处理方法，首先分别获取相同语音内容的标准音
频文件和用户输入的比对音频文件，然后获取所述比对音频文件与所述标
准音频文件的匹配程度，之后，根据所述匹配程度获取对应的显示文本信
息，不同的匹配程度区间对应不同的显示文本信息。该方案中根据用户输
入的比对音频文件与标准音频文件的匹配程度来选择显示文本信息，避免
了现有技术中只显示一个分数用户很难明确自己唱歌的水平的问题，针对
用户的唱歌水平给出多样性的文字提示，使得用户可以更好的了解其水平，
提高了用户体验。

2.本发明所述的音频处理方法，通过将来自比对音频文件的第二音调
信息与来自标准音频文件的第一音调信息进行比较，以得到所述第二音调
信息与所述第一音调信息的相似度，从而客观地体现出用户的水平，为用
户了解其自身水平提供客观依据。

3.本发明所述的音频处理方法，还包括获取所述标准音频文件的音频
发出者的信息，所述显示文本信息与所述音频发出者相对应。所述标准音
频文件的音频发出者也就是该歌曲对应的歌手，由于不同的歌手具有不同
的风格，因此将显示文本信息与歌手的信息相对应，可以选择与歌手风格
一致的文本显示信息，使得显示文本的针对性更强，具有更好的用户体验。

4.本发明所述的音频处理方法，将显示文本信息和/音频发出者的信
息存储在内容分发网络服务器中，可以提高资源的利用率，减少用户在首
次获取歌手信息和显示文本信息时的时间。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下
面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，
显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普
通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获
得其他的附图。

图1为本发明实施例1中手机上的K歌应用系统的示意图；

图2为本发明实施例1中的音频处理方法的流程图；

图3为本发明实施例1中的K歌系统的界面示意图；

图4为本发明实施例1中的比对音频文件与所述标准音频文件的匹配
程度的流程图；

图5为本发明实施例2中的音频处理装置的结构框图；

图6为本发明实施例2中的音频处理装置的匹配单元的结构框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，
所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发
明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得
的所有其他实施例，都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间
未构成冲突就可以相互结合。

实施例1

本实施例提供一种音频处理方法，可用于KTV的K歌系统中，也可以应
用于手机、电脑等智能设备的K歌应用系统中，还可以应用于网络中在线
的K歌网页中。如图1给出了一种用于手机上的K歌应用系统，该音频处
理方法可应用该K歌系统中。在该K歌系统中，预先存储有若干歌曲的伴
奏音乐，以及每首伴奏音乐的标准音频文件，这些标准音频文件也就是歌
曲的原唱的音频信息，可以通过midi格式的音乐来存储。

本实施例中的音频处理方法，流程图如图2所示，包括以下步骤：

S1、分别获取相同语音内容的标准音频文件和用户输入的比对音频文
件。

标准音频文件和用户输入的比对音频文件都是针对同一首歌曲，标准
音频文件是当前选定歌曲的原唱歌手的音频文件，一般预存为midi格式。
用户输入的比对音频文件也就是用户演唱的音频文件，当然此处可以是用
户实时演唱的音频文件，也可以是用户预先录制好的音频文件，可以选用
常用的wav音频格式。此处音频文件的长度可以是用户演唱的一句歌曲或
几句歌曲。

S2、获取所述比对音频文件与所述标准音频文件的匹配程度。

该步骤中比对音频文件与所述标准音频文件的匹配程度可以有多种获
取方式，如可以采用现有技术中的打分方法，为比对音频文件打分，分数
越高说明匹配程度越高。

S3、根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区
间对应不同的显示文本信息。

根据步骤S2中得到的匹配程度，获取与其相对应的显示文本信息。此
处不同的匹配程度区间对应不同的显示文本信息，在界面上预留有显示文
本信息的空间。例如匹配程度为大于80％，则对应的显示文本信息为称赞，
如“太棒了”“歌王”“赞一个”等信息；如匹配程度为60％-80％，则对应的
显示文本为鼓励，如“还不错”“唱的还可以”等信息；如匹配程度小于60％，
则对应的显示文本为激励，如“加油啊”“继续努力吧”“有待提高”等。
匹配区间的大小可以根据匹配程度的计算方式来设置，如果匹配程度的要
求较高，很难达到较高的匹配程度，则可以将匹配区间的阈值设置的低一
些；如果匹配程度的要求不是很高，则可以相应地调整匹配区间的阈值。

该方案中根据用户输入的比对音频文件与标准音频文件的匹配程度来
选择显示文本信息，避免了现有技术中只显示一个分数用户很难明确自己
唱歌的水平的问题，针对用户的唱歌水平给出多样性的文字提示，使得用
户可以更好的了解其水平，提高了用户体验。

作为进一步优化的实施方案，还可以在用户唱歌之前也显示相应的文
本信息，用于提示并鼓励用户开始进行唱歌，如“期待你的表现”。在用户
唱完之间也可以显示相应的结束文本信息，提示用户已经唱完并给出总体
评价。

作为进一步的实现方案，还可以获取所述标准音频文件的音频发出者
的信息，此处的音频发出者也就是该歌曲的原唱的歌手信息，如歌手的头
像、名称、歌手形式的动画等信息，歌手的头像或形象动画可以通过图片
或动画的形式显示在界面上。为了使得用户获取最佳的用户体验，可以将
所述显示文本信息与所述音频发出者相对应，也就是针对每位歌手的性格
特点和语言习惯，设置个性化的显示文本信息，当用户唱歌时，根据其唱
歌情况，给出对应的情感化的鼓励文案，使得用户的体验性更好，可以客
观的获得其演唱水平，也增加了趣味性。在显示界面上，可将歌手的头像
信息和显示的文本信息共同展示，更加直观。如图3给出了一个该K歌系
统的界面，可以显示歌曲的信息、歌手信息以及对应该歌手和当前演唱者
的演唱水平的显示文本信息，下方还可以显示当前演唱者录入的声音的波
形和滚动的歌词。

在上述方法的实现过程中，可以采用json配置文件的形式管理文案，
文案可以分为几个状态，如：开始、称赞、鼓励、激励、结束，还可以包
括分数显示。每种状态配置一种规则，如称赞的规则为两次分数大于90。
还可以针对每个歌手设置一个头像或者动作，每种状态对应不同的文本信
息，如称赞状态下，可以针对歌手的语言习惯设置为“你好棒”“太棒了”
等。

例如一个完整的json样式如下：

[{“state”:“praise”,“rule”:“scroe>90&&score1>90”,“avatar”:
“http://abc.com/sample.png”,“terms”:[“你好棒”,“继续加油
哦”]}]

可以借助有限状态机的原理，在录音的过程中，歌手会在生命周期出
现如下的状态变化：开始->[称赞，鼓励，报告分数]->结束。

作为其他可以替换的实施方案，上述步骤S2中获取所述比对音频文件
与所述标准音频文件的匹配程度的步骤，还可以通过如下过程来实现，流
程图如图4所示：

S21、提取所述标准音频文件位于起始时刻和结束时刻之间的第一音调
信息。

标准音频文件和比对音频文件的起始时刻和结束时刻都是对应的，先
提取标准音频文件位于起始时刻和结束时刻之间的音频文件，midi格式的
音频文件中记录了其音频的变化等信息，从中可以获取其音调的信息，作
为第一音调信息。

S22、提取所述比对音频文件位于起始时刻和结束时刻之间的第二音调
信息。

比对音频文件是录入的用户的音频信息，可以是WAV等语音格式，通
过去噪等处理后，获取与标准音频文件时间相对应的位于起始时刻和结束
时刻之间的音频信号，然后通过基频检测算法如基于自相关的基频检测算
法，可以得到该音频信号的音调高低的信息，作为第二音调信息。

S23、将所述第二音调信息与所述第一音调信息进行比较，以得到所述
第二音调信息与所述第一音调信息的相似度。

将上述第二音调信息与所述第一音调信息进行比较时，可以通过比较
其幅值的变化率、频率变化等方面，确定第二音调信息与所述第一音调信
息的相似度，采用不同的比较方式相似度会略有不同，但差别大不。

通过该相似度来表征这两个音频文件的匹配程度，在步骤S3中不同的
相似度区间对应不同的显示文本信息，通过相似度的大小可获得其对应的
相似度区间，从而获取其对应的显示文本信息进行显示。此外，也可以将
当前歌曲对应的歌手信息共同展示，也可以采用上述方案中选择与符合歌
手特点的显示文本信息和歌手的头像共同显示。

作为进一步优化的方案，上述显示文本信息(如各种现实信息)和音
频发出者的信息(即歌手的头像、动作等信息)存储在内容分发网络服务
器中。为了提高资源获取的效率，减少用户在首次获取歌手文案资源的时
间，所有的歌手文案，头像等资源均存放在CDN(内容分发网络)服务器中。
此外，每次音乐播放都加在歌手头像，语句等信息会导致用户等待时间过
长，因此，还可以采用缓存的措施，将新的歌手信息缓存到本地，有效地
减少了网络请求的时间。歌手文案由一个工厂类如定义为
SingerExpressionFactory来管理，当需要获取一个歌手文案时，该类会先
从本地查找，找到直接返回，查找失败，会发起网络请求，然后将结果保
存本地再返回。当用户在唱歌时，不再只能干瘪的数字反馈，同时可以获
得来自这首歌原唱的情感化表达，让唱歌这件事情变得更加富于情感化和
趣味性。

实施例2

本实施例中提供一种音频处理装置，结构框图如图5所示，可用于KTV
系统中，包括：

输入单元1，分别获取相同语音内容的标准音频文件和用户输入的比对
音频文件；

匹配单元2，获取所述比对音频文件与所述标准音频文件的匹配程度；

文本显示单元3，根据所述匹配程度获取对应的显示文本信息，不同的
匹配程度区间对应不同的显示文本信息。

其中，所述匹配单元结构框图如图6所示，包括

第一音调信息提取子单元21，提取所述标准音频文件位于起始时刻和
结束时刻之间的第一音调信息；

第二音调信息提取子单元22，提取所述比对音频文件位于起始时刻和
结束时刻之间的第二音调信息；

相似度计算子单元23，将所述第二音调信息与所述第一音调信息进行
比较，以得到所述第二音调信息与所述第一音调信息的相似度。

其中，所述显示单元中，不同的相似度区间对应不同的显示文本信息。

优选地，还包括音频发出者显示单元，获取所述标准音频文件的音频
发出者的信息，所述显示文本信息与所述音频发出者相对应。

进一步优选地，所述显示文本信息存储在内容分发网络服务器中。

本实施中的音频处理装置，根据用户输入的比对音频文件与标准音频
文件的匹配程度来选择显示文本信息，避免了现有技术中只显示一个分数
用户很难明确自己唱歌的水平的问题，针对用户的唱歌水平给出多样性的
文字提示，使得用户可以更好的了解其水平，提高了用户体验

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、
或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施
例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个
或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不
限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形
式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序
产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流
程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中
的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专
用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个
机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产
生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方
框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理
设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存
储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个
流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备
上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机
实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现
在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的
功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方
式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可
以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予
以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保
护范围之中。