定位音乐人声区的方法和系统.pdf

上传人:111****11 文档编号:6092359 上传时间:2019-04-10 格式:PDF 页数:16 大小:894.85KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510657200.9

申请日:

2015.10.12

公开号:

CN106571150A

公开日:

2017.04.19

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G10L 25/48申请日:20151012|||公开

IPC分类号:

G10L25/48(2013.01)I; G10L25/54(2013.01)I

主分类号:

G10L25/48

申请人:

阿里巴巴集团控股有限公司

发明人:

吴威麒; 刘华平

地址:

英属开曼群岛大开曼资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京国昊天诚知识产权代理有限公司 11315

代理人:

许志勇;王中

PDF下载: PDF下载
内容摘要

本申请公开一种定位音乐人声区的方法和系统,该方法包括:将音频信号进行分帧处理得到多个数据帧;分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧进行谐波检测;判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。通过本申请能够有效定位音乐中的人声区。

权利要求书

1.一种定位音乐人声区的方法,其特征在于,包括:
将音频信号进行分帧处理得到多个数据帧;
分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该
数据帧为非人声帧,否则对所述数据帧进行谐波检测;
判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,
否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;
将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判
定结果定位所述音频信号的人声区。
2.根据权利要求1所述的方法,其特征在于,对所述数据帧进行静音检
测判断是否为静音帧包括:
若max(abs(xn(m)))<threshold,且mean(abs(xn(m)))<1/3*threshold,则判定该
帧为静音帧;
其中,xn(m)表示第n帧的第m个样本点,1<m<fs*tms,fs表示取样频
率,tms表示帧长,max(.)表示取最大值,abs(.)表示取绝对值,mean(.)表示取
平均值,threshold表示阈值。
3.根据权利要求1所述的方法,其特征在于,对所述数据帧进行谐波检
测包括:
若max_value=max(Rn(k)),max_value>=0.3,且则对所述数
据帧进行人声分类检测,否则判定所述数据帧为非人声帧;
其中,Nvoice表示Rn(k)大于或等于0.3的个数,Nunvoice表示Rn(k)小于0.3的
个数,Rn(k)表示第n帧自相关第k个点的值,
xn(m)表示第n帧的第m个样本点,N表示帧长,lag表示偏移量。
4.根据权利要求1所述的方法,其特征在于,对所述数据帧进行人声分
类检测判定所述数据帧是否为人声帧包括:
根据预先设置的特征集合提取所述数据帧的特征数据;
对预先定义的训练数据进行聚类分析和模型训练,构建出判别模型;
根据所述判别模型对所述特征数据进行分类,从而判定所述数据帧为人
声帧或非人声帧。
5.根据权利要求4所述的方法,其特征在于,所述特征集合包括:
梅尔倒谱系数及其一阶差分系数和二阶差分系数、线性预测倒谱系数、
频谱的质心、频谱的平滑度、频谱的衰减度、频谱的局部变化量、过零率、
频谱的谐波失真度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述帧序列判定
结果定位所述音频信号的人声区包括:
对所述帧序列判定结果进行均值平滑处理,并根据预设的人声区长度限
制阈值定位所述音频信号的人声区。
7.一种定位音乐人声区的系统,其特征在于,包括:分帧模块、静音检
测模块、谐波检测模块、人声分类检测模块和人声区定位模块,其中,
所述分帧模块,用于将音频信号进行分帧处理得到多个数据帧;
所述静音检测模块,用于分别对每一个数据帧进行静音检测判断是否为
静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧执行所述谐
波检测模块;
所述谐波检测模块,用于判断所述数据帧是否为非谐波帧,如果是则判
定所述数据帧为非人声帧,否则执行所述人声分类检测模块;
所述人声分类检测模块,用于对所述数据帧进行人声分类检测判定所述
数据帧是否为人声帧;
所述人声区定位模块,用于将多个数据帧的判定结果合并为帧序列判定
结果,并根据所述帧序列判定结果定位所述音频信号的人声区。
8.根据权利要求7所述的系统,其特征在于,所述静音检测模块用于:
若max(abs(xn(m)))<threshold,且mean(abs(xn(m)))<1/3*threshold,则判定该
帧为静音帧;
其中,xn(m)表示第n帧的第m个样本点,1<m<fs*tms,fs表示取样频
率,tms表示帧长,max(.)表示取最大值,abs(.)表示取绝对值,mean(.)表示取
平均值,threshold表示阈值。
9.根据权利要求7所述的系统,其特征在于,所述谐波检测模块用于:
若max_value=max(Rn(k)),max_value>=0.3,且则对所述数
据帧进行人声分类检测,否则判定所述数据帧为非人声帧;
其中,Nvoice表示Rn(k)大于或等于0.3的个数,Nunvoice表示Rn(k)小于0.3的
个数,Rn(k)表示第n帧自相关第k个点的值,
xn(m)表示第n帧的第m个样本点,N表示帧长,lag表示偏移量。
10.根据权利要求7所述的系统,其特征在于,所述人声分类检测模块
包括:
特征提取模块,用于根据预先设置的特征集合提取所述数据帧的特征数
据;
聚类处理模块,用于对预先定义的训练数据进行聚类分析和模型训练,
构建出判别模型;
分类器判别模块,用于根据所述判别模型对所述特征数据进行分类,从
而判定所述数据帧为人声帧或非人声帧。
11.根据权利要求10所述的系统,其特征在于,所述特征集合包括:
梅尔倒谱系数及其一阶差分系数和二阶差分系数、线性预测倒谱系数、
频谱的质心、频谱的平滑度、频谱的衰减度、频谱的局部变化量、过零率、
频谱的谐波失真度。
12.根据权利要求7所述的系统,其特征在于,所述人声区定位模块用
于,对所述帧序列判定结果进行均值平滑处理,并根据预设的人声区长度限
制阈值定位所述音频信号的人声区。

说明书

定位音乐人声区的方法和系统

技术领域

本申请涉及音乐信息检测技术领域,尤其涉及一种定位音乐人声区的方
法和系统。

背景技术

检测音乐中的人声一直以来都是MIR(music information retrieval,音乐
信息检索)领域中一项难度很大,并具有挑战性的基础问题。

歌曲中的内容包括音乐和人声两部分,它们之间的频谱相互重叠,互相
影响。虽然人耳能很清晰的分辨出含人声的音乐,但是对于计算机等机器设
备来说,还不能够有效识别出音乐和人声。

综上所述,现有技术中检测音乐中的人声的技术方案的检测准确率都比
较低。

发明内容

本申请的主要目的在于提供一种定位音乐人声区的方法和系统,以克服
现有技术中的检测音乐中的人声的检测准确率较低的问题。

根据本申请实施例提供了一种定位音乐人声区的方法,其包括:

将音频信号进行分帧处理得到多个数据帧;

分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该
数据帧为非人声帧,否则对所述数据帧进行谐波检测;

判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,
否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;

将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判
定结果定位所述音频信号的人声区。

根据本申请实施例提供了一种定位音乐人声区的系统,其包括:分帧模
块、静音检测模块、谐波检测模块、人声分类检测模块和人声区定位模块,
其中,

所述分帧模块,用于将音频信号进行分帧处理得到多个数据帧;

所述静音检测模块,用于分别对每一个数据帧进行静音检测判断是否为
静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧执行所述谐
波检测模块;

所述谐波检测模块,用于判断所述数据帧是否为非谐波帧,如果是则判
定所述数据帧为非人声帧,否则执行所述人声分类检测模块;

所述人声分类检测模块,用于对所述数据帧进行人声分类检测判定所述
数据帧是否为人声帧;

所述人声区定位模块,用于将多个数据帧的判定结果合并为帧序列判定
结果,并根据所述帧序列判定结果定位所述音频信号的人声区。

根据本申请的技术方案,通过对音频信号分别进行静音检测、谐波检测、
人声分类检测等多层次的检测,能够有效定位音乐中的人声区,基于帧级的
准确率能够达到90%以上。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部
分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的
不当限定。在附图中:

图1是根据本申请一个实施例的定位音乐人声区的方法的流程图;

图2是根据本申请另一实施例的定位音乐人声区的方法的流程图;

图3是根据本申请一个实施例的人声分类检测方法的流程图;

图4是根据本申请一个实施例的计算MFCC的流程图;

图5是根据本申请一个实施例的定位音乐人声区的系统的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体
实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描
述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中
的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有
其他实施例,都属于本申请保护的范围。

根据本申请实施例,提供一种定位音乐人声区的方法。

图1是根据本申请一个实施例的定位音乐人声区的方法的流程图,如图
1所示,所述方法至少包括以下步骤:

步骤S102,将音频信号进行分帧处理得到多个数据帧。

按照预设的帧长将预先获取的音频信号进行分帧,得到若干个数据帧。
其中,所述分帧是将一个音频切分成多个时间片段,每个时间片对应于一帧
数据。

步骤S104,分别对每一个数据帧进行静音检测判断是否为静音帧,如果
是则判定该数据帧为非人声帧,否则对所述数据帧进行谐波检测。

步骤S106,判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧
为非人声帧,否则对所述数据帧进行人声分类检测判定所述数据帧是否为人
声帧。

步骤S108,将对于多个数据帧的判定结果合并为帧序列判定结果,并根
据所述帧序列判定结果定位所述音频信号的人声区。

通过上述实施例,分别对每帧数据进行静音检测、谐波检测和人声分类
检测,通过三个层次的人声检测机制准确判断音频信号中的人声帧,从而有
效定位音乐中的人声区。

下面结合图2详细描述上述处理的细节。图2是根据本申请另一实施例
的定位音乐人声区的方法的流程图,如图2所述,所述方法至少包括以下步
骤:

步骤S202,将预先获取的音频信号进行分帧处理得到多个数据帧。

在本申请实施例中,为减少计算量,缩小冗余信息,原始音频信号转成fs,
采样频率16kHz,单声道。以帧长tms为50ms进行分帧处理,设xn(m)为第n
帧的第m个样本点。

步骤S204,分别对每一个数据帧进行静音检测。

步骤S206,判断所述数据帧是否为静音帧,若是则判定该数据帧为非人
声帧,否则执行步骤S208。

具体地,如果该帧所有样本点绝对值的最大值小于阈值threshold,且平
均值小于则判定该帧为静音帧。

也就是说,如果max(abs(xn(m)))<threshold,且
则判定该帧为静音帧。其中,max(.)表示取最大值,abs(.)表示取绝对值,mean(.)
表示取平均值,threshold取0.03,1<m<fs*tms。

步骤S208,对所述数据帧进行谐波检测。

步骤S210,判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧
为非人声帧,否则执行步骤S212。

音乐中的人声频谱有非常明显的谐波结构(其中90%为浊音),而鼓声、
打击乐器等无明显的谐波结构。因此,本步骤主要是通过基频检测,筛选出
没有谐波结构的声谱,包括但不限于:鼓声、打击声、合成声、噪音等非人
声单元。

具体地,本申请采用归一化的修正自相关方法来检测基频,公式如下:


其中,xn(m)为第n帧的第m个样本点,N为帧长,lag为偏移量(lag
小于或等于N),Rn(k)为第n帧自相关第k个点的值。

设定基频范围80~800Hz,则Rn(k)在该范围内搜索出最大值max_value。

若max_value大于或等于0.3,即max_value=max(Rn(k)),max_value>=
0.3,且则判定该数据帧为待定帧,执行步骤S212;否则判定
该数据帧为非人声帧。其中,Nvoice表示Rn(k)大于或等于0.3的个数,Nunvoice表
示小于0.3的个数。

由于如管弦类乐器也具有明显的谐波结构,通过上述处理后仍然无法有
效区分出人声频谱和钢琴、管弦类乐器,下面继续执行步骤S212解决此问
题。

步骤S212,对所述数据帧进行人声分类检测,判定所述数据帧是否为人
声帧。

下面参考图3详细描述步骤S212的处理细节。图3是根据本申请另一
实施例的人声分类检测方法的流程图,如图3所述,所述方法至少包括以下
步骤:

步骤S302,根据预先设置的特征集合提取所述数据帧的特征数据。

根据本申请实施例的特征集合包括但不限于:MFCC及其一阶差分系数
和二阶差分系数、LPCC、centroid、flatness、rolloff、flux、zcr、inharmonicity,
下面详细描述每个特征的计算方式。

(1)MFCC(Mel-scaled Cepstrum Coefficients,梅尔倒谱系数)

乐器声与人声在听觉上有明显的不同,主要体现在音色的区分上,实际
上是频谱的谐波泛音分布的不同,MFCC是基于人耳的听觉响应,它能比较
好的描述能量谱的分布,差分系数能刻画出能量谱的波动和相关性。本申请
采用MFCC及其一阶、二阶差分系数作为特征集的一部分。

参考图4,为计算MFCC的流程图。首先对音频流进行分帧,逐帧加窗,
进行FFT变换得到该帧的功率谱S(n),转换成Mel尺度下的功率谱。

其中,频率f转换成Mel尺度公式为:


通过Mel带通滤波器组,得到M个子带功率值P(m)。

M个Mel三角带通滤波器组响应公式如下:


其中,1≤m≤M,M一般取40,f(m)表示第m个三角滤波器的中心频率。

接着,P(m)取对数,得到X(m)=log(P(m)),对X(m)进行N阶DCT变换,
Xk即为标准的MFCC系数,其中:

N一般取13。

进一步,一阶差分公式为:


用同样的公式处理一阶差分系数,便可得到二阶差分系数。

(2)LPCC(线性预测倒谱系数)

LPCC反映语音频谱的包络变化,而LPC(线性预测)系统其实就是全
极点模型,采样点n的输出s(n)可以通过前p个样本点线性组合:

s(n)≈a1s(n-1)+a2s(n-2)+…aps(n-p)

而a1、a2…ap即为P阶LPC系数,它由该模型的系统误差平方和最小
化求得。

LPCC系数cm可以通过对LPC系数推导出来:


(3)Centroid(频谱的质心)

相对于纯音乐区域,人声区的频谱的质心会偏向于800~4000Hz区域。

Centroid计算公式如下:


其中,一帧数据经过N个点FFT变换后,第n个点的幅值用X(n)表示。

(4)Flatness(频谱的平滑度)

其描述了频谱的平坦度,弦乐器的频谱一般都比较平坦。

Flatness计算公式如下:


(5)RollOff(频谱的衰减度)

RollOff反映频谱的形状,人声区的主要能量集中在4000Hz以内。其计
算公式如下:


(6)Flux(频谱的局部变化量)

Flux反映前后帧之间的变化,其描述相邻两帧的能量谱变化。Flux计算
公式如下:


(7)Zcr(过零率)

Zcr反映了扰动、混乱的程度,类似鼓声等Zcr合成音较大。其计算公
式如下:



其中,x(m)表示一帧数据的第m个点。

(8)Inharmonicity(频谱的谐波失真度)

Inharmonicity反映谐波的失真程度,纯弦乐器的谐波比较固定,规律明
显,Inharmonicity较小,人声Inharmonicity较大。Inharmonicity计算公式如
下:


其中,f0表示基频,fhi表示基于f0估计出的谐波分量,Xhi表示第i个谐
波的频谱幅度值。

步骤S304,对预先定义的训练数据进行聚类分析和模型训练,构建出判
别模型。

根据本申请,预先设置音频数据的两个数据集,包括:歌唱人声区和纯
音乐区(可以使用Praat软件设置完成)。例如,人声区数据集包含流行、
电子、乡村、R&B、说唱、爵士、摇滚等,男女歌手各占一半,总共50首
歌曲。纯音乐歌曲集包含前50首的非人声区部分,再加上钢琴、笛子、吉他、
二胡、鼓、电子琴等40首独奏。将每个类别数据集各取一半用于训练和测试。

训练样本集不可避免存在一些噪音数据,使用VQ聚类可以比较好的解
决上述两个问题,抽取出有代表性的主体训练数据,减小噪音数据的影响。

假定有N帧特征数据,记作:{X1,X2,...XN},聚成M类。

第一步,确定初始类别的中心:将N帧数据均分成M等份,计算每一
等分的均值,作为每个类别的初始中心,记作:{Y1,Y2,…,YM}。

第二步,用类别的中心值,根据最佳化原则构成M个胞腔,记作:

第三步,计算平均失真与相对失真。

平均失真的计算公式为:

相对失真的计算公式为:

若则计算停止,否则进行第四步。

第四步,计算这时划分的各胞腔的形心,标记这M个新形心为
n=n+1,返回第二步再进行计算,直到

最后,找出各个胞腔内所含的数据,筛选出有代表性数据。本申请中对
每个音频文件的特征集合聚成两个类别,根据两个胞腔所含样本数对比,选
择最大胞腔离中心最近的一批数据,完成训练数据的筛选工作。

步骤S306,根据所述判别模型对所述特征数据进行分类,从而判定所述
数据帧为人声帧或非人声帧。

其中,训练过程包括:对训练的两类数据进行SVM模型训练,其基本
原理是利用核函数(例如RBF核函数)将低维空间的点映射到高维空间中,
使原来在低维空间不可分的点,在高维空间中变得线性可分。找出两类样本
点的曲线边界,根据间隔最大化原则,找出最佳的分类面,而落在边界上的
样本点称之为支持向量。

支持向量机(SVM)是一种分类算法,通过寻找结构风险最小来提高学
习机的泛化能力,实现经验风险和置信范围的最小化,从而达到在样本量较
少的情况下,也能获得良好的统计规律。本申请使用核函数(例如RBF(Radial
Basis Function,径向基函数))进行高维映射,找出最佳的分类超平面。判
别过程包括:使用构建好的模型,对特征数据进行高维映射,计算与最佳的
分类超平面之间的间隔,判别所述数据帧是人声帧还是非人声帧。

由于现实样本中,始终有一些噪声点,无法将两类样本点完全可分,损
失函数中引入松弛变量,允许存在少量不可分的点,对这些点引入惩罚因子,
目标是使得损失函数最小化,解析求得能使两类可分的最佳超平面。

在本申请的一个实施例中,由于人声与音乐片段都具有一定的延续性,
不会在人声片段中出现少许的音乐帧,或者在音乐片段中出现少许的人声帧,
也就是说不会出现一些跳变的帧。本申请通过后期均值平滑处理,滤除数据
帧中的干扰帧。

假定分类结果,人声标记为1,音乐标记为0。则:


raw(j)表示第j帧的原始判别结果值,L表示偏移量,可以取值20。


Result(i)表示第i帧的最终判别结果值。

将帧序列判定结果进行均值平滑处理后,根据预设的人声区长度限制阈
值定位所述音频信号的人声区。也就是说,如果多个连续的人声帧的长度超
过长度限制阈值,则认为该多个连续的人声帧为人声区。

根据本申请实施例,还提供一种定位音乐人声区的系统。

图5是根据本申请一个实施例的定位音乐人声区的系统的结构框图,如
图5所示,所述定位音乐人声区的系统包括:分帧模块10、静音检测模块20、
谐波检测模块30、人声分类检测模块40和人声区定位模块50,其中:

分帧模块10,用于将音频信号进行分帧处理得到多个数据帧;

静音检测模块20,用于分别对每一个数据帧进行静音检测判断是否为静
音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧执行所述谐波
检测模块。具体地,若max(abs(xn(m)))<threshold,且
mean(abs(xn(m)))<1/3*threshold,则判定该帧为静音帧;其中,xn(m)为第n帧
的第m个样本点,1<m<fs*tms,fs为取样频率,tms为帧长,max(.)表示取最
大值,abs(.)表示取绝对值,mean(.)表示取平均值,threshold为阈值。

谐波检测模块30,用于判断所述数据帧是否为非谐波帧,如果是则判定
所述数据帧为非人声帧,否则执行所述人声分类检测模块。具体地,若
max_value=max(Rn(k)),max_value>=0.3,且则对所述数据帧进
行人声分类检测,否则判定所述数据帧为非人声帧;其中,Nvoice表示Rn(k)大
于或等于0.3的个数,Nunvoice表示Rn(k)小于0.3的个数,
Rn(k)为第n帧自相关第k个点的值,xn(m)为第
n帧的第m个样本点,N为帧长,lag为偏移量。

人声分类检测模块40,用于对所述数据帧进行人声分类检测判定所述数
据帧是否为人声帧。进一步,所述人声分类检测模块包括:特征提取模块,
用于根据预先设置的特征集合提取所述数据帧的特征数据;聚类处理模块,
用于对预先定义的训练数据进行聚类分析和模型训练,构建出判别模型;分
类器判别模块,用于根据所述判别模型对所述特征数据进行分类,从而判定
所述数据帧为人声帧或非人声帧。其中,所述特征集合包括:梅尔倒谱系数
及其一阶差分系数和二阶差分系数、线性预测倒谱系数、频谱的质心、频谱
的平滑度、频谱的衰减度、频谱的局部变化量、过零率、频谱的谐波失真度。

人声区定位模块50,用于将多个数据帧的判定结果合并为帧序列判定结
果,并根据所述帧序列判定结果定位所述音频信号的人声区。具体地,所述
人声区定位模块对所述帧序列判定结果进行均值平滑处理,并根据预设的人
声区长度限制阈值定位所述音频信号的人声区。

本申请的方法的操作步骤与系统的结构特征对应,可以相互参照,不再
一一赘述。

综上所述,本申请的技术方案具有以下效果:

(1)可以用于标记歌声的起点。

(2)可以用于纯乐器与带人声音乐标签分类。

(3)可以用于自动纠正歌词时间点的错位问题,梳理歌词资源,大量节
省了人力和物力。

(4)此外,可以用来辅助筛选副歌部分(副歌部分包含人声区域),辅
助用于哼唱搜索的主旋律提取(主旋律提取一般针对人声区)。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机
程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软
件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含
有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、
CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/
输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器
(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash
RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由
任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、
程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存
(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、
其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程
只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器
(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁
磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计
算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可
读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非
排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅
包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种
过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语
句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商
品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域
技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之
内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围
之内。

定位音乐人声区的方法和系统.pdf_第1页
第1页 / 共16页
定位音乐人声区的方法和系统.pdf_第2页
第2页 / 共16页
定位音乐人声区的方法和系统.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《定位音乐人声区的方法和系统.pdf》由会员分享,可在线阅读,更多相关《定位音乐人声区的方法和系统.pdf(16页珍藏版)》请在专利查询网上搜索。

本申请公开一种定位音乐人声区的方法和系统,该方法包括:将音频信号进行分帧处理得到多个数据帧;分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧进行谐波检测;判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 >


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1