《音频相似度的检测方法和检测装置、电子设备.pdf》由会员分享,可在线阅读,更多相关《音频相似度的检测方法和检测装置、电子设备.pdf(26页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104133851A43申请公布日20141105CN104133851A21申请号201410320089X22申请日20140707G06F17/3020060171申请人小米科技有限责任公司地址100085北京市海淀区清河中街68号华润五彩城购物中心二期13层72发明人沈建荣谭国斌马哲74专利代理机构北京三高永信知识产权代理有限责任公司11138代理人刘映东54发明名称音频相似度的检测方法和检测装置、电子设备57摘要本公开是关于音频相似度的检测方法和检测装置、电子设备,该检测方法包括获取待检测音频流;确定所述待检测音频流的特征参数值;将预先获知的所述待检测音频流对应的参。
2、考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较;根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。在本公开的技术方案中,通过将音频流之间的特征参数值进行比较,使得相似度的判断更为准确、量化,有助于提升用户的使用体验。51INTCL权利要求书3页说明书16页附图6页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书16页附图6页10申请公布号CN104133851ACN104133851A1/3页21一种音频相似度的检测方法,其特征在于,包括获取待检测音频流;确定所述待检测音频流的特征参数值;将预先获知的所述待检测音频流对应的参考音频流的特征参数值。
3、,与所述待检测音频流的特征参数值进行比较;根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。2根据权利要求1所述的检测方法,其特征在于,确定所述待检测音频流的特征参数值包括解析所述待检测音频流,得到数字脉冲信号的强度值;累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述待检测音频流的特征参数值。3根据权利要求2所述的检测方法,其特征在于,累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述特征参数值包括调用所述参考音频流中的数字脉冲信号的最大强度值;根据所述最大强度值,对所述待检测音频流的数字脉冲信号的强度值进行归一化处理;累加归一化处理后的数字脉冲信号的强度值,并将。
4、得到的累加强度值作为所述待检测音频流的特征参数值。4根据权利要求2所述的检测方法,其特征在于,累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述特征参数值包括调用预配置的字幕分割策略;采用所述字幕分割策略将所述待检测音频流的数字脉冲信号的强度值划分为多个组;分别计算出每个组的累加强度值,并将得到的累加强度值作为所述待检测音频流的特征参数值。5根据权利要求1所述的检测方法,其特征在于,将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较包括根据用于预先对所述参考音频流进行量化处理的量化策略,对所述待检测音频流的特征参数值进行量化处理;根据量化后的。
5、所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。6根据权利要求5所述的检测方法,其特征在于,根据用于预先对所述参考音频流进行量化处理的量化策略,对所述待检测音频流的特征参数值进行量化处理包括调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系;将所述待检测音频流的特征参数值与所述对应关系进行匹配,获得所述待检测音频流的特征参数值所属的量化区间;将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特征参数值。7根据权利要求1所述的检测方法,其特征在于,将预先获知的所述待检测音频流对权利要求书CN104133851A2/3页3应的参考音。
6、频流的特征参数值,与所述待检测音频流的特征参数值进行比较包括当所述待检测音频流被划分为多个音频块时,确定每个音频块与播放时间轴之间的对应关系;根据所述对应关系,分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值进行比较。8一种音频相似度的检测装置,其特征在于,包括获取单元,用于获取待检测音频流;确定单元,用于确定所述待检测音频流的特征参数值;比较单元,用于将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较;计算单元,用于根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。9根据权利要求8所述的检测装。
7、置,其特征在于,所述确定单元包括解析子单元,用于解析所述待检测音频流,得到数字脉冲信号的强度值;累加子单元,用于累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述待检测音频流的特征参数值。10根据权利要求9所述的检测装置,其特征在于,所述累加子单元包括第一调用模块,用于调用所述参考音频流中的数字脉冲信号的最大强度值;处理模块,用于根据所述最大强度值,对所述待检测音频流的数字脉冲信号的强度值进行归一化处理;第一计算模块,用于累加归一化处理后的数字脉冲信号的强度值,并将得到的累加强度值作为所述待检测音频流的特征参数值。11根据权利要求9所述的检测装置,其特征在于,所述累加子单元包括第二调用模。
8、块,用于调用预配置的字幕分割策略;划分模块,用于采用所述字幕分割策略将所述待检测音频流的数字脉冲信号的强度值划分为多个组;第二计算模块,用于分别计算出每个组的累加强度值,并将得到的累加强度值作为所述待检测音频流的特征参数值。12根据权利要求8所述的检测装置,其特征在于,所述比较单元包括量化子单元,用于根据用于预先对所述参考音频流进行量化处理的量化策略,对所述待检测音频流的特征参数值进行量化处理;第一处理子单元,用于根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。13根据权利要求12所述的检测装置,其特征在于,所述量化子单元包括第三调用模块,用于调用根据。
9、所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系;匹配模块,用于将所述待检测音频流的特征参数值与所述对应关系进行匹配,获得所述待检测音频流的特征参数值所属的量化区间;处理模块,用于将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测权利要求书CN104133851A3/3页4音频流的特征参数值。14根据权利要求8所述的检测装置,其特征在于,所述比较单元包括确定子单元,用于当所述待检测音频流被划分为多个音频块时,确定每个音频块与播放时间轴之间的对应关系;第二处理子单元,用于根据所述对应关系,分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值。
10、进行比较。15一种电子设备,其特征在于,包括处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为获取待检测音频流;确定所述待检测音频流的特征参数值;将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较;根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。权利要求书CN104133851A1/16页5音频相似度的检测方法和检测装置、电子设备技术领域0001本公开涉及音频处理技术领域,尤其涉及音频相似度的检测方法和检测装置、电子设备。背景技术0002随着科技水平的发展,人们可以通过各种途径获取电影、电视剧、歌曲、演讲视频等影视。
11、资料。在日益加快的生活节奏下,人们已经不满足于对影视资料的单纯欣赏,而是通过模仿对白、歌曲等方式来自娱自乐,以达到身心放松、减压的目的。0003然而在相关技术中,人们只能够根据自身或他人的感受,粗略地判断出模仿过程中的音频相似度,导致音频相似度判断结果的准确性不高,影响人们的使用体验。发明内容0004本公开提供音频相似度的检测方法和检测装置,以解决相关技术中仅依据人为感受来判断音频相似度,导致判断结果准确性不高的问题。0005根据本公开实施例的第一方面,提供一种音频相似度的检测方法,包括0006获取待检测音频流;0007确定所述待检测音频流的特征参数值;0008将预先获知的所述待检测音频流对应。
12、的参考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较;0009根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。0010可选的,确定所述待检测音频流的特征参数值包括0011解析所述待检测音频流,得到数字脉冲信号的强度值;0012累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述待检测音频流的特征参数值。0013可选的,累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述特征参数值包括0014调用所述参考音频流中的数字脉冲信号的最大强度值;0015根据所述最大强度值,对所述待检测音频流的数字脉冲信号的强度值进行归一化处理;0016累加归一化处理后的数字脉冲信。
13、号的强度值,并将得到的累加强度值作为所述待检测音频流的特征参数值。0017可选的,累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述特征参数值包括0018调用预配置的字幕分割策略;0019采用所述字幕分割策略将所述待检测音频流的数字脉冲信号的强度值划分为多个组;说明书CN104133851A2/16页60020分别计算出每个组的累加强度值,并将得到的累加强度值作为所述待检测音频流的特征参数值。0021可选的,将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较包括0022根据用于预先对所述参考音频流进行量化处理的量化策略,对所述待检测音频流的特。
14、征参数值进行量化处理;0023根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。0024可选的,根据用于预先对所述参考音频流进行量化处理的量化策略,对所述待检测音频流的特征参数值进行量化处理包括0025调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系;0026将所述待检测音频流的特征参数值与所述对应关系进行匹配,获得所述待检测音频流的特征参数值所属的量化区间;0027将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特征参数值。0028可选的,将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音频。
15、流的特征参数值进行比较包括0029当所述待检测音频流被划分为多个音频块时,确定每个音频块与播放时间轴之间的对应关系;0030根据所述对应关系,分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值进行比较。0031根据本公开实施例的第二方面,提供一种音频相似度的检测装置,包括0032获取单元,用于获取待检测音频流;0033确定单元,用于确定所述待检测音频流的特征参数值;0034比较单元,用于将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较;0035计算单元,用于根据所述比较的结果,计算所述待检测音频流与所述参考音频。
16、流的相似度。0036可选的,所述确定单元包括0037解析子单元,用于解析所述待检测音频流,得到数字脉冲信号的强度值;0038累加子单元,用于累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述待检测音频流的特征参数值。0039可选的,所述累加子单元包括0040第一调用模块,用于调用所述参考音频流中包含的采样到的数字脉冲信号的最大强度值;0041处理模块,用于根据所述最大强度值,对所述待检测音频流的数字脉冲信号的强度值进行归一化处理;0042第一计算模块,用于累加归一化处理后的数字脉冲信号的强度值,并将得到的累说明书CN104133851A3/16页7加强度值作为所述待检测音频流的特征参数值。
17、。0043可选的,所述累加子单元包括0044第二调用模块,用于调用预配置的字幕分割策略;0045划分模块,用于采用所述字幕分割策略将所述待检测音频流的数字脉冲信号的强度值划分为多个组;0046第二计算模块,用于分别计算出每个组的累加强度值,并将得到的累加强度值作为所述待检测音频流的特征参数值。0047可选的,所述比较单元包括0048量化子单元,用于根据用于预先对所述参考音频流进行量化处理的量化策略,对所述待检测音频流的特征参数值进行量化处理;0049第一处理子单元,用于根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。0050可选的,所述量化子单元包括0。
18、051第三调用模块,用于调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系;0052匹配模块,用于将所述待检测音频流的特征参数值与所述对应关系进行匹配,获得所述待检测音频流的特征参数值所属的量化区间;0053处理模块,用于将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特征参数值。0054可选的,所述比较单元包括0055确定子单元,用于当所述待检测音频流被划分为多个音频块时,确定每个音频块与播放时间轴之间的对应关系;0056第二处理子单元,用于根据所述对应关系,分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值进行比较。。
19、0057根据本公开实施例的第三方面,提供一种电子设备,包括0058处理器;0059用于存储处理器可执行指令的存储器;0060其中,所述处理器被配置为0061获取待检测音频流;0062确定所述待检测音频流的特征参数值;0063将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音频流的特征参数值进行比较;0064根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。0065本公开的实施例提供的技术方案可以包括以下有益效果0066本公开通过分别获取待检测音频流和参考音频流的特征参数值,使得基于该特征参数值的相似度判断过程无需依赖用户的主观感受,从而令判断结果更加准确,。
20、有助于提升用户的使用体验。0067本公开还可以通过解析音频流对应的数字脉冲信号的强度值,并基于该强度值的累加运算,实现了基于量化计算的相似度比较,有助于提升判断结果的准确性。说明书CN104133851A4/16页80068本公开还可以通过归一化处理,有助于控制数字脉冲信号的强度值的数值范围,方便对特征参数值的后续计算;同时,通过采用基于参考音频流的归一化处理,使得待检测音频流对应的数字脉冲信号的强度值被引入参考音频流对应的参考系中,从而有助于提升两者间的可比性,并提高相似度比较的准确度。0069本公开还可以通过将数字脉冲信号的强度值划分为多个数组,将待检测音频流分为多个部分,并分别将每个部分。
21、与参考音频流的相应部分进行比较,从而实现逐句、逐字比较,进一步提升用户的使用体验。0070本公开还可以通过对特征参数值的量化处理,有助于降低数值比较时的复杂度和计算量,便于本公开的技术方案在实时场景以及嵌入式设备上的实现。0071本公开还可以通过划分待检测音频流,并将每个音频块对应的特征参数值分别进行比较,从而通过控制划分区间来实现更为细致的相似度比较,比如逐句或逐字划分音频块时,即可相应实现音频相似度的逐句比较或逐字比较。0072应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明0073此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开。
22、的实施例,并与说明书一起用于解释本公开的原理。0074图1是根据一示例性实施例示出的一种音频相似度的检测方法的流程图;0075图2是根据一示例性实施例示出的一种音频相似度的检测方法中采样数字脉冲信号的示意图;0076图3是根据一示例性实施例示出的另一种音频相似度的检测方法的流程图;0077图4是根据一示例性实施例示出的一种音频相似度的检测方法中对强度值划分组的示意图;0078图5是根据一示例性实施例示出的一种音频相似度的检测方法中对特征参数值进行量化处理的示意图;0079图6是根据一示例性实施例示出的另一种音频相似度的检测方法中对特征参数值进行量化处理的示意图;0080图7是根据一示例性实施例。
23、示出的另一种音频相似度的检测方法的流程图;0081图8是根据一示例性实施例示出的一种音频相似度的检测装置的框图;0082图9是根据一示例性实施例示出的另一种音频相似度的检测装置的框图;0083图10是根据一示例性实施例示出的另一种音频相似度的检测装置的框图;0084图11是根据一示例性实施例示出的另一种音频相似度的检测装置的框图;0085图12是根据一示例性实施例示出的另一种音频相似度的检测装置的框图;0086图13是根据一示例性实施例示出的另一种音频相似度的检测装置的框图;0087图14是根据一示例性实施例示出的另一种音频相似度的检测装置的框图;0088图15是根据一示例性实施例示出的一种用。
24、于音频相似度的检测装置的一结构示意图。说明书CN104133851A5/16页9具体实施方式0089这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。0090在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解。
25、,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。0091应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在时”或“当时”或“响应于确定”。0092图1是根据一示例性实施例示出的一种音频相似度的检测方法的流程图,如图1所示,该检测方法可以用于终端中,包括以下步骤0093在步骤101中,获取待检测音频流;0094在本实。
26、施例中,用户通过模仿影视资料时进行录音,则从该录音中提取出仅包含用户人声的音频流,即待检测音频流。待检测音频流可以由终端上配置的录音设备直接采集得到;或者,也可以由其他录音设备采集,并将该待检测音频流在终端上进行相似度检测。同时,实时采集待检测音频流和执行相似度检测操作;或者,也可以事先采集待检测音频流,并在之后的任意时刻执行相似度检测操作。0095在步骤102中,确定所述待检测音频流的特征参数值;0096在本实施例中,针对不同格式的待检测音频流,其对应的特征参数也可能存在差异;而同一格式的待检测音频流也可以通过多种不同的特征参数进行表征。因此,可以根据实际需求来确定具体用于相似度检测的特征参。
27、数,并确定对应的特征参数值。0097在本实施例中,比如待检测音频流可以为PCMPULSECODEMODULATION,脉冲编码调制流,则特征参数值可以是该PCM流的数字脉冲信号的强度值。比如图2为一示例性实施例示出的一种音频相似度的检测方法的采样数字脉冲信号的示意图,其中按照预设的采样率对录音设备采集到的用户声音的模拟量进行采样,则在各个采样点分别对应于T1、T2T19等时间点分别得到对应的数字脉冲信号的强度值用于构成待检测音频流,而这些数字脉冲信号的强度值即可用于实现基于数值的、量化的相似度比较。0098在步骤103中,将预先获知的所述待检测音频流对应的参考音频流的特征参数值,与所述待检测音。
28、频流的特征参数值进行比较;0099在本实施例中,参考音频流来自被模仿的影视资料。比如当被模仿的影视资料为歌曲时,该参考音频流为该歌曲中仅包含原唱人声的音频流;或者,被模仿的声音也可以不是人声,比如动物的叫声,则参考音频流为相应影视资料中仅包含该动物声音的音频流,以避免背景音乐等其他声音的干扰。0100在本实施例中,对于参考音频流和待检测音频流的处理方式应当相同或相对应,说明书CN104133851A6/16页10以确保分别得到的特征参数值具有更强的可比性。0101在本实施例中,将参考音频流的特征参数值与待检测音频流的特征参数值进行比较时,实际上是计算出两个数值之间的相对比例。比如当参考音频流的。
29、特征参数值为VA、待检测音频流的特征参数值为VB时,比较的方式可以为VA/VB的形式、或者VB/VA的形式、或者的形式等。0102在步骤104中,根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。0103在本实施例中,以VA/VB的形式进行比较为例。假定VAVB,则VA/VB的数值大于1,则可以将VB/VA的计算结果转换为百分制的分数值,作为待检测音频流与参考音频流的相似度;假定VAVB,则VA/VB的数值属于区间0,1,则可以直接将VA/VB的计算结果转换为百分制的分数值,作为待检测音频流与参考音频流的相似度;假定VAVB,则VA/VB1,即待检测音频流的与参考音频流的相似度。
30、为100。0104由上述实施例可见,通过分别获取待检测音频流和参考音频流的特征参数值,并执行基于特征参数值的比较,无需依赖于用户的主观感受,而能够实现更为量化的相似度判断,使计算出的相似度结果更准确,有助于提升用户的使用体验。0105作为典型场景的应用,以图2所示的PCM流的待检测音频流和参考音频流为例进行说明。在步骤102中计算待检测音频流的特征参数值时,可以通过解析所述待检测音频流,得到数字脉冲信号的强度值。作为一示例性实施例,可以直接执行数字脉冲信号的强度值之间的比较操作,比如按照采样顺序将对应于同一时刻的两个数字脉冲信号分别对应于待检测音频流和参考音频流的强度值进行数值比较,并最终合并。
31、所有数字脉冲信号对应的比较结果。0106或者,作为另一示例性实施例,也可以累加所述数字脉冲信号的强度值,将得到的累加强度值作为所述待检测音频流的特征参数值。通过执行对数字脉冲信号的累加操作,使得特征参数值的数量减小,从而有助于降低数值比较过程和相似度计算过程的计算量,便于实现对相似度的实时计算和在嵌入式设备上的应用。0107作为一示例性实施例,还可以对数字脉冲信号的强度值进行归一化等量化处理,其处理步骤如下调用所述参考音频流中包含的采样到的数字脉冲信号的最大强度值;根据所述最大强度值,对所述数字脉冲信号的强度值进行归一化处理;通过累加归一化处理后的数字脉冲信号的强度值,计算所述待检测音频流的特。
32、征参数值。0108在本实施例中,当需要对待检测音频流的数字脉冲信号的强度值进行归一化处理时,参考音频流的数字脉冲信号的强度值也应当已经预先执行了相同的归一化处理,以确保得到的特征参数值具有可比性。比如可以将每个数字脉冲信号的强度值均除以调用的最大强度值,从而将所有的数字脉冲信号的强度值均归一化至数值区间0,1。0109由上述实施例可知,对数字脉冲信号的强度值进行累加时,可以将所有强度值进行累加,即针对待检测音频流和参考音频流,给出一个整体上的相似度判断,比如在用户完成一首歌曲的演唱之后,给出相应的得分;或者,也可以对数字脉冲信号的强度值进行分组累加,以实现更为精准的相似度判断,下面将结合图3进。
33、行说明。说明书CN104133851A107/16页110110图3是根据一示例性实施例示出的一种音频相似度的检测方法的流程图,如图3所示,该检测方法可以包括以下步骤0111在步骤301中,获取待检测音频流;0112在步骤302中,解析所述待检测音频流,得到数字脉冲信号的强度值;0113在步骤303中,调用预配置的字幕分割策略;0114在本实施例中,当需要对待检测音频流执行数字脉冲信号的强度值的分组操作时,参考音频流也应当已经预先执行了相应的分组操作,即采用该预配置的字幕分割策略实现所述分组操作,以确保得到的特征参考值具有可比性。0115在步骤304中,采用所述字幕分割策略将所述数字脉冲信号的。
34、强度值划分为多个组;0116在本实施例中,由于待检测音频流、参考音频流和字幕均需要按照相同的时间轴进行播放,因而三者在时间上具有同步性。基于时间上的同步性,则待检测音频流对应的数字脉冲信号的强度值的采样时间点与字幕时间轴之间就存在对应关系,即通过向时间轴的投影,使得字幕中的每个字与数字脉冲信号的强度值之间存在一一对应的映射关系,从而能够实现逐字或逐句地对数字脉冲信号的强度值进行组的划分。0117请参考图4,以用户对某歌曲的翻唱为例进行说明。假定图4所示的待检测音频流为用户实际翻唱过程中录制得到的,其中的每个采样点对应于一个数字脉冲信号。待检测音频流和字幕均沿时间轴进行播放,因而能够按照字幕来实。
35、现对数字脉冲信号的强度值的数组划分。0118假定需要执行逐字判断相似度。根据图4所示的对应关系,则待检测音频流中的15个数字脉冲信号的强度值分为一组,对应于字幕中的“今”;待检测音频流中的610个数字脉冲信号的强度值分为另一组,对应于字幕中的“天”;依此实现对所有数字脉冲信号的强度值的数组划分。0119在步骤305中,分别计算出每个组的累加强度值,并将得到的累加强度值作为所述待检测音频流的特征参数值;0120在本实施例中,以逐字判断相似度为例。通过计算每个数组对应的累加强度值,从而得到分别对应于每个字的特征参数值,从而通过将对应于同一个字的两个特征参数值分别来自待检测音频流和参考音频流进行数值。
36、比较,即可得到用户在模仿这个字时的相似度。0121作为一示例性实施例,比如可以按照下述公式来实现对数字脉冲信号的强度值的累加计算01220123其中,VI为当前数组中累加至第I个强度值时的累加强度值,LI为当前数组中的第1个强度值的采样时间点至第I个强度值的采样时间点之间的时间长度,VI1为当前数组中的第I1个强度值,LI1为当前数组中的第I个强度值的采样时间点与第I1个强度值的采样时间点之间的时间长度。0124当然,如果选择逐句判断,则作为一示例性实施例,可以按句对数字脉冲信号的强度值进行数组划分,计算每个数组对应的累加强度值,并通过将对应于同一个句子的两个说明书CN104133851A11。
37、8/16页12特征参数值分别来自待检测音频流和参考音频流进行数值比较,即可得到用户在模仿这个句子时的相似度,此处不再赘述。而作为另一示例性实施例,也可以先按照逐字判断的方式,分别获取每个字对应的累加强度值的比较结果或相似度,再据此确定整个句子对应的相似度。0125在步骤306中,将所述参考音频流的特征参数值与所述待检测音频流的特征参数值进行比较;0126作为一示例性实施例,还可以对每个数组对应的累加强度值进行量化处理,包括根据用于预先对所述参考音频流进行量化处理的量化策略,对所述待检测音频流的特征参数值进行量化处理;根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进。
38、行所述比较。0127在本实施例中,当需要对每个数组对应的累加强度值进行量化处理时,参考音频流也应当已经预先执行了相应的分组操作和量化处理,以确保得到的特征参考值具有可比性。而通过执行量化处理,使得累加强度值的数值范围被限定在较小的数值范围内,且降低了数值复杂度,从而有助于降低特征参数值的比较和相似度计算过程中的复杂度。0128可选的,量化处理的过程可以包括调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系;将所述待检测音频流的特征参数值与所述对应关系进行匹配,获得所述待检测音频流的特征参数值所属的量化区间;将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特。
39、征参数值。0129其中,量化处理过程中的量化区间的设置方式、量化区间与量化数值之间的对应关系等的设置方式有很多,且均可以根据实际情况来确定。下面以其中两种设置方式为例进行说明,但并不作为对本公开的限制。0130图5示出了一种量化处理的实施方式。在该实施方式中,操作步骤包括调用所述参考音频流的未量化处理时的最大特征参数值VMAX和最小特征参数值VMIN;在所述最大特征参数值VMAX和所述最小特征参数值VMIN之间设置多个数值区间,所述数值区间与量化数值一一对应;根据所述待检测音频流的特征参数值所处的数值区间,将对应的量化数值作为量化后的特征参数值。0131比如VMAX100,VMIN1,则可以在。
40、区间1,100内设置N个数值区间,比如可以将1,10设置为数值区间一,对应于量化数值1,即当待检测音频流的数字脉冲信号的强度值属于该数值区间一时,则将其量化为数值1;可以将11,20设置为数值区间二,对应于量化数值2,即当待检测音频流的数字脉冲信号的强度值属于该数值区间二时,则将其量化为数值2;依此,可以在VMAX与VMIN之间设置十个数值区间,从而将待检测音频流的数字脉冲信号的强度值均量化至区间1,10中,从而有助于降低计算的复杂度。0132可选的,图6示出了另一种量化处理的实施方式。在该实施方式中,操作步骤包括调用所述参考音频流的未量化处理的最大特征参数值VMAX、最小特征参数值VMIN和。
41、中间特征参数值VMID;分别在所述最大特征参数值VMAX和所述中间特征参数值VMID之间、所述中间特征参数值VMID和所述最小特征参数值VMIN之间设置多个数值区间,所述数值区间与量化数值一一对应;根据所述待检测音频流的特征参数值所处的数值区间,将对应的量化数值作为量化后的特征参数值。0133同样的,比如VMAX100,VMIN1,VMID51,则可以在区间1,51内设置M说明书CN104133851A129/16页13个数值区间,比如10个数值区间数值区间一为1,5,对应于量化数值1,数值区间二为6,10,对应于量化数值2;依此设置其他数值区间。同时,可以在区间51,100内设置NM个数值区。
42、间,比如5个数值区间数值区间十一假定M10为51,60,对应于量化数值11,数值区间十二为61,70,对应于量化数值12;依此设置其他数值区间。通过上述操作,使得待检测音频流的数字脉冲信号的强度值均量化至区间1,15中,从而有助于降低计算的复杂度。0134在步骤307中,根据所述比较的结果,计算所述待检测音频流与所述参考音频流的相似度。0135在本实施例中,相似度的计算可以直接采用比较的结果,也可以根据比较的结果间接得到。在直接采用比较的结果时,比如对于采用逐字判断相似度的情况,若比较结果为08,则相似度评分可以为80分即相似度为80。0136在间接采用比较的结果时,计算方式多样,可以根据实际。
43、需求进行设置。作为一示例性实施例,可以对多个比较结果对应的相似度评分进行叠加,比如采用逐字判断的同时,通过将一个句子中的所有字的相似度叠加以实现整句评分。作为另一示例性实施例,可以对比较结果的数值进行转换,以生成相似度评分,例如可以设置数值区间和评分之间的对应关系,则根据比较结果的数值所处的数值区间,即可确定相应的相似度评分。0137作为一示例性实施例,下面结合对翻唱歌曲进行评分的典型应用场景,对本公开的实施例进行描述。其中,包括对参考音频流的预配置过程,以及据此实现的对待检测音频流的相似度判断过程。01381、预配置过程0139通过预配置过程的处理,可以得到用于对待检测音频流进行相似度判断的。
44、预配置评分文件,该文件可以由终端自行生成并存储在本地;或者,也可以由服务器生成,并下载到终端后,用于终端的相似度判断操作。0140针对当前所需处理的歌曲,提取对应的参考音频流和歌词文件。其中,参考音频流可以从该歌曲的音频文件中提取,该参考音频流可以为仅包含原唱人声的PCM流,比如统一采用16BIT编码,采样率为441KHZ;而歌词文件中,应确保其记录了字幕中的每个字对应的播放时间段,比如可以包含对应的起始播放时间点和播放时长。基于上述参考音频流和歌词文件,执行下述处理步骤0141A、读取参考音频流,将其中的每个数字脉冲信号的强度值记载进内存,得到相应的数组F。比如以16BIT为单位,每个单位为。
45、一帧,按帧记载上述强度值。0142B、可选的,对数组F执行归一化操作。比如选取数组F中的最大值FMAX,并将数组F中的每个值都除以FMAX,使得每个数值都属于区间0,1,从而得到新的数组F。0143C、根据歌词文件确定每个字的时长TI代表第I个字的时长,据此将数组F若未执行步骤B,则应选用数组F进行分组,并分别计算每组对应的累加和,得到由所有累加和构成数组V,且数组V中数字的个数与歌词的个数相同。0144D、可选的,选取数组V中的最大值VMAX和最小值VMIN,然后根据VMAX和VMIN对数组V进行量化,比如量化至数值范围1,10,以作为新的数组L。或者,选取数组中的最大值VMAX、最小值VM。
46、IN和中间值VMID,然后根据最大值VMAX、最小值VMIN和中间值VMID对数组V进行量化,以得到数组L。说明书CN104133851A1310/16页140145E、数组T、数组V、数组L、数值FMAX、数值VMID、数值VMIN和数值VMAX等,均属于对应于参考音频流的特征参数值,以用于生成预配置评分文件。比如可以生成为JSON格式如下01460147当然,如果根据VMAX和VMIN对数组V进行量化,则预配置评分文件中可以不包含参数VMID。同时,如果不执行步骤B中的归一化操作,预配置评分文件中可以不包含参数FMAX;如果不执行步骤D,预配置评分文件中可以不包含参数VMID、VMAX和V。
47、MIN。01482、相似度判断过程0149终端从本地或服务器获取预配置评分文件,以确定参考音频流的特征参数值。基于预配置评分文件中包含的特征参数值的类型,终端可以确定用于待检测音频流的处理方式。比如当包含特征参数值FMAX时,则需要执行归一化处理;当包含特征参数值VMAX和VMIN时,需要据此执行量化处理;或者当包含特征参数值VMID、VMAX和VMIN,需要据此执行量化处理等。下面以预配置评分文件中包含数组T、数组L、数值FMAX、数值VMID、数值VMIN和数值VMAX为例,对相似度判断过程进行描述。0150A、调用对应于当前歌曲的预配置评分文件,解析出其中包含的数组T、数组L、数值FMA。
48、X、数值VMID、数值VMIN和数值VMAX。0151B、获取用户翻唱的待检测音频流的PCM流。以用户实时翻唱和评分为例进行说明,则需要从终端的录音设备中反复提取实时生成的PCM流片段,并执行如下处理0152B1、按照预设长度单位,读取PCM流片段中的数字脉冲信号的强度值。比如仍以16BIT为单位,读取相应的数组F。0153B2、按照读取顺序,依次累加数组F中的数值,以生成对应于累加和数组V。对应于上述的预配置过程,此处的目标是获取对应于每个字的强度值累加和,即数组V中的数值与歌词中的每个字一一对应。0154为了实现上述目的,则在执行对F中数值的累加操作时,需要记录本次累加操作的已持续时间TN。
49、OW,并与数组T中对应的时长TM即第M个字进行比较。0155B3、当TNOWTM时,结束对数组F中数值的累加和计算,并将相应的累加和VM作为数组V中的元素,该数值VM对应于歌词中的第M个字。若歌曲尚未结束,则返回步骤B1,生成对应于下一个字的数值VM1。0156C、根据数值VMID、数值VMIN和数值VMAX,对数组V中的每个数值进行量化处理,得到相应的数组L。比如对于第M个字,其对应于数组L中的数值LM,则将LM与数组说明书CN104133851A1411/16页15L中的LM进行比较,并输出相应的相似度评分。0157比如可以计算LM/LM的值,若LM/LM1,则可以将该结果直接作为评分比如当LM/LM08时,评分为80分;若LM/LM1,则可以将LM/LM作为评分比如当LM/LM125时,将LM/LM08作为评分,即80分。0158通过上述实施例,即可实现对用户的模仿音频流的逐字打分;在此基础上,通过对一个句子中的每个字对应的评分进行叠加,即可得到该句对应的评分;类似地,还可以实现对整段或整首歌曲进行评分。当然,通过对预配置评分文件的修改,比如将数组T中的数值更换为每个句子对应的时长,则可以直接实现逐句评分。0159图7是根据一示例性实施例示出的一种音频相似度的检测方法的流程图,如图7所示,。