音乐信息搜索方法及其设备.pdf

上传人:Y94****206 文档编号:6182891 上传时间:2019-05-17 格式:PDF 页数:21 大小:3.14MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310571089.2

申请日:

2013.11.13

公开号:

CN103810236A

公开日:

2014.05.21

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20131113|||公开

IPC分类号:

G06F17/30; G10L25/54(2013.01)I

主分类号:

G06F17/30

申请人:

三星电子株式会社; 光云大学校产学协力团

发明人:

严基完; 金炯局; 金光基

地址:

韩国京畿道水原市

优先权:

2013.07.12 KR 10-2013-0082245; 2012.11.13 US 61/725,666

专利代理机构:

北京铭硕知识产权代理有限公司 11286

代理人:

王艳娇;韩明星

PDF下载: PDF下载
内容摘要

提供了一种音乐信息搜索方法及其设备,所述音乐信息搜索方法包括:从音频数据提取调制频谱;通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生调制频谱峰值点音频指纹;经由哈希函数将产生的调制频谱峰值点音频指纹转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值;通过提取与音频查询剪辑相关的哈希键并将提取出的哈希键与哈希表指示的地址进行比较来搜索音乐信息。

权利要求书

1.一种音乐信息搜索方法,包括:
从音频数据提取调制频谱;
通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生调制频
谱峰值点音频指纹;
经由至少一个哈希函数将产生的调制频谱峰值点音频指纹转换为指示哈
希表的地址的哈希键和存储在哈希表上的哈希值;
提取与音频查询剪辑相关的哈希键,通过将提取出的哈希键与哈希表指
示的地址进行比较来搜索音乐信息。
2.一种音乐信息搜索方法,包括:
从音频数据提取调制频谱;
经由调制频谱归一化处理,对提取出的调制频谱进行归一化,以从提取
出的调制频谱删除与不指示音频信号的唯一特征的不必要区域的重叠;
将与针对噪声环境比第一阈值弱的第一调制频谱峰值点相关的位置信息
和与针对噪声环境比第一阈值强的第二调制频谱峰值点的位置信息进行区
分,并提取第二调制频谱峰值点;
将与提取出的第二调制频谱峰值点相关的位置信息转换为调制频谱峰值
点音频指纹;
通过使用至少一个哈希函数,将分别分配到调制频谱峰值点音频指纹和
音乐歌曲的标识号转换为指示哈希表的地址的哈希键和存储在哈希表上的哈
希值,并在哈希表上存储转换的结果;
从音频查询剪辑提取调制频谱;
经由调制频谱归一化处理,对提取出的音频查询调制频谱进行归一化,
以从提取出的调制频谱删除与不指示音频查询信号的唯一特征的不必要区域
的重叠;
将归一化的音频查询调制频谱之中的与针对噪声环境比第二阈值弱的第
一音频查询调制频谱峰值点相关的位置信息和与针对噪声环境比第二阈值强
的第二音频查询调制频谱峰值点进行区分,并提取第二音频查询调制频谱峰
值点;
将与提取出的第二音频查询调制频谱峰值点相关的位置信息转换为与第
二音频查询调制频谱峰值点相关的音频指纹;
从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱
峰值点相关的位置信息;
将与第二提取出的调制频谱峰值点相关的位置信息转换为调制频谱峰值
点音频指纹;
通过使用至少一个哈希函数计算哈希键,来从提取出的音频查询剪辑的
调制频谱峰值点音频指纹获得分别与地址相应的哈希表的哈希值;
通过从获得的哈希值获得音频索引信息来确定最终搜索结果。
3.如权利要求2所述的音乐信息搜索方法,其中,从音频数据提取调制
频谱的步骤包括:通过执行快速傅里叶变换(FFT)来提取音频数据的频谱系
数,并经由至少一个调制函数将提取出的频谱系数转换为调制频谱。
4.如权利要求2所述的音乐信息搜索方法,其中,对调制频谱进行归一
化的步骤包括:使用零均值归一化、倒谱均值归一化、分贝标度归一化、通
过使用均值的归一化、通过使用中值的归一化和分位数归一化之中的至少一
个归一化方法。
5.如权利要求2所述的音乐信息搜索方法,其中,提取调制频谱峰值点
的步骤包括:使用有限脉冲响应滤波器、无限脉冲响应滤波器、卡尔曼滤波
器、频谱扣除(deduction)、用于计算调制频谱的最小分量并通过使用计算
出的最小分量计算调制频谱峰值点的方法、用于通过使用能够经使用调制频
谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值点的方法、用
于通过使用过零率和能量来删除噪声的方法之中的至少一个。
6.如权利要求2所述的音乐信息搜索方法,其中,转换为音频查询调制
频谱峰值点音频指纹的步骤包括:通过使用指示提取出的第二调制频谱峰值
点的位置的值,将存在于区分的第二调制频谱峰值点之间的预设间隔内的位
置信息获得为调制频谱峰值点音频指纹。
7.如权利要求2所述的音乐信息搜索方法,其中,存储在哈希表上的步
骤包括:
经由至少一个哈希函数,通过使用与产生的调制频谱峰值点音频指纹相
关的信息,计算指示哈希表的各个地址的哈希键和与哈希表相关的哈希值;
基于计算出的哈希键和哈希值,通过将调制频谱峰值点音频指纹存储在
哈希表上来产生哈希表。
8.如权利要求2所述的音乐信息搜索方法,其中,从音频查询剪辑提取
调制频谱的步骤包括:
通过执行音频数据和音频查询剪辑数据中的每一个的各个FFT来提取频
谱系数;
经由至少一个调制函数将提取出的频谱系数转换为调制频谱。
9.如权利要求2所述的音乐信息搜索方法,其中,从提取出的音频查询
剪辑的调制频谱之中提取与第二音频查询调制频谱峰值点相关的位置信息的
步骤包括:使用有限脉冲响应滤波器、无限脉冲响应滤波器、卡尔曼滤波器、
频谱扣除、用于计算调制频谱的最小分量并通过使用计算出的最小分量计算
调制频谱峰值点的方法、用于通过使用能够经使用调制频谱的最高峰值点计
算的自适应阈值提取与噪声分量不同的峰值点的方法、用于通过使用过零率
和能量来删除噪声的方法之中的至少一个。
10.如权利要求2所述的音乐信息搜索方法,其中,转换为调制频谱峰
值点音频指纹的步骤包括:通过使用指示提取出的调制频谱峰值点的位置的
值,将与两个点相关的位置信息获得为调制频谱峰值点音频指纹。
11.如权利要求2所述的音乐信息搜索方法,其中,获得哈希表的哈希
值的步骤包括:
经由至少一个哈希函数,通过使用与产生的音频查询剪辑的调制频谱峰
值点音频指纹相关的信息来获得指示哈希表的各个地址的哈希键;
通过使用获得的哈希键获得哈希值。
12.如权利要求2所述的音乐信息搜索方法,其中,确定最终搜索结果
的步骤包括:
通过使用所述至少一个哈希函数将哈希值转换为音频索引信息;
从获得的音频索引信息之中,将最大量的音频索引信息确定为最终的搜
索音频信息。
13.一种音频信息搜索方法,包括:
从音频数据提取调制频谱;
通过使用与预设峰值点相关的位置信息,从提取出的调制频谱产生音频
指纹;
将与产生的音频指纹相关的信息和与至少一个用户选择的音频查询相关
的信息进行比较;
基于比较的结果确定搜索结果。
14.如权利要求13所述的音频信息搜索方法,还包括:
对产生的音频指纹应用至少一个哈希函数,以获得与产生的音频指纹相
关的信息,
对所述至少一个用户选择的音频查询应用所述至少一个哈希函数,以获
得与所述至少一个用户选择的音频查询相关的信息。
15.一种用于执行音频信息搜索的设备,包括:
提取器,被配置用于从音频数据提取调制频谱;
音频指纹产生器,被配置用于通过使用与预设峰值点相关的位置信息从
提取出的调制频谱产生音频指纹;
音频数据搜索器,被配置用于将与产生的音频指纹相关的信息和与至少
一个用户选择的音频查询相关的信息进行比较,并基于比较的结果确定搜索
结果。

说明书

音乐信息搜索方法及其设备

本申请要求于2012年11月13日提交到美国专利商标局的第61/725,
666号美国临时专利申请的权益以及于2012年7月12日提交到韩国知识产
权局的第10-2013-0082245号韩国专利申请的优先权,其公开通过引用全部
合并于此。

技术领域

与本文公开一致的方法和设备涉及一种音乐信息搜索方法及其设备,更
具体地,涉及一种使用调制频谱的音乐信息搜索方法及其设备。

背景技术

现有的音乐信息搜索方法通过使用功率谱提取用于搜索音频的特征,其
中,作为使用快速傅立叶变换(FFT)将音频信号转换到频域的结果而产生所
述功率谱。因此,因为这样的方法不能强大地抗各种噪声环境,所以会发生
问题。

此外,现有的音乐信息搜索方法往往需要过多的时间来通过使用统计方
法(诸如,高斯混合模型(GMM)和隐马尔可夫模型(HMM))将用户的查询与
存在大数据库中的数据进行匹配来搜索音乐歌曲,因此,这样的方法无法在
短时间内提供搜索信息。

此外,在通过建立音频指纹系统来搜索音乐信息的现有方法中,使用的
特征针对噪声环境没有显示出强大性能。因此,当通过使用从真实环境(诸
如,街道等)产生的音乐数据来获得音乐信息时,性能可恶化。

此外,现有的音乐信息搜索方法使用强大频谱平坦度和频谱波峰测量;
但是,这些特征针对各种噪音环境也较弱。这样的方法也针对音频指纹索引
使用矢量量化方法(VQ)或统计最近邻方法(SNN),因此,针对各种噪声环
境,它们可具有较低的搜索信息的操作。

此外,现有的音乐信息搜索方法的问题在于,由于对通过在实现各种处
理的结构中使用波转换提取出调制频谱之后使用最近邻分类方法,因此搜索
很缓慢。

因此,需要一种针对噪声环境显示出强大性能并以高速度搜索音乐信息
的新方法。

发明内容

本发明构思的示例性实施例克服上述缺点和上面未描述的其它缺点。此
外,本发明构思不需要克服上述缺点,并且本发明构思的示例性实施例可不
克服任何上述问题。

根据示例性实施例,技术目的在于提供一种用于针对噪声环境高速搜索
音频信息的方法及其设备,其中,所述方法通过提取针对噪声环境相对较强
的调制频谱,将与提取出的调制频谱可清楚区分的调制频谱峰值点相关的位
置信息转换为哈希地址和哈希值,并使用哈希表来针对噪声环境高速搜索音
频信息。

根据示例性实施例,另一技术目的在于提供一种用于经由哈希搜索方法
来搜索音乐信息的方法及其设备,其中,所述方法根据针对噪声环境相对较
强的调制频谱特征,使用调制频谱峰值点或调制频谱峰值点位置。

根据示例性实施例,提供一种音乐信息搜索方法,所述方法可包括:从
音频数据提取调制频谱;通过使用与预设峰值点相关的位置信息从提取出的
调制频谱产生调制频谱峰值点音频指纹;经由至少一个哈希函数将产生的调
制频谱峰值点音频指纹转换为指示哈希表的地址的哈希键和存储在哈希表上
的哈希值;提取与音频查询剪辑相关的哈希键,通过将提取出的哈希键与哈
希表指示的地址进行比较来搜索音乐信息。

根据示例性实施例,提供一种音乐信息搜索方法,所述方法可包括:从
音频数据提取调制频谱;经由调制频谱归一化处理,对提取出的调制频谱进
行归一化,以从提取出的调制频谱删除与不指示音频信号的唯一特征的不必
要区域的重叠;将与针对噪声环境比第一阈值弱的第一调制频谱峰值点相关
的位置信息和与针对噪声环境比第一阈值强的第二调制频谱峰值点进行区
分,并提取第二调制频谱峰值点;将与提取出的第二调制频谱峰值点相关的
位置信息转换为调制频谱峰值点音频指纹;通过使用至少一个哈希函数,将
分别分配到调制频谱峰值点音频指纹和音乐歌曲的标识号转换为指示哈希表
的地址的哈希键和存储在哈希表上的哈希值,并在哈希表上存储转换的结果;
从音频查询剪辑提取调制频谱;经由调制频谱归一化处理,对提取出的音频
查询调制频谱进行归一化,以从提取出的调制频谱删除与不指示音频查询信
号的唯一特征的不必要区域的重叠;将归一化的音频查询调制频谱之中的与
针对噪声环境比第二阈值弱的第一音频查询调制频谱峰值点相关的位置信息
和与比针对噪声环境比第二阈值强的第二音频查询调制频谱峰值点进行区
分,并提取第二音频查询调制频谱峰值点;将与提取出的第二音频查询调制
频谱峰值点相关的位置信息转换为与第二音频查询调制频谱峰值点相关的音
频指纹;从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制
频谱峰值点相关的位置信息;将与第二提取出的调制频谱峰值点相关的位置
信息转换为调制频谱峰值点音频指纹;通过使用至少一个哈希函数计算哈希
键,来从提取出的音频查询剪辑的调制频谱峰值点音频指纹获得分别与地址
相应的哈希表的哈希值;通过获得音频索引信息来从获得的哈希值确定最终
搜索结果。

从音频数据提取调制频谱的步骤可包括:通过执行快速傅里叶变换(FFT)
来提取音频数据的频谱系数,并经由至少一个调制函数将提取出的频谱系数
转换为调制频谱。

对调制频谱进行归一化的步骤可包括:使用零均值归一化、倒谱均值归
一化、分贝标度归一化、通过使用均值的归一化、通过使用中值的归一化和
分位数归一化之中的至少一个归一化方法。

提取调制频谱峰值点的步骤可包括:使用有限脉冲响应滤波器、无限脉
冲响应滤波器、卡尔曼滤波器、频谱扣除、用于计算调制频谱的最小分量并
通过使用计算出的最小分量计算调制频谱峰值点的方法、用于通过使用能够
经使用调制频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值
点的方法、用于通过使用过零率和能量来删除噪声的方法之中的至少一个。

转换为音频查询调制频谱峰值点音频指纹的步骤可包括:通过使用指示
提取出的第二调制频谱峰值点的位置的值,将存在于区分的第二调制频谱峰
值点之间的预设间隔内的位置信息获得为调制频谱峰值点音频指纹。

存储在哈希表上的步骤可包括:经由至少一个哈希函数,通过使用与产
生的调制频谱峰值点音频指纹相关的信息,计算指示哈希表的各个地址的哈
希键和与哈希表相关的哈希值;基于计算出的哈希键和哈希值,通过将调制
频谱峰值点音频指纹存储在哈希表上来产生哈希表。

从音频查询剪辑提取调制频谱的步骤可包括:通过执行音频数据和音频
查询剪辑数据中的每一个的各个FFT来提取频谱系数;经由至少一个调制函
数将提取出的频谱系数转换为调制频谱。

从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱
峰值点相关的位置信息的步骤可包括:使用有限脉冲响应滤波器、无限脉冲
响应滤波器、卡尔曼滤波器、频谱扣除、用于计算调制频谱的最小分量并通
过使用计算出的最小分量计算调制频谱峰值点的方法、用于通过使用能够经
使用调制频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值点
的方法、用于通过使用过零率和能量来删除噪声的方法之中的至少一个。

转换为调制频谱峰值点音频指纹的步骤可包括:通过使用指示提取出的
调制频谱峰值点的位置的值,将与两个点相关的位置信息获得为调制频谱峰
值点音频指纹。

获得哈希表的哈希值的步骤可包括:经由至少一个哈希函数,通过使用
与产生的音频查询剪辑的调制频谱峰值点音频指纹相关的信息来获得指示哈
希表的各个地址的哈希键;通过使用获得的哈希键获得哈希值。

确定最终搜索结果的步骤可包括:通过使用所述至少一个哈希函数将哈
希值转换为音频索引信息;从获得的音频索引信息之中,将最大量的音频索
引信息确定为最终的搜索音频信息。

根据一个或多个上述各种示例性实施例,可提供一种用于针对噪声环境
高速搜索音乐信息的方法及其设备,其中,所述方法通过提取针对噪声环境
而相对较强的调制频谱,将与关于提取出的调制频谱的区分的调制频谱峰值
点相关的位置信息转换为哈希地址和哈希值,并使用哈希表来针对噪声环境
高速搜索音乐信息。

此外,根据一个或多个示例性实施例,可在不使用现有的统计分类方法
的情况下,通过使用哈希搜索方法从大量音乐之中高速搜索与提供的查询剪
辑匹配的音乐歌曲。

此外,根据一个或多个示例性实施例,相对低维频谱能量的调制差被提
取并被存储来充当高维二进制比特中的音频指纹,在没有使用基于比特误差
率(BER)的哈希搜索的方法的情况下,低维音频指纹被提取并被应用于哈希
搜索方法。因此,可从大量音乐之中高速搜索与提供的查询剪辑匹配的音乐
歌曲。

附图说明

通过参照附图描述本发明构思的特定示例性实施例,本发明构思的上述
和/或其它方面将更加清楚,其中:

图1是根据示例性实施例的音乐信息搜索设备的框图;

图2是图1中示出的音乐信息搜索设备的详细框图;

图3A、图3B、图4A和图4B是示出根据示例性实施例的服务提供方法的
示图;

图5是示出根据示例性实施例的音乐信息搜索方法的流程图;

图6是示出根据另一示例性实施例的音乐信息搜索方法的流程图。

具体实施方式

现在将参照附图更详细地描述本发明构思的特定示例性实施例。

在下面的描述中,即使在不同的图中,相同的附图参考标号被用于相同
的元件。提供在描述中被限定的内容(诸如详细的结构和元件)以帮助对本
发明构思的全面的理解。因此,明显的是,在没有那些明确限定的内容的情
况下,本发明构思的示例性实施例能被执行。此外,因为公知功能或结构会
以不必要的细节模糊本公开,所以不对其进行详细描述。

图1是根据示例性实施例的音乐信息搜索设备的框图。

参照图1,音乐信息搜索设备100包括调制频谱音频指纹产生器110和
音频数据搜索器120。

音频指纹产生器110从音频数据和音频信号(“音频数据”)中的至少一
个产生音频指纹。

具体地,音频指纹产生器110从音频数据中提取针对噪声和/或回声而相
对较强的调制频谱,并通过使用与提取的调制频谱中的预设峰值点相关的位
置信息产生调制频谱峰值点的音频指纹。

音频数据搜索器120通过使用音频指纹产生器110中产生的音频指纹来
搜索相应的音乐信息。

具体地,音频数据搜索器120经由一个或多个哈希函数,将产生调制频
谱峰值点的音频指纹转换为指示哈希表的各个地址的哈希键和存储在哈希表
上的哈希值。

此外,音频数据搜索器120提取与音频查询剪辑相关的调制频谱峰值点
音频指纹的哈希键,并通过将提取出的哈希键和哈希表的地址进行比较来搜
索音乐信息。下面将参照详细框图描述示例性实施例。

图2是图1中示出的音乐信息搜索设备的详细框图。

参照图2,根据示例性实施例的音乐信息搜索设备100包括音频指纹产
生器110和音频数据搜索器120。

音频指纹产生器110从音频数据和音频信号中的至少一个提取调制频
谱,并通过从提取出的调制频谱提取与针对噪声和/或回声环境相对较强的调
制频谱峰值点相关的位置信息,来产生调制频谱峰值点的音频指纹。

具体地,音频指纹产生器110包括调制频谱系数提取器111、调制频谱
归一化器112、调制频谱峰值点提取器113和音频指纹产生器114,其中,调
制频谱峰值点提取器113被配置用于提取针对噪声和/或回声环境相对较强
的调制频谱峰值点,音频指纹产生器114被配置用于使用提取出的调制频谱
峰值点。

调制频谱系数提取器111提取经由对音频数据执行快速傅里叶变换
(FFT)而获得的频谱的系数,通过使用至少一个调制函数将提取出的频谱系
数转换为调制频谱。在调制频谱的分量或系数中,通过使用特定调制函数产
生与傅里叶变换频谱系数不对应并且在噪声或回声环境中不失真的各种峰值
点。本文中,可用于产生调制频谱的调制函数可包括正弦函数、余弦函数、
使用正弦函数和余弦函数的复杂旋转函数、傅里叶变换、小波变换以及Z变
换中的一个或多个。

调制频谱归一化器112从调制频谱系数提取器111中提取的调制频谱系
数之中删除重叠分量和非独立分量,并获得分别指示输入的音频信号的唯一
特征的各种调制频谱峰值点。具体地,在音频信号之中,与对应于事件的音
频信号和音乐信号的频谱在相对较低的频率具有相对大量的能量并在相对较
高的频率具有较少的能量。此外,当远离音乐源时,无法听到低音。调制频
谱系数中的重叠分量和非独立分量示出低频处的能量分布,并且不包括与其
它音频信号不同的峰值点。因此,通过执行调制频谱的归一化删除与未显示
出音频信号的特征的不必要区域的重叠,并提供与指示音频信号的唯一特征
的峰值点相关的快速提取路径。

关于调制频谱的归一化,可使用各种归一化方法(诸如,零均值归一化、
倒谱均值归一化、分贝标度归一化、使用均值的归一化、使用中值的归一化
和分位数归一化)中的任意一个或多个。

调制频谱峰值点提取器113从经由调制频谱归一化器112产生的归一化
的调制频谱之中,将针对噪声和/或回声分量而相对较弱的调制频谱峰值点与
针对噪声和/或回声分量而相对较强的调制频谱峰值点进行区分,并提取针对
噪声和/或回声分量而相对较强的区分的调制频谱峰值点。例如,调制频谱峰
值点提取器可使用阈值来将相对较强的峰值点和相对较弱的峰值点进行区
分。

调制频谱峰值点提取113可应用噪声去除滤波器,以便提取针对噪声和/
或回声分量而相对较强的区分的调制频谱峰值点。此外,调制频谱峰值点提
取器113可通过假设噪声和/或回声分量,将针对噪声和/或回声分量而相对
较强的峰值点与针对噪声和回声分量而相对较弱的峰值点进行区分。在这种
情况下,调制频谱峰值点提取器113可通过使用以下项中的至少一个来执行
调制频谱峰值点的提取:有限脉冲响应(FIR)滤波器、无限脉冲响应滤波器
(IIR)、卡尔曼滤波器、维纳滤波器、频谱扣除方法、用于计算调制频谱的
最小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、用于通
过使用自适应阈值(其通过使用调制频谱的最高峰值点计算)提取与噪声和
回声分量不同的峰值点的方法、用于通过使用过零率和能量来提取峰值点的
方法。

调制频谱峰值点音频指纹产生器114通过提取与针对噪声和/回声环境
而相对较强的调制频谱峰值点的位置相关的信息,来产生调制频谱峰值点的
音频指纹。

在发生噪声和回声的真实环境中,重要的是清楚容易地听到每个频率的
每个声音,而当低音远离音频信号的音乐源时,低音无法被安静地听到。此
外,使用高音容易掩盖低音;然而,使用低音难以掩盖高音。具体地,当对
音乐信号进行分析时,包括基本频率声音的回声被显示为频谱上的峰值点或
峰。因此,找到基本频率的最简单的方法是找到频谱上的最大值。当对频谱
进行分析时,具有最大峰值点的频率值之间的位置和间隔、区分的峰值点和
前述峰值点周围的其它峰值点具有用于定义音频信号(特别是声音)的特征
的重要功能。与通过考虑音频信号的上述特征而提取出的调制频谱峰值点的
位置相关的信息指示地音频信号中显示出未因噪声和回声环境而失真的音频
特征的主要分量。与提取出的调制频谱区分的峰值点和其它峰值点的位置之
间的距离相关的信息具有针对噪声和回声环境而相对较强同时几乎不被噪声
和回声环境损坏的特征。因此,因为与音频信号的唯一特征的相关性,与提
取出的调制频谱峰值点之间的距离相关的信息可适当地用作哈希地址和哈希
值。

调制频谱峰值点音频指纹产生器114通过将与提取出的调制频谱峰值点
相关的位置信息进行关联来产生调制频谱峰值点音频指纹。调制频谱峰值点
音频指纹由可指示提取出的调制频谱峰值点的位置的值构成。因此,产生器
114将一个调制频谱峰值点的帧号、一个调制频谱峰值点的频率索引、连接
的其它调制频谱峰值点的频率索引以及一个调制频谱峰值点与其它调制频谱
峰值点之间的帧距离进行关联。

根据示例性实施例的音乐信息搜索设备可减少调制频谱峰值点指纹的大
小,并通过根据上述方法产生调制频谱峰值点音频指纹将结果转换为针对噪
声和回声环境而相对较强的指纹。因此,音乐信息搜索设备可通过使用哈希
表高速搜索提供的查询剪辑。

音频数据搜索器120搜索与音频指纹产生器114中产生的调制频谱峰值
点指纹相应的音频数据,并为用户提供与搜索音频数据相关的信息。音频数
据搜索器120包括调制频谱峰值点音频指纹信息存储器130、调制频谱峰值
点音频指纹搜索器140和信息提供器150。

调制频谱峰值点音频指纹信息存储器130包括哈希表131。

哈希表131是存储通过使用音频指纹产生器110提供的调制频谱峰值点
指纹产生的哈希键和哈希值的区域。

哈希键和哈希值产生器121通过使用调制频谱峰值点音频指纹产生器
110中产生的调制频谱峰值点音频指纹,经由至少一个哈希函数来产生指示
哈希表的各个地址值的哈希键和存储在哈希表上的哈希值。

调制频谱峰值点音频指纹信息存储器130将通过使用哈希键和哈希值产
生器121中的调制频谱峰值点音频指纹中的每一个产生的哈希键和与哈希键
相应的哈希值存储在哈希表131上。

根据示例性实施例的音频数据搜索器120中的哈希搜索方法按照提供为
用于快速搜索音频数据的哈希表的布置来存储音频数据,经由合适的哈希函
数将音频查询剪辑的调制频谱峰值点音频指纹转换为指示哈希表的地址的哈
希键,并在哈希表131内搜索与查询剪辑的哈希键相同的位置上的哈希值。

根据示例性实施例的哈希搜索方法的优点在于不论哈希表的大小,搜索
时间固定,搜索速度比现有搜索方法(诸如,二进制搜索)明显更快,可容
易地执行插入和删除数据。

当调制频谱峰值点音频指纹被转换为哈希键和哈希值时,使用根据示例
性实施例的哈希函数。这些函数将数据从一类调制频谱峰值点音频指纹转换
为指示哈希表的地址值的哈希键和存储在哈希表上的哈希值。

此外,因为调制频谱峰值点音频指纹的可用组合的可能数量远远大于哈
希表的相应大小,所以根据示例性实施例的哈希函数成为多对一相应函数。
另外,根据示例性实施例的哈希函数在执行计算方面应该较快且简单。

当音频查询剪辑被输入时,根据示例性实施例的音频搜索方法从调制频
谱峰值点音频指纹产生器110产生音频查询剪辑的调制频谱峰值点指纹,并
经由哈希键和哈希值产生器121从音频查询剪辑的调制频谱峰值点音频指纹
产生哈希键。调制频谱峰值点音频指纹搜索器140获得存储在哈希表上的与
音频查询剪辑的哈希键相同位置上的哈希值,将结果转换为调制频谱峰值点
音频指纹信息,确定最终搜索结果,并为用户提供搜索结果。

调制频谱峰值点音频指纹搜索器140包括哈希键比较搜索器和哈希值获
得器141、获得的哈希值的音频信息转换器142和最终搜索结果确定器143。

哈希键比较搜索器和哈希值获得器141通过从音频查询剪辑的调制频谱
峰值点音频指纹之中搜索具有与哈希键和哈希值产生器121计算出的哈希键
相同地址的哈希表来获得存储在哈希表上的哈希值。

获得的哈希值的音频信息转换器142经由一个或多个哈希函数将经由哈
希键比较搜索器和哈希键获得器141获得的哈希值转换为音频索引信息,诸
如,音乐歌曲标识(ID)或音频事件ID。

最终搜索结果确定器143计算来自获得的哈希值的音频信息转换器142
的最频繁的音频索引信息(例如,音乐歌曲ID或音频事件ID),将与最大量
的音频索引信息相应的数据确定为最终搜索音频信息。

信息提供器150为用户提供与在调制频谱峰值点音频指纹搜索器140中
搜索的音频数据相关的信息。

从而,根据示例性实施例的音频信息搜索设备从音频信号和音频数据的
调制频谱提取针对噪声和/或回声环境而相对较强的调制频谱峰值点的位置,
通过组合提取出的峰值点的位置来产生调制频谱峰值点音频指纹,通过使用
一个或多个哈希函数从调制频谱峰值点音频指纹计算指示哈希表的地址值的
哈希键和存储在哈希表上的哈希值,并将结果存储在哈希表上。

此外,根据示例性实施例的音乐信息搜索设备基于区分的调制频谱的峰
值点来从音频查询剪辑提取调制频谱峰值点音频指纹,通过使用一个或多个
哈希函数计算音频查询剪辑的哈希键,从调制频谱峰值点音频指纹信息存储
器130的哈希表获得与上述查询音频文件的哈希键相应的哈希值,并经由一
个或多个哈希函数将结果转换为音频索引信息。因此,可高速搜索音乐信息。

图3A、图3B、图4A和图4B是示出根据示例性实施例的服务提供方法的
示图。

可通过使用图1和图2中示出的音乐信息搜索设备提供图3A和图3B中
示出的服务。

例如,在310,当正观看的电视(TV)10上的广告(AD)显示指示根据
示例性实施例的服务的特定项(例如,“广告捕获”)可被提供时,在320,
用于记录相应AD音乐的用户命令可被输入。当与摇动用户终端20相应的运
动被输入时,相应的AD音乐经由音乐终端20被记录,记录的音频被发送到
数据服务器(未示出),相应的AD可经由搜索被识别。

具体地,参照图4A,在410,提取与经由终端20记录的AD音乐相关的
音频指纹,在420,搜索存储每个AD的音频指纹的数据库,在430,可搜索
与提取出的音频指纹(例如,AD标题和ID)相应的信息。例如,可使用诸如
图4B中示出的数据库;数据库具有AD音乐的音频指纹被提取、索引和存储
的结构。

再次参照图3A和图3B,在330,识别的AD的附加服务信息(例如,附
加信息和优惠券服务)可被提供给用户终端20。例如,当识别出AD指示特
定汽车产品时,相应AD的附加服务信息可被提供给用户终端20。这样的附
加服务也可被存储在上述数据服务器(未示出)上,和/或存储在外部服务器
(例如,相应的产品销售商服务器)上。当相应的附加服务信息被存储在数
据服务器(未示出)上时,可使用从相应产品相关服务器接收到的信息定期
更新所述信息。

当在340用于在提供给用户终端20的附加服务上选择特定项的用户命令
被输入时,在350,与选择的项相应的详细信息可被提供。例如,当在汽车
产品AD上选择了与“展示乘坐可用店”相关的项时,可提供与展示乘坐可用
店相关的详细信息。

上述服务可应用于根据示例性实施例的音乐信息检索方法。

图5是示出根据示例性实施例的音乐信息搜索方法的流程图。

根据图5中示出的音乐信息搜索方法,在操作S10,从音频数据提取针
对噪声和/或回声环境而相对较强的调制频谱。

在操作S520,通过使用预设峰值点之间的位置信息从提取出的调制频谱
产生调制频谱峰值点音频指纹。

在操作S530,产生的调制频谱峰值点音频指纹经由一个或多个哈希函数
被转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值。

在操作S540,提取与音频查询剪辑相关的调制频谱峰值点音频指纹的哈
希键,通过将提取出的音频查询剪辑的哈希键与哈希表的地址进行比较来搜
索音乐信息。

图6是示出根据示例性实施例的音乐信息搜索方法的流程图。

根据图6中示出的音乐信息搜索方法,在操作S610,音频信息搜索设备
提取针对噪声和/或回声环境而相对较强的调制频谱的峰值点。

在操作S615,音频信息搜索设备通过使用与针对噪声和/或回声环境而
相对较强的调制频谱峰值点之间的位置相关的信息,从提取出的调制频谱产
生调制频谱峰值点音频指纹。

在操作S620,针对产生的音频指纹,通过使用一个或多个哈希函数来产
生指示地址值的哈希键和哈希值。

在操作S625,通过使用确定的哈希键和哈希值产生哈希表。

从而,根据示例性实施例的音乐信息搜索方法从调制频谱中提取针对噪
声和/或回声环境相对罗强的区分的调制频谱的峰值点。与这样的区分的调制
频谱峰值点相关的位置信息在无噪清晰环境和非常嘈杂环境中是统一可提取
的,从而,显示出针对噪声和/或回声环境而非常强的特点。

在操作S630,音频信息搜索设备提取针对与音频查询剪辑相关的噪声和
/或回声相对较强的调制频谱峰值点。

在操作S635,通过使用与关于提取出的调制频谱的区分的峰值点相关的
位置信息来从音频查询剪辑产生调制频谱峰值点音频指纹。

在操作S640,通过针对音频查询剪辑的产生的调制频谱峰值点音频指纹
使用一个或多个哈希函数来计算哈希键。

在操作S645,从哈希表搜索与计算出的哈希键匹配的地址值,其中,所
述哈希键指示音频查询剪辑的地址值。

在操作S650,获得所有从哈希表搜索的地址的哈希值,通过使用一个或
多个哈希函数,获得的哈希值被转换并被获得为音频索引信息。

在操作S655,将最大量的音频索引信息确定为获得的音频索引信息之中
的最终搜索音频信息。

此外,根据各种示例性实施例的音乐信息搜索方法可被实现为可在计算
机上运行的程序代码,并可被提供给音频信息搜索设备,从而在被存储在任
意一个或更多不同类型的非临时性计算机可读记录介质的同时,由处理器来
实现。

与临时地存储数据的介质(诸如,寄存器、高速缓存和内存)相比,非
临时性计算机可读记录介质指示存储半永久性数据的介质,并可由装置读取。
具体地,上述各种应用或程序可被存储并提供在任意类型的非临时性计算机
可读记录介质(诸如,例如,紧凑盘(CD)、数字通用光盘(DVD)、硬盘、蓝
光盘、通用串行总线(USB)装置、存储卡或只读存储器(ROM))中。

此外,上述示例性实施例和优点仅是示例性的,并不被解释为限制示例
性实施例。本教导可容易地应用于其它类型的设备。此外,本发明构思的示
例性实施例的描述意图说明,而不是限制权利要求的范围。

音乐信息搜索方法及其设备.pdf_第1页
第1页 / 共21页
音乐信息搜索方法及其设备.pdf_第2页
第2页 / 共21页
音乐信息搜索方法及其设备.pdf_第3页
第3页 / 共21页
点击查看更多>>
资源描述

《音乐信息搜索方法及其设备.pdf》由会员分享,可在线阅读,更多相关《音乐信息搜索方法及其设备.pdf(21页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103810236 A (43)申请公布日 2014.05.21 CN 103810236 A (21)申请号 201310571089.2 (22)申请日 2013.11.13 10-2013-0082245 2013.07.12 KR 61/725,666 2012.11.13 US G06F 17/30(2006.01) G10L 25/54(2013.01) (71)申请人 三星电子株式会社 地址 韩国京畿道水原市 申请人 光云大学校产学协力团 (72)发明人 严基完 金炯局 金光基 (74)专利代理机构 北京铭硕知识产权代理有限 公司 11286 代理人 王。

2、艳娇 韩明星 (54) 发明名称 音乐信息搜索方法及其设备 (57) 摘要 提供了一种音乐信息搜索方法及其设备, 所 述音乐信息搜索方法包括 : 从音频数据提取调制 频谱 ; 通过使用与预设峰值点相关的位置信息从 提取出的调制频谱产生调制频谱峰值点音频指 纹 ; 经由哈希函数将产生的调制频谱峰值点音频 指纹转换为指示哈希表的地址的哈希键和存储在 哈希表上的哈希值 ; 通过提取与音频查询剪辑相 关的哈希键并将提取出的哈希键与哈希表指示的 地址进行比较来搜索音乐信息。 (30)优先权数据 (51)Int.Cl. 权利要求书 3 页 说明书 9 页 附图 8 页 (19)中华人民共和国国家知识产权局。

3、 (12)发明专利申请 权利要求书3页 说明书9页 附图8页 (10)申请公布号 CN 103810236 A CN 103810236 A 1/3 页 2 1. 一种音乐信息搜索方法, 包括 : 从音频数据提取调制频谱 ; 通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生调制频谱峰值点音 频指纹 ; 经由至少一个哈希函数将产生的调制频谱峰值点音频指纹转换为指示哈希表的地址 的哈希键和存储在哈希表上的哈希值 ; 提取与音频查询剪辑相关的哈希键, 通过将提取出的哈希键与哈希表指示的地址进行 比较来搜索音乐信息。 2. 一种音乐信息搜索方法, 包括 : 从音频数据提取调制频谱 ; 经由调制。

4、频谱归一化处理, 对提取出的调制频谱进行归一化, 以从提取出的调制频谱 删除与不指示音频信号的唯一特征的不必要区域的重叠 ; 将与针对噪声环境比第一阈值弱的第一调制频谱峰值点相关的位置信息和与针对噪 声环境比第一阈值强的第二调制频谱峰值点的位置信息进行区分, 并提取第二调制频谱峰 值点 ; 将与提取出的第二调制频谱峰值点相关的位置信息转换为调制频谱峰值点音频指 纹 ; 通过使用至少一个哈希函数, 将分别分配到调制频谱峰值点音频指纹和音乐歌曲的标 识号转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值, 并在哈希表上存储转 换的结果 ; 从音频查询剪辑提取调制频谱 ; 经由调制频谱归一化处理。

5、, 对提取出的音频查询调制频谱进行归一化, 以从提取出的 调制频谱删除与不指示音频查询信号的唯一特征的不必要区域的重叠 ; 将归一化的音频查询调制频谱之中的与针对噪声环境比第二阈值弱的第一音频查询 调制频谱峰值点相关的位置信息和与针对噪声环境比第二阈值强的第二音频查询调制频 谱峰值点进行区分, 并提取第二音频查询调制频谱峰值点 ; 将与提取出的第二音频查询调制频谱峰值点相关的位置信息转换为与第二音频查询 调制频谱峰值点相关的音频指纹 ; 从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱峰值点相关 的位置信息 ; 将与第二提取出的调制频谱峰值点相关的位置信息转换为调制频谱峰值点音频。

6、指 纹 ; 通过使用至少一个哈希函数计算哈希键, 来从提取出的音频查询剪辑的调制频谱峰值 点音频指纹获得分别与地址相应的哈希表的哈希值 ; 通过从获得的哈希值获得音频索引信息来确定最终搜索结果。 3. 如权利要求 2 所述的音乐信息搜索方法, 其中, 从音频数据提取调制频谱的步骤包 括 : 通过执行快速傅里叶变换 (FFT) 来提取音频数据的频谱系数, 并经由至少一个调制函 数将提取出的频谱系数转换为调制频谱。 4. 如权利要求 2 所述的音乐信息搜索方法, 其中, 对调制频谱进行归一化的步骤包括 : 权 利 要 求 书 CN 103810236 A 2 2/3 页 3 使用零均值归一化、 倒。

7、谱均值归一化、 分贝标度归一化、 通过使用均值的归一化、 通过使用 中值的归一化和分位数归一化之中的至少一个归一化方法。 5. 如权利要求 2 所述的音乐信息搜索方法, 其中, 提取调制频谱峰值点的步骤包括 : 使 用有限脉冲响应滤波器、 无限脉冲响应滤波器、 卡尔曼滤波器、 频谱扣除 (deduction) 、 用于 计算调制频谱的最小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、 用于 通过使用能够经使用调制频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰 值点的方法、 用于通过使用过零率和能量来删除噪声的方法之中的至少一个。 6. 如权利要求 2 所述的音乐信息搜索方法,。

8、 其中, 转换为音频查询调制频谱峰值点音 频指纹的步骤包括 : 通过使用指示提取出的第二调制频谱峰值点的位置的值, 将存在于区 分的第二调制频谱峰值点之间的预设间隔内的位置信息获得为调制频谱峰值点音频指纹。 7. 如权利要求 2 所述的音乐信息搜索方法, 其中, 存储在哈希表上的步骤包括 : 经由至少一个哈希函数, 通过使用与产生的调制频谱峰值点音频指纹相关的信息, 计 算指示哈希表的各个地址的哈希键和与哈希表相关的哈希值 ; 基于计算出的哈希键和哈希值, 通过将调制频谱峰值点音频指纹存储在哈希表上来产 生哈希表。 8. 如权利要求 2 所述的音乐信息搜索方法, 其中, 从音频查询剪辑提取调制。

9、频谱的步 骤包括 : 通过执行音频数据和音频查询剪辑数据中的每一个的各个 FFT 来提取频谱系数 ; 经由至少一个调制函数将提取出的频谱系数转换为调制频谱。 9. 如权利要求 2 所述的音乐信息搜索方法, 其中, 从提取出的音频查询剪辑的调制频 谱之中提取与第二音频查询调制频谱峰值点相关的位置信息的步骤包括 : 使用有限脉冲响 应滤波器、 无限脉冲响应滤波器、 卡尔曼滤波器、 频谱扣除、 用于计算调制频谱的最小分量 并通过使用计算出的最小分量计算调制频谱峰值点的方法、 用于通过使用能够经使用调制 频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值点的方法、 用于通过使用 过零率和能量来删。

10、除噪声的方法之中的至少一个。 10. 如权利要求 2 所述的音乐信息搜索方法, 其中, 转换为调制频谱峰值点音频指纹的 步骤包括 : 通过使用指示提取出的调制频谱峰值点的位置的值, 将与两个点相关的位置信 息获得为调制频谱峰值点音频指纹。 11. 如权利要求 2 所述的音乐信息搜索方法, 其中, 获得哈希表的哈希值的步骤包括 : 经由至少一个哈希函数, 通过使用与产生的音频查询剪辑的调制频谱峰值点音频指纹 相关的信息来获得指示哈希表的各个地址的哈希键 ; 通过使用获得的哈希键获得哈希值。 12. 如权利要求 2 所述的音乐信息搜索方法, 其中, 确定最终搜索结果的步骤包括 : 通过使用所述至少。

11、一个哈希函数将哈希值转换为音频索引信息 ; 从获得的音频索引信息之中, 将最大量的音频索引信息确定为最终的搜索音频信息。 13. 一种音频信息搜索方法, 包括 : 从音频数据提取调制频谱 ; 通过使用与预设峰值点相关的位置信息, 从提取出的调制频谱产生音频指纹 ; 将与产生的音频指纹相关的信息和与至少一个用户选择的音频查询相关的信息进行 权 利 要 求 书 CN 103810236 A 3 3/3 页 4 比较 ; 基于比较的结果确定搜索结果。 14. 如权利要求 13 所述的音频信息搜索方法, 还包括 : 对产生的音频指纹应用至少一个哈希函数, 以获得与产生的音频指纹相关的信息, 对所述至少。

12、一个用户选择的音频查询应用所述至少一个哈希函数, 以获得与所述至少 一个用户选择的音频查询相关的信息。 15. 一种用于执行音频信息搜索的设备, 包括 : 提取器, 被配置用于从音频数据提取调制频谱 ; 音频指纹产生器, 被配置用于通过使用与预设峰值点相关的位置信息从提取出的调制 频谱产生音频指纹 ; 音频数据搜索器, 被配置用于将与产生的音频指纹相关的信息和与至少一个用户选择 的音频查询相关的信息进行比较, 并基于比较的结果确定搜索结果。 权 利 要 求 书 CN 103810236 A 4 1/9 页 5 音乐信息搜索方法及其设备 0001 本申请要求于 2012 年 11 月 13 日提。

13、交到美国专利商标局的第 61/725, 666 号美国临时专利申请的权益以及于 2012 年 7 月 12 日提交到韩国知识产权局的第 10-2013-0082245 号韩国专利申请的优先权, 其公开通过引用全部合并于此。 技术领域 0002 与本文公开一致的方法和设备涉及一种音乐信息搜索方法及其设备, 更具体地, 涉及一种使用调制频谱的音乐信息搜索方法及其设备。 背景技术 0003 现有的音乐信息搜索方法通过使用功率谱提取用于搜索音频的特征, 其中, 作为 使用快速傅立叶变换 (FFT) 将音频信号转换到频域的结果而产生所述功率谱。因此, 因为 这样的方法不能强大地抗各种噪声环境, 所以会发。

14、生问题。 0004 此外, 现有的音乐信息搜索方法往往需要过多的时间来通过使用统计方法 (诸如, 高斯混合模型 (GMM) 和隐马尔可夫模型 (HMM) ) 将用户的查询与存在大数据库中的数据进 行匹配来搜索音乐歌曲, 因此, 这样的方法无法在短时间内提供搜索信息。 0005 此外, 在通过建立音频指纹系统来搜索音乐信息的现有方法中, 使用的特征针对 噪声环境没有显示出强大性能。因此, 当通过使用从真实环境 (诸如, 街道等) 产生的音乐数 据来获得音乐信息时, 性能可恶化。 0006 此外, 现有的音乐信息搜索方法使用强大频谱平坦度和频谱波峰测量 ; 但是, 这些 特征针对各种噪音环境也较弱。

15、。 这样的方法也针对音频指纹索引使用矢量量化方法 (VQ) 或 统计最近邻方法 (SNN) , 因此, 针对各种噪声环境, 它们可具有较低的搜索信息的操作。 0007 此外, 现有的音乐信息搜索方法的问题在于, 由于对通过在实现各种处理的结构 中使用波转换提取出调制频谱之后使用最近邻分类方法, 因此搜索很缓慢。 0008 因此, 需要一种针对噪声环境显示出强大性能并以高速度搜索音乐信息的新方 法。 发明内容 0009 本发明构思的示例性实施例克服上述缺点和上面未描述的其它缺点。此外, 本发 明构思不需要克服上述缺点, 并且本发明构思的示例性实施例可不克服任何上述问题。 0010 根据示例性实施。

16、例, 技术目的在于提供一种用于针对噪声环境高速搜索音频信息 的方法及其设备, 其中, 所述方法通过提取针对噪声环境相对较强的调制频谱, 将与提取出 的调制频谱可清楚区分的调制频谱峰值点相关的位置信息转换为哈希地址和哈希值, 并使 用哈希表来针对噪声环境高速搜索音频信息。 0011 根据示例性实施例, 另一技术目的在于提供一种用于经由哈希搜索方法来搜索音 乐信息的方法及其设备, 其中, 所述方法根据针对噪声环境相对较强的调制频谱特征, 使用 调制频谱峰值点或调制频谱峰值点位置。 说 明 书 CN 103810236 A 5 2/9 页 6 0012 根据示例性实施例, 提供一种音乐信息搜索方法,。

17、 所述方法可包括 : 从音频数据提 取调制频谱 ; 通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生调制频谱峰 值点音频指纹 ; 经由至少一个哈希函数将产生的调制频谱峰值点音频指纹转换为指示哈希 表的地址的哈希键和存储在哈希表上的哈希值 ; 提取与音频查询剪辑相关的哈希键, 通过 将提取出的哈希键与哈希表指示的地址进行比较来搜索音乐信息。 0013 根据示例性实施例, 提供一种音乐信息搜索方法, 所述方法可包括 : 从音频数据提 取调制频谱 ; 经由调制频谱归一化处理, 对提取出的调制频谱进行归一化, 以从提取出的调 制频谱删除与不指示音频信号的唯一特征的不必要区域的重叠 ; 将与针对。

18、噪声环境比第一 阈值弱的第一调制频谱峰值点相关的位置信息和与针对噪声环境比第一阈值强的第二调 制频谱峰值点进行区分, 并提取第二调制频谱峰值点 ; 将与提取出的第二调制频谱峰值点 相关的位置信息转换为调制频谱峰值点音频指纹 ; 通过使用至少一个哈希函数, 将分别分 配到调制频谱峰值点音频指纹和音乐歌曲的标识号转换为指示哈希表的地址的哈希键和 存储在哈希表上的哈希值, 并在哈希表上存储转换的结果 ; 从音频查询剪辑提取调制频谱 ; 经由调制频谱归一化处理, 对提取出的音频查询调制频谱进行归一化, 以从提取出的调制 频谱删除与不指示音频查询信号的唯一特征的不必要区域的重叠 ; 将归一化的音频查询调。

19、 制频谱之中的与针对噪声环境比第二阈值弱的第一音频查询调制频谱峰值点相关的位置 信息和与比针对噪声环境比第二阈值强的第二音频查询调制频谱峰值点进行区分, 并提取 第二音频查询调制频谱峰值点 ; 将与提取出的第二音频查询调制频谱峰值点相关的位置信 息转换为与第二音频查询调制频谱峰值点相关的音频指纹 ; 从提取出的音频查询剪辑的调 制频谱之中提取与第二音频查询调制频谱峰值点相关的位置信息 ; 将与第二提取出的调制 频谱峰值点相关的位置信息转换为调制频谱峰值点音频指纹 ; 通过使用至少一个哈希函数 计算哈希键, 来从提取出的音频查询剪辑的调制频谱峰值点音频指纹获得分别与地址相应 的哈希表的哈希值 ;。

20、 通过获得音频索引信息来从获得的哈希值确定最终搜索结果。 0014 从音频数据提取调制频谱的步骤可包括 : 通过执行快速傅里叶变换 (FFT) 来提取 音频数据的频谱系数, 并经由至少一个调制函数将提取出的频谱系数转换为调制频谱。 0015 对调制频谱进行归一化的步骤可包括 : 使用零均值归一化、 倒谱均值归一化、 分贝 标度归一化、 通过使用均值的归一化、 通过使用中值的归一化和分位数归一化之中的至少 一个归一化方法。 0016 提取调制频谱峰值点的步骤可包括 : 使用有限脉冲响应滤波器、 无限脉冲响应滤 波器、 卡尔曼滤波器、 频谱扣除、 用于计算调制频谱的最小分量并通过使用计算出的最小分。

21、 量计算调制频谱峰值点的方法、 用于通过使用能够经使用调制频谱的最高峰值点计算的自 适应阈值提取与噪声分量不同的峰值点的方法、 用于通过使用过零率和能量来删除噪声的 方法之中的至少一个。 0017 转换为音频查询调制频谱峰值点音频指纹的步骤可包括 : 通过使用指示提取出的 第二调制频谱峰值点的位置的值, 将存在于区分的第二调制频谱峰值点之间的预设间隔内 的位置信息获得为调制频谱峰值点音频指纹。 0018 存储在哈希表上的步骤可包括 : 经由至少一个哈希函数, 通过使用与产生的调制 频谱峰值点音频指纹相关的信息, 计算指示哈希表的各个地址的哈希键和与哈希表相关的 哈希值 ; 基于计算出的哈希键和。

22、哈希值, 通过将调制频谱峰值点音频指纹存储在哈希表上 说 明 书 CN 103810236 A 6 3/9 页 7 来产生哈希表。 0019 从音频查询剪辑提取调制频谱的步骤可包括 : 通过执行音频数据和音频查询剪辑 数据中的每一个的各个 FFT 来提取频谱系数 ; 经由至少一个调制函数将提取出的频谱系数 转换为调制频谱。 0020 从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱峰值点 相关的位置信息的步骤可包括 : 使用有限脉冲响应滤波器、 无限脉冲响应滤波器、 卡尔曼滤 波器、 频谱扣除、 用于计算调制频谱的最小分量并通过使用计算出的最小分量计算调制频 谱峰值点的方法、 用。

23、于通过使用能够经使用调制频谱的最高峰值点计算的自适应阈值提取 与噪声分量不同的峰值点的方法、 用于通过使用过零率和能量来删除噪声的方法之中的至 少一个。 0021 转换为调制频谱峰值点音频指纹的步骤可包括 : 通过使用指示提取出的调制频谱 峰值点的位置的值, 将与两个点相关的位置信息获得为调制频谱峰值点音频指纹。 0022 获得哈希表的哈希值的步骤可包括 : 经由至少一个哈希函数, 通过使用与产生的 音频查询剪辑的调制频谱峰值点音频指纹相关的信息来获得指示哈希表的各个地址的哈 希键 ; 通过使用获得的哈希键获得哈希值。 0023 确定最终搜索结果的步骤可包括 : 通过使用所述至少一个哈希函数将。

24、哈希值转换 为音频索引信息 ; 从获得的音频索引信息之中, 将最大量的音频索引信息确定为最终的搜 索音频信息。 0024 根据一个或多个上述各种示例性实施例, 可提供一种用于针对噪声环境高速搜索 音乐信息的方法及其设备, 其中, 所述方法通过提取针对噪声环境而相对较强的调制频谱, 将与关于提取出的调制频谱的区分的调制频谱峰值点相关的位置信息转换为哈希地址和 哈希值, 并使用哈希表来针对噪声环境高速搜索音乐信息。 0025 此外, 根据一个或多个示例性实施例, 可在不使用现有的统计分类方法的情况下, 通过使用哈希搜索方法从大量音乐之中高速搜索与提供的查询剪辑匹配的音乐歌曲。 0026 此外, 根。

25、据一个或多个示例性实施例, 相对低维频谱能量的调制差被提取并被存 储来充当高维二进制比特中的音频指纹, 在没有使用基于比特误差率 (BER) 的哈希搜索的 方法的情况下, 低维音频指纹被提取并被应用于哈希搜索方法。 因此, 可从大量音乐之中高 速搜索与提供的查询剪辑匹配的音乐歌曲。 附图说明 0027 通过参照附图描述本发明构思的特定示例性实施例, 本发明构思的上述和 / 或其 它方面将更加清楚, 其中 : 0028 图 1 是根据示例性实施例的音乐信息搜索设备的框图 ; 0029 图 2 是图 1 中示出的音乐信息搜索设备的详细框图 ; 0030 图 3A、 图 3B、 图 4A 和图 4B。

26、 是示出根据示例性实施例的服务提供方法的示图 ; 0031 图 5 是示出根据示例性实施例的音乐信息搜索方法的流程图 ; 0032 图 6 是示出根据另一示例性实施例的音乐信息搜索方法的流程图。 具体实施方式 说 明 书 CN 103810236 A 7 4/9 页 8 0033 现在将参照附图更详细地描述本发明构思的特定示例性实施例。 0034 在下面的描述中, 即使在不同的图中, 相同的附图参考标号被用于相同的元件。 提 供在描述中被限定的内容 (诸如详细的结构和元件) 以帮助对本发明构思的全面的理解。 因此, 明显的是, 在没有那些明确限定的内容的情况下, 本发明构思的示例性实施例能被执。

27、 行。此外, 因为公知功能或结构会以不必要的细节模糊本公开, 所以不对其进行详细描述。 0035 图 1 是根据示例性实施例的音乐信息搜索设备的框图。 0036 参照图1, 音乐信息搜索设备100包括调制频谱音频指纹产生器110和音频数据搜 索器 120。 0037 音频指纹产生器 110 从音频数据和音频信号 ( “音频数据” ) 中的至少一个产生音 频指纹。 0038 具体地, 音频指纹产生器 110 从音频数据中提取针对噪声和 / 或回声而相对较强 的调制频谱, 并通过使用与提取的调制频谱中的预设峰值点相关的位置信息产生调制频谱 峰值点的音频指纹。 0039 音频数据搜索器120通过使用。

28、音频指纹产生器110中产生的音频指纹来搜索相应 的音乐信息。 0040 具体地, 音频数据搜索器 120 经由一个或多个哈希函数, 将产生调制频谱峰值点 的音频指纹转换为指示哈希表的各个地址的哈希键和存储在哈希表上的哈希值。 0041 此外, 音频数据搜索器 120 提取与音频查询剪辑相关的调制频谱峰值点音频指纹 的哈希键, 并通过将提取出的哈希键和哈希表的地址进行比较来搜索音乐信息。下面将参 照详细框图描述示例性实施例。 0042 图 2 是图 1 中示出的音乐信息搜索设备的详细框图。 0043 参照图2, 根据示例性实施例的音乐信息搜索设备100包括音频指纹产生器110和 音频数据搜索器 。

29、120。 0044 音频指纹产生器 110 从音频数据和音频信号中的至少一个提取调制频谱, 并通过 从提取出的调制频谱提取与针对噪声和 / 或回声环境相对较强的调制频谱峰值点相关的 位置信息, 来产生调制频谱峰值点的音频指纹。 0045 具体地, 音频指纹产生器 110 包括调制频谱系数提取器 111、 调制频谱归一化器 112、 调制频谱峰值点提取器 113 和音频指纹产生器 114, 其中, 调制频谱峰值点提取器 113 被配置用于提取针对噪声和 / 或回声环境相对较强的调制频谱峰值点, 音频指纹产生器 114 被配置用于使用提取出的调制频谱峰值点。 0046 调制频谱系数提取器 111 。

30、提取经由对音频数据执行快速傅里叶变换 (FFT) 而获得 的频谱的系数, 通过使用至少一个调制函数将提取出的频谱系数转换为调制频谱。在调制 频谱的分量或系数中, 通过使用特定调制函数产生与傅里叶变换频谱系数不对应并且在噪 声或回声环境中不失真的各种峰值点。本文中, 可用于产生调制频谱的调制函数可包括正 弦函数、 余弦函数、 使用正弦函数和余弦函数的复杂旋转函数、 傅里叶变换、 小波变换以及 Z 变换中的一个或多个。 0047 调制频谱归一化器112从调制频谱系数提取器111中提取的调制频谱系数之中删 除重叠分量和非独立分量, 并获得分别指示输入的音频信号的唯一特征的各种调制频谱峰 值点。 具体。

31、地, 在音频信号之中, 与对应于事件的音频信号和音乐信号的频谱在相对较低的 说 明 书 CN 103810236 A 8 5/9 页 9 频率具有相对大量的能量并在相对较高的频率具有较少的能量。 此外, 当远离音乐源时, 无 法听到低音。调制频谱系数中的重叠分量和非独立分量示出低频处的能量分布, 并且不包 括与其它音频信号不同的峰值点。因此, 通过执行调制频谱的归一化删除与未显示出音频 信号的特征的不必要区域的重叠, 并提供与指示音频信号的唯一特征的峰值点相关的快速 提取路径。 0048 关于调制频谱的归一化, 可使用各种归一化方法 (诸如, 零均值归一化、 倒谱均值 归一化、 分贝标度归一化。

32、、 使用均值的归一化、 使用中值的归一化和分位数归一化) 中的任 意一个或多个。 0049 调制频谱峰值点提取器113从经由调制频谱归一化器112产生的归一化的调制频 谱之中, 将针对噪声和 / 或回声分量而相对较弱的调制频谱峰值点与针对噪声和 / 或回声 分量而相对较强的调制频谱峰值点进行区分, 并提取针对噪声和 / 或回声分量而相对较强 的区分的调制频谱峰值点。例如, 调制频谱峰值点提取器可使用阈值来将相对较强的峰值 点和相对较弱的峰值点进行区分。 0050 调制频谱峰值点提取 113 可应用噪声去除滤波器, 以便提取针对噪声和 / 或回声 分量而相对较强的区分的调制频谱峰值点。此外, 调。

33、制频谱峰值点提取器 113 可通过假设 噪声和 / 或回声分量, 将针对噪声和 / 或回声分量而相对较强的峰值点与针对噪声和回声 分量而相对较弱的峰值点进行区分。在这种情况下, 调制频谱峰值点提取器 113 可通过使 用以下项中的至少一个来执行调制频谱峰值点的提取 : 有限脉冲响应 (FIR) 滤波器、 无限 脉冲响应滤波器 (IIR) 、 卡尔曼滤波器、 维纳滤波器、 频谱扣除方法、 用于计算调制频谱的最 小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、 用于通过使用自适应阈 值 (其通过使用调制频谱的最高峰值点计算) 提取与噪声和回声分量不同的峰值点的方法、 用于通过使用过零率和。

34、能量来提取峰值点的方法。 0051 调制频谱峰值点音频指纹产生器114通过提取与针对噪声和/回声环境而相对较 强的调制频谱峰值点的位置相关的信息, 来产生调制频谱峰值点的音频指纹。 0052 在发生噪声和回声的真实环境中, 重要的是清楚容易地听到每个频率的每个声 音, 而当低音远离音频信号的音乐源时, 低音无法被安静地听到。此外, 使用高音容易掩盖 低音 ; 然而, 使用低音难以掩盖高音。 具体地, 当对音乐信号进行分析时, 包括基本频率声音 的回声被显示为频谱上的峰值点或峰。因此, 找到基本频率的最简单的方法是找到频谱上 的最大值。 当对频谱进行分析时, 具有最大峰值点的频率值之间的位置和间。

35、隔、 区分的峰值 点和前述峰值点周围的其它峰值点具有用于定义音频信号 (特别是声音) 的特征的重要功 能。 与通过考虑音频信号的上述特征而提取出的调制频谱峰值点的位置相关的信息指示地 音频信号中显示出未因噪声和回声环境而失真的音频特征的主要分量。 与提取出的调制频 谱区分的峰值点和其它峰值点的位置之间的距离相关的信息具有针对噪声和回声环境而 相对较强同时几乎不被噪声和回声环境损坏的特征。因此, 因为与音频信号的唯一特征的 相关性, 与提取出的调制频谱峰值点之间的距离相关的信息可适当地用作哈希地址和哈希 值。 0053 调制频谱峰值点音频指纹产生器 114 通过将与提取出的调制频谱峰值点相关的 。

36、位置信息进行关联来产生调制频谱峰值点音频指纹。 调制频谱峰值点音频指纹由可指示提 取出的调制频谱峰值点的位置的值构成。因此, 产生器 114 将一个调制频谱峰值点的帧号、 说 明 书 CN 103810236 A 9 6/9 页 10 一个调制频谱峰值点的频率索引、 连接的其它调制频谱峰值点的频率索引以及一个调制频 谱峰值点与其它调制频谱峰值点之间的帧距离进行关联。 0054 根据示例性实施例的音乐信息搜索设备可减少调制频谱峰值点指纹的大小, 并通 过根据上述方法产生调制频谱峰值点音频指纹将结果转换为针对噪声和回声环境而相对 较强的指纹。因此, 音乐信息搜索设备可通过使用哈希表高速搜索提供的查。

37、询剪辑。 0055 音频数据搜索器120搜索与音频指纹产生器114中产生的调制频谱峰值点指纹相 应的音频数据, 并为用户提供与搜索音频数据相关的信息。音频数据搜索器 120 包括调制 频谱峰值点音频指纹信息存储器 130、 调制频谱峰值点音频指纹搜索器 140 和信息提供器 150。 0056 调制频谱峰值点音频指纹信息存储器 130 包括哈希表 131。 0057 哈希表131是存储通过使用音频指纹产生器110提供的调制频谱峰值点指纹产生 的哈希键和哈希值的区域。 0058 哈希键和哈希值产生器121通过使用调制频谱峰值点音频指纹产生器110中产生 的调制频谱峰值点音频指纹, 经由至少一个哈。

38、希函数来产生指示哈希表的各个地址值的哈 希键和存储在哈希表上的哈希值。 0059 调制频谱峰值点音频指纹信息存储器 130 将通过使用哈希键和哈希值产生器 121 中的调制频谱峰值点音频指纹中的每一个产生的哈希键和与哈希键相应的哈希值存储在 哈希表 131 上。 0060 根据示例性实施例的音频数据搜索器 120 中的哈希搜索方法按照提供为用于快 速搜索音频数据的哈希表的布置来存储音频数据, 经由合适的哈希函数将音频查询剪辑的 调制频谱峰值点音频指纹转换为指示哈希表的地址的哈希键, 并在哈希表 131 内搜索与查 询剪辑的哈希键相同的位置上的哈希值。 0061 根据示例性实施例的哈希搜索方法的。

39、优点在于不论哈希表的大小, 搜索时间固 定, 搜索速度比现有搜索方法 (诸如, 二进制搜索) 明显更快, 可容易地执行插入和删除数 据。 0062 当调制频谱峰值点音频指纹被转换为哈希键和哈希值时, 使用根据示例性实施例 的哈希函数。 这些函数将数据从一类调制频谱峰值点音频指纹转换为指示哈希表的地址值 的哈希键和存储在哈希表上的哈希值。 0063 此外, 因为调制频谱峰值点音频指纹的可用组合的可能数量远远大于哈希表的相 应大小, 所以根据示例性实施例的哈希函数成为多对一相应函数。 另外, 根据示例性实施例 的哈希函数在执行计算方面应该较快且简单。 0064 当音频查询剪辑被输入时, 根据示例性。

40、实施例的音频搜索方法从调制频谱峰值点 音频指纹产生器 110 产生音频查询剪辑的调制频谱峰值点指纹, 并经由哈希键和哈希值产 生器 121 从音频查询剪辑的调制频谱峰值点音频指纹产生哈希键。调制频谱峰值点音频指 纹搜索器 140 获得存储在哈希表上的与音频查询剪辑的哈希键相同位置上的哈希值, 将结 果转换为调制频谱峰值点音频指纹信息, 确定最终搜索结果, 并为用户提供搜索结果。 0065 调制频谱峰值点音频指纹搜索器 140 包括哈希键比较搜索器和哈希值获得器 141、 获得的哈希值的音频信息转换器 142 和最终搜索结果确定器 143。 0066 哈希键比较搜索器和哈希值获得器 141 通过。

41、从音频查询剪辑的调制频谱峰值点 说 明 书 CN 103810236 A 10 7/9 页 11 音频指纹之中搜索具有与哈希键和哈希值产生器 121 计算出的哈希键相同地址的哈希表 来获得存储在哈希表上的哈希值。 0067 获得的哈希值的音频信息转换器 142 经由一个或多个哈希函数将经由哈希键比 较搜索器和哈希键获得器 141 获得的哈希值转换为音频索引信息, 诸如, 音乐歌曲标识 (ID) 或音频事件 ID。 0068 最终搜索结果确定器143计算来自获得的哈希值的音频信息转换器142的最频繁 的音频索引信息 (例如, 音乐歌曲 ID 或音频事件 ID) , 将与最大量的音频索引信息相应的。

42、数 据确定为最终搜索音频信息。 0069 信息提供器150为用户提供与在调制频谱峰值点音频指纹搜索器140中搜索的音 频数据相关的信息。 0070 从而, 根据示例性实施例的音频信息搜索设备从音频信号和音频数据的调制频谱 提取针对噪声和 / 或回声环境而相对较强的调制频谱峰值点的位置, 通过组合提取出的峰 值点的位置来产生调制频谱峰值点音频指纹, 通过使用一个或多个哈希函数从调制频谱峰 值点音频指纹计算指示哈希表的地址值的哈希键和存储在哈希表上的哈希值, 并将结果存 储在哈希表上。 0071 此外, 根据示例性实施例的音乐信息搜索设备基于区分的调制频谱的峰值点来从 音频查询剪辑提取调制频谱峰值。

43、点音频指纹, 通过使用一个或多个哈希函数计算音频查询 剪辑的哈希键, 从调制频谱峰值点音频指纹信息存储器 130 的哈希表获得与上述查询音频 文件的哈希键相应的哈希值, 并经由一个或多个哈希函数将结果转换为音频索引信息。因 此, 可高速搜索音乐信息。 0072 图 3A、 图 3B、 图 4A 和图 4B 是示出根据示例性实施例的服务提供方法的示图。 0073 可通过使用图 1 和图 2 中示出的音乐信息搜索设备提供图 3A 和图 3B 中示出的服 务。 0074 例如, 在 310, 当正观看的电视 (TV) 10 上的广告 (AD) 显示指示根据示例性实施例 的服务的特定项 (例如,“广告。

44、捕获” ) 可被提供时, 在 320, 用于记录相应 AD 音乐的用户命令 可被输入。当与摇动用户终端 20 相应的运动被输入时, 相应的 AD 音乐经由音乐终端 20 被 记录, 记录的音频被发送到数据服务器 (未示出) , 相应的 AD 可经由搜索被识别。 0075 具体地, 参照图 4A, 在 410, 提取与经由终端 20 记录的 AD 音乐相关的音频指纹, 在 420, 搜索存储每个 AD 的音频指纹的数据库, 在 430, 可搜索与提取出的音频指纹 (例如, AD 标题和 ID) 相应的信息。例如, 可使用诸如图 4B 中示出的数据库 ; 数据库具有 AD 音乐的音 频指纹被提取、。

45、 索引和存储的结构。 0076 再次参照图 3A 和图 3B, 在 330, 识别的 AD 的附加服务信息 (例如, 附加信息和优惠 券服务) 可被提供给用户终端 20。例如, 当识别出 AD 指示特定汽车产品时, 相应 AD 的附加 服务信息可被提供给用户终端20。 这样的附加服务也可被存储在上述数据服务器 (未示出) 上, 和 / 或存储在外部服务器 (例如, 相应的产品销售商服务器) 上。当相应的附加服务信息 被存储在数据服务器 (未示出) 上时, 可使用从相应产品相关服务器接收到的信息定期更新 所述信息。 0077 当在 340 用于在提供给用户终端 20 的附加服务上选择特定项的用户。

46、命令被输入 时, 在 350, 与选择的项相应的详细信息可被提供。例如, 当在汽车产品 AD 上选择了与 “展 说 明 书 CN 103810236 A 11 8/9 页 12 示乘坐可用店” 相关的项时, 可提供与展示乘坐可用店相关的详细信息。 0078 上述服务可应用于根据示例性实施例的音乐信息检索方法。 0079 图 5 是示出根据示例性实施例的音乐信息搜索方法的流程图。 0080 根据图 5 中示出的音乐信息搜索方法, 在操作 S10, 从音频数据提取针对噪声和 / 或回声环境而相对较强的调制频谱。 0081 在操作 S520, 通过使用预设峰值点之间的位置信息从提取出的调制频谱产生调。

47、制 频谱峰值点音频指纹。 0082 在操作 S530, 产生的调制频谱峰值点音频指纹经由一个或多个哈希函数被转换为 指示哈希表的地址的哈希键和存储在哈希表上的哈希值。 0083 在操作 S540, 提取与音频查询剪辑相关的调制频谱峰值点音频指纹的哈希键, 通 过将提取出的音频查询剪辑的哈希键与哈希表的地址进行比较来搜索音乐信息。 0084 图 6 是示出根据示例性实施例的音乐信息搜索方法的流程图。 0085 根据图 6 中示出的音乐信息搜索方法, 在操作 S610, 音频信息搜索设备提取针对 噪声和 / 或回声环境而相对较强的调制频谱的峰值点。 0086 在操作 S615, 音频信息搜索设备通。

48、过使用与针对噪声和 / 或回声环境而相对较强 的调制频谱峰值点之间的位置相关的信息, 从提取出的调制频谱产生调制频谱峰值点音频 指纹。 0087 在操作 S620, 针对产生的音频指纹, 通过使用一个或多个哈希函数来产生指示地 址值的哈希键和哈希值。 0088 在操作 S625, 通过使用确定的哈希键和哈希值产生哈希表。 0089 从而, 根据示例性实施例的音乐信息搜索方法从调制频谱中提取针对噪声和 / 或 回声环境相对罗强的区分的调制频谱的峰值点。 与这样的区分的调制频谱峰值点相关的位 置信息在无噪清晰环境和非常嘈杂环境中是统一可提取的, 从而, 显示出针对噪声和 / 或 回声环境而非常强的。

49、特点。 0090 在操作 S630, 音频信息搜索设备提取针对与音频查询剪辑相关的噪声和 / 或回声 相对较强的调制频谱峰值点。 0091 在操作 S635, 通过使用与关于提取出的调制频谱的区分的峰值点相关的位置信息 来从音频查询剪辑产生调制频谱峰值点音频指纹。 0092 在操作 S640, 通过针对音频查询剪辑的产生的调制频谱峰值点音频指纹使用一个 或多个哈希函数来计算哈希键。 0093 在操作 S645, 从哈希表搜索与计算出的哈希键匹配的地址值, 其中, 所述哈希键指 示音频查询剪辑的地址值。 0094 在操作 S650, 获得所有从哈希表搜索的地址的哈希值, 通过使用一个或多个哈希 函数, 获得的哈希值被转换并被获得为音频索引信息。 0095 在操作 S655, 将最大量的音频索引信息确定为获得的音频索引信息之中的最终搜 索音频信息。 0096 此外, 根据各种示例性实施例的音乐信息搜索方法可被。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1