《音频段提取方法及提取装置.pdf》由会员分享,可在线阅读,更多相关《音频段提取方法及提取装置.pdf(11页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103824555 A (43)申请公布日 2014.05.28 CN 103824555 A (21)申请号 201210468058.X (22)申请日 2012.11.19 G10L 15/02(2006.01) G10L 15/04(2013.01) G10L 15/05(2013.01) G10L 25/03(2013.01) (71)申请人 腾讯科技 (深圳) 有限公司 地址 518044 广东省深圳市福田区振兴路赛 格科技园 2 栋东 403 室 (72)发明人 易立夫 (74)专利代理机构 上海波拓知识产权代理有限 公司 31264 代理人 杨波 (5。
2、4) 发明名称 音频段提取方法及提取装置 (57) 摘要 本发明涉及音频段提取方法及提取装置, 其 中提取方法包括 : 获取被检测歌曲的音频信号 ; 按预设的时间间隔对音频信号进行分帧处理, 以 将音频信号划分为若干音频信号段 ; 从每个音频 信号段中提取基音和起始点特征, 分别形成基音 和起始点的特征序列 ; 以及根据特征序列对每个 音频信号段进行检测, 以得到所需提取音频段的 起始点和结束点的位置信息。 本发明能够准确、 快 速地提取到所需音频段位置信息, 能够满足实时 检测的应用需求。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 3 页 (19)中华人民共和国国家知。
3、识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图3页 (10)申请公布号 CN 103824555 A CN 103824555 A 1/2 页 2 1. 一种音频段提取方法, 其特征是 : 包括步骤 : 获取被检测歌曲的音频信号 ; 按预设的时间间隔对该音频信号进行分帧处理, 以将该音频信号划分为若干音频信号 段 ; 从每个音频信号段中提取基音和起始点特征, 分别形成基音和起始点的特征序列 ; 以 及 根据该特征序列对每个音频信号段进行检测, 以得到该所需提取音频段的起始点和结 束点的位置信息。 2. 根据权利要求 1 所述的音频段提取方法, 其特征是 : 在执行按预设的时间。
4、间隔对音 频信号进行分帧处理的步骤后, 还包括步骤 : 对每个音频信号段进行傅立叶变换以得到每个音频信号段的频谱图。 3. 根据权利要求 1 所述的音频段提取方法, 其特征是 : 在执行从每个音频信号段中提 取基音和起始点特征, 分别形成基音和起始点的特征序列的步骤中, 还包括步骤 : 采用短时自相关函数法、 平均幅度差函数法或倒谱解卷积法获得每个音频信号段的各 基音频率值, 由该基音频率值形成该基音的特征序列 ; 从每个音频信号段中提取能量值, 形成该能量值的特征序列 ; 以及 在每个音频信号段中选取音频信号能量集中且变化剧烈的位置作为各起始点, 由该起 始点形成该起始点的特征序列。 4. 。
5、根据权利要求 3 所述的音频段提取方法, 其特征是 : 在执行根据该特征序列对每个 音频信号段进行检测的步骤中, 还包括步骤 : 依次将该特征序列与阈值、 预设时间及每个音频信号段进行比较而得到该所需提取音 频段的起始点和结束点的位置信息。 5. 根据权利要求 4 所述的音频段提取方法, 其特征是 : 还包括步骤 : 将该基音的特征序列与基音阈值进行比较而得到第一候选音频段, 将该能量值的特征 序列与能量阈值进行比较而得到第二候选音频段, 将该起始点的特征序列与起始点阈值进 行比较而得到音频段候选起始点 ; 将各候选音频段的持续时间与预设时间范围进行比较, 若该候选音频段的持续时间在 该预设时。
6、间范围内, 则确定该候选音频段为所需提取的音频段, 该候选音频段的开始时间 及结束时间为所需提取的音频段的起始点和结束点 ; 以及 将该候选音频段的持续时间与每个音频信号段进行比较, 若该候选音频段的持续时间 在某个音频信号段内, 则判断为该个音频信号段为所需提取音频段所在的音频信号段。 6. 一种音频段提取装置, 其特征在于, 其包括 : 获取模块, 用于获取被检测歌曲的音频信号 ; 划分模块, 用于按预设的时间间隔对该音频信号进行分帧处理, 以将该音频信号划分 为若干音频信号段 ; 特征提取模块, 用于从每个音频信号段中提取基音和起始点特征, 分别形成基音和起 始点的特征序列 ; 以及 检。
7、测模块, 用于根据该特征序列对每个音频信号段进行检测, 以得到该所需提取音频 段的起始点和结束点的位置信息。 权 利 要 求 书 CN 103824555 A 2 2/2 页 3 7. 根据权利要求 6 所述的音频段提取装置, 其特征在于, 其进一步包括 : 变换模块, 用于对每个音频信号段进行傅立叶变换以得到每个音频信号段的频谱图。 8. 根据权利要求 6 所述的音频段提取装置, 其特征在于, 该特征提取模块, 还用于采用 短时自相关函数法、 平均幅度差函数法或倒谱解卷积法获得每个音频信号段的各基音频率 值, 由该基音频率值形成该基音的特征序列 ; 从每个音频信号段中提取能量值, 形成该能量。
8、 值的特征序列 ; 并在每个音频信号段中选取音频信号能量集中且变化剧烈的位置作为各起 始点, 由该起始点形成该起始点的特征序列。 9. 根据权利要求 6 所述的音频段提取装置, 其特征在于, 该检测模块, 还用于依次将该 特征序列与阈值、 预设时间及每个音频信号段进行比较而得到该所需提取音频段的起始点 和结束点的位置信息。 10. 根据权利要求 6 所述的音频段提取装置, 其特征在于, 该检测模块, 还用于将该基 音的特征序列与基音阈值进行比较而得到第一候选音频段, 将该能量值的特征序列与能量 阈值进行比较而得到第二候选音频段, 将该起始点的特征序列与起始点阈值进行比较而得 到音频段候选起始点。
9、 ; 将各候选音频段的持续时间与预设时间范围进行比较, 若该候选音 频段的持续时间在该预设时间范围内, 则确定该候选音频段为所需提取的音频段, 该候选 音频段的开始时间及结束时间为所需提取的音频段的起始点和结束点 ; 并将该候选音频 段的持续时间与每个音频信号段进行比较, 若该候选音频段的持续时间在某个音频信号段 内, 则判断为该个音频信号段为所需提取音频段所在的音频信号段。 权 利 要 求 书 CN 103824555 A 3 1/5 页 4 音频段提取方法及提取装置 技术领域 0001 本发明涉及音乐处理技术领域, 尤其涉及音频段提取方法及提取装置。 背景技术 0002 一般流行歌曲的结构。
10、是以主歌 (Verse) (A) 、 副歌 (Chorus) (B) 、 过渡句 (插句) (C) 、 流行句 (记忆点) (D) 、 桥段 (Instrumental and Ending) (序唱, 过门, 间奏) (E) 等组 成。歌曲的音频段提取是音乐处理领域中的一种重要的音乐处理方法。目前对副歌中的音 频段提取尤为常见。副歌具有对比性强烈、 歌词句式重复、 发展与概括性三大特点。通常, 人们对歌曲记忆深刻的高潮部分, 一般会出现在歌曲的副歌段内。自动提取歌曲副歌高潮 段, 有助于用户快速定位歌词核心 (记忆点) 部分, 制作手机铃声以及快速聆听歌曲精华部 分, 从而可提升用户对音乐服。
11、务的满意度。 0003 现有的副歌高潮段的提取方法大都通过人工标注歌曲副歌高潮段, 即当用户请求 获取音乐库内的某首歌曲的副歌高潮段信息时, 则将此请求提交给后台服务器, 服务器将 人工事先离线计算好的副歌高潮段信息返回给客户端。由于音乐库内歌曲数量超过百万, 人工标注歌曲副歌高潮段费时费力, 且不能根据用户需求随时变更。 另外, 现有技术主要考 虑提取副歌段, 而对副歌中的高潮段 (记忆点) 缺乏关注, 实际制作用户彩铃和快进 “浏览” 需要较短的歌曲片段 (比如 30-40 秒)(即副歌中的高潮段) 。因为副歌段有可能持续 1 分钟 以上, 这对手机彩铃 (一般要求彩铃时间 =45 秒) 。
12、等短时间歌曲片段的用户需求来说, 显得 有些不尽合理。 发明内容 0004 因此, 本发明提供音频段提取方法及提取装置, 以克服现有歌曲处理技术存在的 问题。 0005 具体地, 本发明实施例提出的一种音频段提取方法, 包括步骤 : 获取被检测歌曲的 音频信号 ; 按预设的时间间隔对音频信号进行分帧处理, 以将音频信号划分为若干音频信 号段 ; 从每个音频信号段中提取基音和起始点特征, 分别形成基音和起始点的特征序列 ; 以及根据特征序列对每个音频信号段进行检测, 以得到所需提取音频段的起始点和结束点 的位置信息。 0006 另外, 本发明实施例提出的一种音频段提取装置, 包括获取模块、 划分。
13、模块、 特征 提取模块以及检测模块。获取模块, 用于获取被检测歌曲的音频信号 ; 划分模块, 用于按预 设的时间间隔对音频信号进行分帧处理, 以将音频信号划分为若干音频信号段 ; 特征提取 模块, 用于从每个音频信号段中提取基音和起始点特征, 分别形成基音和起始点的特征序 列 ; 检测模块, 用于根据特征序列对每个音频信号段进行检测, 以得到所需提取音频段的起 始点和结束点的位置信息。 0007 由上述实施例可知, 本发明通过从音频信号中提取基音和起始点特征, 分别形成 特征序列, 并根据特征序列对音频信号进行所需提取音频段的检测, 以得到所需提取音频 说 明 书 CN 103824555 A。
14、 4 2/5 页 5 段的起始点和结束点的位置信息。 从而能够准确、 快速地提取到所需提取音频段位置信息, 能够满足实时检测应用的需求, 而且可以灵活的控制输出检测结果的长短, 还有助于提升 用户对音乐服务的满意度, 例如制作手机铃声、 快速聆听歌曲精华部分等。 0008 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其他目的、 特征和优点能够 更明显易懂, 以下特举较佳实施例, 并配合附图, 详细说明如下。 附图说明 0009 图 1 是本发明实施例提出的音频段提取方法的步骤流程图 ; 0010 图 2 是本。
15、发明实施例提出的音频信号的频谱图及音频信号的频谱图划分的示意 图 ; 0011 图 3 是本发明实施例提出的音频信号的波形图及基音走势的示意图 ; 0012 图 4 是本发明实施例提出的音频信号的谱能量特征分布图 ; 0013 图 5 是本发明实施例提出的音频段提取装置的主要架构框图。 具体实施方式 0014 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效, 以下结合 附图及较佳实施例, 对依据本发明提出的音频段提取方法及提取装置其具体实施方式、 结 构、 特征及功效, 详细说明如后。 0015 有关本发明的前述及其他技术内容、 特点及功效, 在以下配合参考图式的较佳实 施例详细。
16、说明中将可清楚的呈现。通过具体实施方式的说明, 当可对本发明为达成预定目 的所采取的技术手段及功效得以更加深入且具体的了解, 然而所附图式仅是提供参考与说 明之用, 并非用来对本发明加以限制。 0016 图1是本发明实施例提供的音频段提取方法的步骤流程图。 请参阅图1, 本发明实 施例的音频段提取方法可包括以下步骤 S101-S107 : 0017 步骤 S101 : 获取被检测歌曲的音频信号。 0018 本步骤中, 可以获取音频信号的频谱图如图 2 所示, 也可以是音频信号的波形 (位 移图) 如图 3 所示的位移波形 301。此音频信号可以是解码为 wav 格式的音频信号。主要 是因为歌曲。
17、的音频信号通常为压缩的信号, 因此需要解码 (即解压缩) 为 wav 格式的音频信 号, 才能再进行一般的信号处理。 0019 步骤 S103 : 按预设的时间间隔对歌曲的音频信号进行分帧处理, 以将音频信号划 分为若干音频信号段。 0020 本步骤中, 可以以 ts 秒 /N(N 为正整数) 的时间间隔将音频信号分为 N 段, 其中, ts 可以为被检测歌曲的时间长度, 将音频信号划分为若干段的频谱图如图 2 所示。此处的时 间间隔可以为 20ms 或其它时间间隔。 0021 步骤 S103 后具体还可包括步骤 : 0022 对每个音频信号段进行 FFT(傅立叶变换) 变换以得到每个音频信号。
18、段的频谱图, 音频信号的频谱图如图 2 所示。 0023 本步骤中, FFT 变换可以采用离散傅立叶变换。 说 明 书 CN 103824555 A 5 3/5 页 6 0024 步骤 S105: 从每个音频信号段中提取基音和起始点特征, 分别形成基音和起始点 的特征序列。 0025 步骤 S105 中具体还可包括步骤 : 0026 从每个音频信号段中提取能量值特征, 形成能量值的特征序列。 0027 其中, 以副歌高潮段的提取为例进行说明, 副歌在节奏上、 情感上与主歌形成鲜明 对比, 曲调有较大的对比变化。音乐的基音是每个乐音中频率最低的纯音, 其强度最大, 副歌高潮部分的基音会比较高, 。
19、以表达更为强烈的感情。基音频率是基音周期的倒数, 而基音周期 (Pitch) 是指发浊音时声带振动所引起的周期运动的时间间隔。由于基音周 期只具有准周期性, 所有只能采用短时平均方法估计该周期, 这个过程也称为基音检测 (PitchDe-tection)。目前成熟的基音检测的方法主要有短时自相关函数法、 平均幅度差 函数法、 倒谱解卷积法等。采用目前现有的上述基音检测方法可以获得音频信号的基音频 率值, 由此根据音频信号中每个乐音的基音频率及音频信号得到图 3 所示的基音走势曲线 302。图 3 的基音走势曲线 302 上的点即为每个乐音的基音的音频信号序列。由基音频率 值形成基音的特征序列。。
20、 0028 此外, 起始点的特征序列的获取方法如下 : 可以采用现有的如下的函数 : 能量、 差分相位、 高频分量 (HFC, High-frequency content) 、 改进的库尔贝克和莱伯勒散度 (Modified Kullback-Leibler divergence) 、 MFCC(美尔倒谱系数) 、 LSP(线谱对) 、 WPD(加 权相位差分) 等函数对图 2 的频谱图上的谱能量进行累加得到图 4 所示的音频信号的谱能 量特征分布图。而音频信号是一种短时信号, 也就是在小时间单位 (比如 20 毫秒) 内音频信 号在频域上变化不大, 随着时间的变化, 音频信号的变化会逐渐加。
21、大。 例如若歌手演唱歌词 的改变或歌曲配乐的变化, 音频信号都会在时间轴上呈现不均匀的变化。由于音频信号本 身在时间轴上存在着这种不均衡性, 副歌高潮段起始点的选择最好是选取音频信号能量最 集中变化最剧烈的位置。由此可以根据能量阈值及预设时间范围 (某时间的能量大于其前 后时间的能量即能量变化最剧烈、 时间持续比较短) 来获取起始点的特征序列。选取如图 4 中的波峰位置, 即图 4 中标记的点即持续时间比较短的波峰位置作为起始点 (onset) 的特 征序列。 0029 能量的特征序列即对应于图 4 的谱能量特征分布曲线上的点 (即能量值构成能量 值的特征序列) 。 0030 步骤 S107:。
22、 根据特征序列对每个音频信号段进行检测, 以得到所需提取音频段的 起始点和结束点的位置信息。 0031 本步骤中, 仍以副歌高潮段的提取为例进行说明, 可以根据特征序列采用机器学 习算法对每个音频信号段进行检测以获得副歌高潮段, 机器学习算法包括采用一些副歌高 潮段的各种信息的检测公式, 例如概率公式, 而检测出副歌高潮段在每个音频信号段的概 率, 而选择概率高的音频信号段作为副歌高潮段所在的音频信号段。副歌高潮段的各种信 息包括副歌高潮段能量比较高、 基音的频率比较高等信息。 0032 此外, 还可以依次将基音、 能量和起始点的特征序列与阈值、 预设时间及每个音频 信号段进行比较而得到副歌高。
23、潮段的起始点和结束点的位置信息。具体地, 将基音的特征 序列与基音阈值进行比较而得到第一候选高潮段, 即若基音特征序列中的某一时间段基音 的强度 (基音频率) 大于基音阈值, 则将此基音段作为第一候选高潮段, 即此基音段所对应 说 明 书 CN 103824555 A 6 4/5 页 7 的时间段作为高潮段的第一候选时间段。将能量值的特征序列与能量阈值进行比较而得 到第二候选高潮段, 即若能量的特征序列中某一时间段能量大于能量阈值, 则将此能量段 作为第二候选高潮段, 即此能量段所对应的时间段作为高潮段的第二候选时间段。将起始 点的特征序列与起始点阈值进行比较而得到高潮段候选起始点, 即若起始。
24、点特征序列中某 一起始点大于起始点阈值, 则将此起始点所对应的时间作为高潮段的候选起始点。再将所 确定的各候选高潮段的时间段 (即高潮段的持续时间) 与预设时间范围及每个音频信号段 进行比较, 而确定高潮段的时间段 (即开始时间及结束时间) 及高潮段所在的音频信号段, 即若预设时间范围为 20-50 秒 (主要由所提取的高潮段的时间长度而定) , 如果候选高潮段 的时间段 (即高潮段的持续时间) 在预设时间范围内, 则确定候选高潮段为所需提取的高潮 段, 此候选高潮段的开始时间及结束时间即为所需提取的高潮段的起始点和结束点, 再将 候选高潮段的时间段与每个音频信号段进行比较, 若候选高潮段的时。
25、间段在某个音频信号 段内, 则判断为该个音频信号段为所需提取的高潮段所在的音频信号段。 0033 基于上述副歌高潮段检测能保证较高的准确率, 且计算量相对较小, 能满足实时 检测应用的需求。 0034 在本发明的实施例中, 本发明通过从音频信号中提取基音和起始点或能量特征, 分别形成基音和起始点或能量的特征序列, 再根据特征序列对每个音频信号段进行检测, 以得到所需提取音频段的起始点和结束点的位置信息。从而能够准确、 快速地提取到所需 提取音频段位置信息, 能够满足实时检测的应用需求, 而且可以灵活的控制输出检测结果 的长短, 还能够提升用户对音乐服务的满意度, 例如制作手机铃声、 快速聆听歌。
26、曲精华部分 等。 0035 图5是本发明实施例提出的音频段提取装置的主要架构框图。 请参阅图5, 音频段 提取装置包括 : 获取模块 501、 划分模块 503、 特征提取模块 505 以及检测模块 507。 0036 获取模块 501, 用于获取被检测歌曲的音频信号。 0037 划分模块 503, 用于按预设的时间间隔对音频信号进行分帧处理, 以将音频信号划 分为若干音频信号段。 0038 特征提取模块 505, 用于从每个音频信号段中提取基音和起始点特征, 分别形成基 音和起始点的特征序列。 0039 此外, 特征提取模块 505, 还用于采用现有的自相关等成熟算法获得每个音频信号 段的各。
27、基音频率值, 由基音频率值形成基音的特征序列, 从每个音频信号段中提取能量值, 形成能量值的特征序列 ; 并在每个音频信号段中选取音频信号能量集中且变化剧烈的位置 作为各起始点, 由该起始点形成起始点的特征序列。 0040 其中, 基音频率是基音周期的倒数, 而基音周期是指发浊音时声带振动所引起的 周期运动的时间间隔。由于基音周期只具有准周期性, 所有只能采用短时平均方法估计该 周期, 这个过程也称为基音检测。 目前成熟的基音检测的方法主要有短时自相关函数法、 平 均幅度差函数法、 倒谱解卷积法等。采用目前现有的上述基音检测的成熟方法可以获得音 频信号的基音频率值。 0041 检测模块 507。
28、, 用于根据特征序列对每个音频信号段进行检测, 以得到所需提取音 频段的起始点和结束点的位置信息。 0042 此外, 检测模块 507, 还用于依次将特征序列与阈值、 预设时间及每个音频信号段 说 明 书 CN 103824555 A 7 5/5 页 8 进行比较而得到所需提取音频段的起始点和结束点的位置信息。 0043 具体地, 检测模块 507, 还用于将基音的特征序列与基音阈值进行比较而得到第 一候选音频段, 将能量值的特征序列与能量阈值进行比较而得到第二候选音频段, 将起始 点的特征序列与起始点阈值进行比较而得到音频段候选起始点 ; 将各候选音频段的持续时 间与预设时间范围进行比较, 。
29、若候选音频段的持续时间在预设时间范围内, 则确定候选音 频段为所需提取的音频段, 候选音频段的开始时间及结束时间为所需提取的音频段的起始 点和结束点 ; 并将候选音频段的持续时间与每个音频信号段进行比较, 若候选音频段的持 续时间在某个音频信号段内, 则判断为该个音频信号段为所需提取音频段所在的音频信号 段。 0044 此外, 音频段提取装置还可以包括 : 变换模块 509。 0045 变换模块 511, 用于对每段音频信号进行 FFT(傅立叶) 变换以得到每个音频信号 段的频谱图。 0046 在本发明的实施例中, 本发明通过从音频信号中提取基音和起始点或能量特征, 分别形成基音和起始点或能量。
30、的特征序列, 再根据特征序列对每个音频信号段进行检测, 以得到所需提取音频段的起始点和结束点的位置信息。从而能够准确、 快速地提取到所需 提取音频段位置信息, 能够满足实时检测的应用需求, 而且可以灵活的控制输出检测结果 的长短, 还能够提升用户对音乐服务的满意度, 例如制作手机铃声、 快速聆听歌曲精华部分 等。 0047 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以 通过计算机程序来控制相关的硬件来完成, 所述的程序可存储于一计算机可读取存储介质 中, 该程序在执行时, 可包括如上述各方法的实施例的流程。其中, 所述的存储介质可为磁 碟、 光盘、 只读存储记忆体 。
31、(Read-Only Memory, ROM) 或随机存储记忆体 (Random Access Memory, RAM) 等。 0048 以上所述, 仅是本发明的较佳实施例而已, 并非对本发明作任何形式上的限制, 虽 然本发明已以较佳实施例揭露如上, 然而并非用以限定本发明, 任何熟悉本专业的技术人 员, 在不脱离本发明技术方案范围内, 当可利用上述揭示的技术内容作出些许更动或修饰 为等同变化的等效实施例, 但凡是未脱离本发明技术方案内容, 依据本发明的技术实质对 以上实施例所作的任何简单修改、 等同变化与修饰, 均仍属于本发明技术方案的范围内。 说 明 书 CN 103824555 A 8 1/3 页 9 图 1 图 2 说 明 书 附 图 CN 103824555 A 9 2/3 页 10 图 3 图 4 说 明 书 附 图 CN 103824555 A 10 3/3 页 11 图 5 说 明 书 附 图 CN 103824555 A 11 。