声音分析装置、声音分析合成装置、校正规则信息生成装置、声音分析系统、声音分析方法、校正规则信息生成方法、以及程序.pdf

上传人:b*** 文档编号:4570688 上传时间:2018-10-20 格式:PDF 页数:40 大小:1.59MB
返回 下载 相关 举报
摘要
申请专利号:

CN200980111700.5

申请日:

2009.09.11

公开号:

CN101983402A

公开日:

2011.03.02

当前法律状态:

授权

有效性:

有权

法律详情:

专利权的转移IPC(主分类):G10L 11/00变更事项:专利权人变更前权利人:松下电器产业株式会社变更后权利人:松下电器(美国)知识产权公司变更事项:地址变更前权利人:日本大阪府变更后权利人:美国加利福尼亚州托兰斯市水手大街2000号200室登记生效日:20141009|||授权|||实质审查的生效IPC(主分类):G10L 11/00申请日:20090911|||公开

IPC分类号:

G10L11/00; G10L11/04

主分类号:

G10L11/00

申请人:

松下电器产业株式会社

发明人:

广濑良文; 釜井孝浩

地址:

日本大阪府

优先权:

2008.09.16 JP 2008-237050

专利代理机构:

永新专利商标代理有限公司 72002

代理人:

王成坤;胡建新

PDF下载: PDF下载
内容摘要

本发明为一种声音分析装置,在存在背景噪声的实际环境下,能够正确地分析声音的非周期成分,并且,包括:频带划分部(104),将表示背景噪声和声音的混合音的输入信号频率划分为多个带通信号;噪声区间识别部(101),识别所述输入信号的噪声区间和声音区间;信噪比计算部(106a-106c),计算出信噪比,该信噪比为各个带通信号的所述声音区间中的功率和所述噪声区间中的功率的比率;相关函数计算部(105a-105c),计算出所述声音区间中的各个带通信号的自相关函数;校正量决定部(107a-107b),根据计算出的所述信噪比,决定校正量;以及非周期成分比率计算部(108a-108c),根据被决定的所述校正量和计算出的所述自相关函数,针对所述多个频带分别计算出所述声音中包含的非周期成分比率。

权利要求书

1: 一种声音分析装置, 根据表示背景噪声和声音的混合音的输入信号, 分析所述声音 中包含的非周期成分, 所述声音分析装置包括 : 频带划分部, 将所述输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别部, 识别噪声区间和声音区间, 所述噪声区间为所述输入信号仅表示所 述背景噪声的区间, 所述声音区间为所述输入信号表示所述背景噪声以及所述声音的区 间; 信噪比计算部, 计算出信噪比, 该信噪比为从所述声音区间中的所述输入信号划分出 的各个带通信号的功率和从所述噪声区间中的所述输入信号划分出的各个带通信号的功 率的比率 ; 相关函数计算部, 计算出从所述声音区间中的所述输入信号划分出的各个带通信号的 自相关函数 ; 校正量决定部, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及 非周期成分比率计算部, 根据被决定的所述校正量和计算出的所述自相关函数, 针对 所述多个频带分别计算出包含在所述声音中的非周期成分比率。
2: 如权利要求 1 所述的声音分析装置, 计算出的所述信噪比越小, 所述校正量决定部就将越大的校正量作为有关所述非周期 成分比率的校正量来决定。
3: 如权利要求 1 所述的声音分析装置, 从所述输入信号的基本频率的一个周期的时间移位中的所述自相关函数的值减去所 述校正量之后得到的校正相关值越小, 所述非周期成分比率计算部就计算出越大的比率, 以作为所述非周期成分比率。
4: 如权利要求 1 所述的声音分析装置, 所述校正量决定部, 预先保持表示信噪比和校正量的对应关系的校正规则信息, 并根 据所述校正规则信息, 参照对应于计算出的所述信噪比的校正量, 并将被参照的校正量决 定为有关所述非周期成分比率的校正量。
5: 如权利要求 1 所述的声音分析装置, 所述校正量决定部, 预先将表示信噪比和校正量的关系的近似函数作为所述校正规则 信息来保持, 根据计算出的所述信噪比, 计算出所述近似函数的值, 将计算出的值决定为有 关所述非周期成分比率的校正量, 所述近似函数是根据声音的自相关值与已知的信噪比的 噪声被重叠在所述声音中的情况下的自相关值之间的差得到的。
6: 如权利要求 1 所述的声音分析装置, 所述声音分析装置还包括基本频率归一化部, 该基本频率归一化部将所述声音的基本 频率归一化为预先规定的目标频率, 所述非周期成分比率计算部, 利用基本频率被归一化之后的所述声音, 计算出所述非 周期成分比率。
7: 如权利要求 6 所述的声音分析装置, 所述基本频率归一化部, 将所述声音的基本频率归一化为所述声音的规定的单位的基 本频率的平均值。
8: 如权利要求 7 所述的声音分析装置, 2 所述规定的单位为音素、 音节、 音拍、 重音句、 词组、 全句中的任一个。
9: 一种声音分析合成装置, 根据表示背景噪声和第一声音的混合音的第一输入信号, 分析所述第一声音中包含的非周期成分, 并对分析出的所述非周期成分和以第二输入信号 所表示的第二声音进行合成, 所述声音分析合成装置包括 : 频带划分部, 将所述第一输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别部, 识别噪声区间和声音区间, 所述噪声区间为所述第一输入信号仅表 示所述背景噪声的区间, 所述声音区间为所述第一输入信号表示所述背景噪声和所述声音 的区间 ; 信噪比计算部, 计算出信噪比, 该信噪比为从所述声音区间中的所述第一输入信号划 分出的各个带通信号的功率和从所述噪声区间中的所述第一输入信号划分出的各个带通 信号的功率的比率 ; 相关函数计算部, 计算出从所述声音区间中的所述第一输入信号划分出的各个带通信 号的自相关函数 ; 校正量决定部, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 非周期成分比率计算部, 根据被决定的所述校正量和计算出的所述自相关函数, 针对 所述多个频带分别计算出包含在所述第一声音中的非周期成分比率 ; 非周期成分频谱计算部, 根据针对所述多个频带分别计算出的非周期成分比率, 计算 出表示非周期成分的频率分布的非周期成分频谱 ; 声道特征分析部, 分析有关所述第二声音的声道特征 ; 逆滤波部, 通过利用分析出的所述声道特征的逆特性, 对所述第二声音进行逆滤波, 从 而提取所述第二声音的声源波形 ; 声源模型化部, 对被提取的所述声源波形进行模型化 ; 以及 合成部, 根据分析出的所述声道特征、 被进行模型化的所述声源特征和计算出的所述 非周期成分频谱, 对声音进行合成。
10: 一种校正规则信息生成装置, 包括 : 频带划分部, 将表示声音的输入信号和表示噪声的输入信号, 分别频率划分为作为相 同的多个频带的每个划分频带的带通信号 ; 信噪比计算部, 根据划分出的各个所述带通信号, 按照每个所述划分频带, 计算出信噪 比, 该信噪比为不同的多个时间区间的每一个中的所述声音的功率和所述噪声的功率的比 率; 相关函数计算部, 根据划分出的各个所述带通信号, 按照每个所述划分频带, 计算出所 述多个时间区间的每一个中的所述声音的自相关值以及所述噪声的自相关值 ; 以及 校正规则信息生成部, 根据计算出的所述信噪比、 所述声音的自相关值、 以及所述噪声 的自相关值, 按照每个所述划分频带, 生成校正规则信息, 该校正规则信息表示所述声音的 自相关值与所述噪声的自相关值之间的差和所述信噪比之间的对应关系。
11: 一种声音分析系统, 所述声音分析系统包括权利要求 1 所述的声音分析装置和权 利要求 10 所述的校正规则信息生成装置, 所述声音分析装置, 根据在所述校正规则信息生成装置生成的校正规则信息, 参照对 应于计算出的信噪比的校正量, 并将被参照的校正量决定为有关非周期成分比率的校正 3 量。
12: 一种声音分析方法, 根据表示背景噪声和声音的混合音的输入信号, 分析所述声音 中包含的非周期成分, 所述声音分析方法包括 : 频带划分步骤, 将所述输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别步骤, 识别噪声区间和声音区间, 所述噪声区间为所述输入信号仅表示 所述背景噪声的区间, 所述声音区间为所述输入信号表示所述背景噪声以及所述声音的区 间; 信噪比计算步骤, 计算出信噪比, 该信噪比为从所述声音区间中的所述输入信号划分 出的各个带通信号的功率和从所述噪声区间中的所述输入信号划分出的各个带通信号的 功率的比率 ; 相关函数计算步骤, 计算出从所述声音区间中的所述输入信号划分出的各个带通信号 的自相关函数 ; 校正量决定步骤, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及 非周期成分比率计算步骤, 根据被决定的所述校正量和计算出的所述自相关函数, 针 对所述多个频带分别计算出包含在所述声音中的非周期成分比率。
13: 一种校正规则信息生成方法, 包括 : 频带划分步骤, 将表示声音的输入信号和表示噪声的输入信号, 分别频率划分为作为 相同的多个频带的每个划分频带的带通信号 ; 信噪比计算步骤, 根据划分出的各个所述带通信号, 按照每个所述划分频带, 计算出信 噪比, 该信噪比为不同的多个时间区间的每一个中的所述声音的功率和所述噪声的功率的 比率 ; 相关函数计算步骤, 根据划分出的各个所述带通信号, 按照每个所述划分频带, 计算出 所述多个时间区间的每一个中的所述声音的自相关值以及所述噪声的自相关值 ; 以及 校正规则信息生成步骤, 根据计算出的所述信噪比、 所述声音的自相关值、 以及所述噪 声的自相关值, 按照每个所述划分频带, 生成校正规则信息, 该校正规则信息表示所述声音 的自相关值与所述噪声的自相关值之间的差和所述信噪比之间的对应关系。
14: 一种程序, 用于根据表示背景噪声和声音的混合音的输入信号, 来分析所述声音中 包含的非周期成分, 且能够由计算机执行, 该程序的特征在于使计算机执行以下步骤 : 频带划分步骤, 将所述输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别步骤, 识别噪声区间和声音区间, 所述噪声区间为所述输入信号仅表示 所述背景噪声的区间, 所述声音区间为所述输入信号表示所述背景噪声以及所述声音的区 间; 信噪比计算步骤, 计算出信噪比, 该信噪比为从所述声音区间中的所述输入信号划分 出的各个带通信号的功率和从所述噪声区间中的所述输入信号划分出的各个带通信号的 功率的比率 ; 相关函数计算步骤, 计算出从所述声音区间中的所述输入信号划分出的各个带通信号 的自相关函数 ; 校正量决定步骤, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及 非周期成分比率计算步骤, 根据被决定的所述校正量和计算出的所述自相关函数, 针 4 对所述多个频带分别计算出包含在所述声音中的非周期成分比率。
15: 一种程序, 其特征在于, 使计算机执行以下步骤 : 频带划分步骤, 将表示声音的输入信号和表示噪声的输入信号, 分别频率划分为作为 相同的多个频带的每个划分频带的带通信号 ; 信噪比计算步骤, 根据划分出的所述各个带通信号, 按照每个所述划分频带, 计算出信 噪比, 该信噪比为不同的多个时间区间的每一个中的所述声音的功率和所述噪声的功率的 比率 ; 相关函数计算步骤, 根据划分出的所述各个带通信号, 按照每个所述划分频带, 计算出 所述多个时间区间的每一个中的所述声音的自相关值以及所述噪声的自相关值 ; 以及 校正规则信息生成步骤, 根据计算出的所述信噪比、 所述声音的自相关值、 以及所述噪 声的自相关值, 按照每个所述划分频带, 生成校正规则信息, 该校正规则信息表示所述声音 的自相关值与所述噪声的自相关值之间的差和所述信噪比之间的对应关系。

说明书


声音分析装置、 声音分析合成装置、 校正规则信息生成装 置、 声音分析系统、 声音分析方法、 校正规则信息生成方法、 以及程序

    【技术领域】
     本发明涉及对声音的非周期成分进行分析的技术。技术背景 近几年, 随着声音生成技术的发展, 已经能够创作出音质非常高的合成音。 这样的 合成音是例如以播音员的语调宣读新闻的语句等用途为主。
     一方面, 在移动电话的服务等方面所提供的服务中逐渐普及的是某种特殊的声音 ( 具有个人再现性的高合成音或, 具有高中女学生的语气或关西方言等特殊韵律或声质的 合成音 ), 融汇了一个内容之中, 例如, 以有名人物的声音消息来代替电铃声等。
     作为合成音的用途的另一方面, 为了增加个人之间的交流中的乐趣, 对于创作特 殊的声音给对方听这样的需求也会增加。
     决定声音的特征的一个因素为非周期成分。在伴有声带振动的有声声音中, 包含 音调脉冲反复出现的周期性的成分和其他的非周期性的成分。此非周期性的成分包括 : 间 隔周期的波动、 音调振幅的波动、 音调脉冲波形的波动、 以及噪声成分等。这些非周期性的 成分, 对声音的自然性产生很大的影响, 并且, 对发声者的个人的特征也带来了很大的贡献 ( 非专利文献 1)。
     图 16(a) 和图 16(b) 为非周期成分的量不同的母音 /a/ 的频谱图。 横轴表示时间, 纵轴表示频率。在图 16(a) 和图 16(b) 中水平方向看到的条状的线表示高次谐波, 该高次 谐波为基本频率的整数倍的频率的信号成分。
     图 16(a) 为非周期成分少的情况, 且能够确认到高频带的高次谐波。图 16(b) 为 非周期成分多的情况, 且能够确认到中间的频带 ( 以 X1 表示 ) 的高次谐波, 但是, 在中间的 频带以上的频带中不能确认高次谐波。
     这样的非周期成分多的声音多见于沙哑的声音的情况等中。此外, 非周期成分也 多见于如读故事给孩子听的柔和的声音的情况中。
     因此, 正确地分析非周期成分对声音的个人特征的再现非常重要。 此外, 通过适当 地变换非周期成分, 从而也能够适用在说话者变换上。
     高频带中的非周期性的成分不仅根据音调振幅以及间隔周期的波动, 还根据音调 波形的波动以及噪声成分的有无而被赋予特征, 并且, 破坏其频带中的谐波结构。 为了确定 此非周期成分占有支配性的频带, 在非专利文献 1 中利用了如下方法, 即根据不同的多个 频带中的带通信号的自相关函数的强度, 判断非周期性强的频带。
     图 17 是示出在非专利文献 1 中的对包含在声音中的非周期成分进行分析的声音 分析装置 900 的功能性的结构的框图。
     图 17 的声音分析装置 900 包括 : 时间轴伸缩部 901、 频带划分部 902、 相关函数计 算部 903a、 903b、…、 903n、 以及边界频率计算部 904。
     时间轴伸缩部 901 将输入信号划分为规定的时间长度的帧, 并对各个帧进行时间 轴的伸缩。
     频带划分部 902 将由时间轴伸缩部 901 伸缩的信号划分为每个预先规定的多个频 带的带通信号。
     相关函数计算部 903a、 903b、…、 903n 对由频带划分部 902 划分的各个带通信号 计算出自相关函数。
     边界频率计算部 904 根据由相关函数计算部 903a、 903b、…、 903n 计算出的自相 关函数, 计算出周期性的成分占有支配性的频带和非周期性的成分占有支配性的频带之间 的边界频率。
     输入声音由时间轴伸缩部 901 伸缩时间轴之后, 由频带划分部 902 进行频率划分。 针对被划分的输入声音的各个频带的频率成分, 计算出自相关函数, 并且, 计算出基本周期 T0 的时间移位中的自相关值。根据针对各个频带的频率成分计算出的自相关值, 能够决定 对周期性的成分占有支配性的频带和非周期性的成分占有支配性的频带进行划分的边界 频率。
     非专利文献 1 : 大冢贵弘、 糟谷英树 “時間周波数領域における連続音声の周 期·非周期成分の性質 ( 时间频带中的连续声音的周期·非周期成分的性质 )” 日本音响 学会讲演论文集 (2001 年 10 月 pp.265-266.)。 在上述的方法中, 能够计算出具有输入声音中包含的非周期成分的边界频率。然 而, 在实际的应用中声音的收录环境未必能像实验室一样安静。例如在移动电话中应用的 情况下, 声音被收录的环境如在街上或车站等含有很多噪声的情况比较多。
     在这样的噪声环境下会出现如下问题, 即在非专利文献 1 的非周期成分分析方法 中, 由于背景噪声带来的影响, 计算出的信号的自相关函数比实际的值低, 从而导致过大地 评价非周期成分。
     图 18(a)- 图 18(c) 是说明因背景噪声高次谐波被噪声埋没的状态的图。 图 18(a) 示出试验性的对背景噪声进行重叠的声音信号的波形。图 18(b) 表示对背景噪声进行重 叠的声音信号的频谱图, 图 18(c) 则表示对背景噪声不进行重叠的元来的声音信号的频谱 图。
     如图 18(c) 所示, 元来的声音信号在高频带中也会出现高次谐波, 并且, 非周期成 分是少的。但是, 如图 18(b) 所示, 在对背景噪声进行重叠的情况下, 声音信号被背景噪声 埋没, 从而很难看到高次谐波。因此, 以往技术中出现如下结果, 即带通信号的自相关值降 低, 从而计算出比实际多的非周期成分。
     发明内容
     为了解决所述以往的课题, 本发明的目的在于提供一种非周期成分的分析方法, 该非周期成分的分析方法即使在存在背景噪声的实际环境中, 也能够正确地分析非周期成 分。
     为了解决以往的课题, 本发明的声音分析装置根据表示背景噪声和声音的混合声 音的输入信号, 分析所述声音中包含的非周期成分, 其中包括 : 频带划分部, 将所述输入信 号频率划分为多个频带中的带通信号 ; 噪声区间识别部, 识别噪声区间和声音区间, 所述噪声区间为所述输入信号仅表示所述背景噪声的区间, 所述声音区间为所述输入信号表示所 述背景噪声以及所述声音的区间 ; 信噪比计算部, 计算出信噪比, 该信噪比为从所述声音区 间中的所述输入信号划分出的各个带通信号的功率和从所述噪声区间中的所述输入信号 划分出的各个带通信号的功率的比率 ; 相关函数计算部, 计算出从所述声音区间中的所述 输入信号划分出的各个带通信号的自相关函数 ; 校正量决定部, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及非周期成分比率计算部, 根据被决定的所述校正 量和计算出的所述自相关函数, 针对所述多个频带分别计算出包含在所述声音中的非周期 成分比率。
     在此, 也可以是, 计算出的所述信噪比越小, 所述校正量决定部就将越大的校正量 作为有关所述非周期成分比率的校正量来决定。 并且, 也可以是, 从所述输入信号的基本频 率的一个周期的时间移位中的所述自相关函数的值减去所述校正量之后得到的校正相关 值越小, 所述非周期成分比率计算部就计算出越大的比率, 以作为所述非周期成分比率。
     并且, 也可以是, 所述校正量决定部, 预先保持表示信噪比和校正量的对应关系的 校正规则信息, 并根据所述校正规则信息, 参照对应于计算出的所述信噪比的校正量, 并将 被参照的校正量决定为有关所述非周期成分比率的校正量。 在此, 也可以是, 所述校正量决定部, 预先将表示信噪比和校正量的关系的近似函 数作为所述校正规则信息来保持, 根据计算出的所述信噪比, 计算出所述近似函数的值, 将 计算出的值决定为有关所述非周期成分比率的校正量, 所述近似函数是根据声音的自相关 值与已知的信噪比的噪声被重叠在所述声音中的情况下的自相关值之间的差得到的。
     此外, 也可以是, 所述声音分析装置还包括基本频率归一化部, 该基本频率归一化 部将所述声音的基本频率归一化为预先规定的目标频率, 所述非周期成分比率计算部, 利 用基本频率被归一化之后的所述声音, 计算出所述非周期成分比率。
     本发明不仅作为这样的声音分析装置来实现, 也可以作为声音分析方法以及程序 来实现。此外, 本发明也可以作为校正规则信息生成装置、 校正规则信息生成方法以及程 序来实现, 所述校正规则信息生成装置生成为了在这样的声音分析装置中决定校正量而使 用的校正规则信息。 本发明还可以作为向声音分析合成装置以及声音分析系统的应用来实 现。
     根据本发明的声音分析装置, 即使对于在噪声环境下收录的声音, 通过基于每个 频带的信噪比, 对非周期成分比率进行校正, 从而也能够排除噪声给非周期成分带来的影 响并正确地分析非周期成分。
     也就是说, 根据本发明的声音分析装置, 即使在存在背景噪声的街上等的实际环 境下, 也能够正确地分析包含在声音中的非周期成分。
     附图说明
     图 1 是示出本发明的实施例 1 中的声音分析装置的功能性的结构的一个例子的框图。 图 2 是示出有声声音的振幅谱的一个例子的图。
     图 3 是示出有声声音的多个划分频带的每一个的带通信号的自相关函数的一个 例子的图。
     图 4 是示出有声声音的基本频率的一个周期的时间移位中的各个带通信号的自 相关值的一个例子的图。
     图 5(a)-(h) 是示出噪声给自相关值带来的影响的图。
     图 6 是示出本发明的实施例 1 中的声音分析装置的工作的一个例子的流程图。
     图 7 是示出对于非周期成分少的声音的分析结果的一个例子的图。
     图 8 是示出对于非周期成分多的声音的分析结果的一个例子的图。
     图 9 是示出本发明的应用例中的声音分析合成装置的功能性的结构的一个例子 的框图。
     图 10(a)、 (b) 是示出声源波形和其振幅谱的一个例子的图。
     图 11 是示出由声源模型化部进行模型化的声源的振幅谱的图。
     图 12(a)-(c) 是示出由合成部合成声源波形的方法的图。
     图 13(a)、 (b) 是示出基于非周期成分的相位谱的生成方法的图。
     图 14 是示出本发明的实施例 2 中的校正规则信息生成装置的功能性的结构的一 个例子的框图。
     图 15 是示出本发明的实施例 2 中的校正规则信息生成装置的工作的一个例子的 流程图。
     图 16(a)、 (b) 是示出非周期成分的不同量给频谱带来的影响的图。
     图 17 是示出以往的声音分析装置的功能性的结构的框图。
     图 18(a)-(c) 是示出由背景噪声引起的高次谐波被噪声埋没的状态的图。 具体实施方式
     以下, 参照附图对本发明的实施例进行说明。
     ( 实施例 1)
     图 1 是示出本发明的实施例 1 中的声音分析装置 100 的功能性的结构的一个例子 的框图。
     图 1 中的声音分析装置 100 为根据表示背景噪声和声音的混合音的输入信号, 分析所述声音中包含的非周期成分的装置, 所述声音分析装置 100 包括 : 噪声区间识别部 101、 有声无声判断部 102、 基本频率归一化部 103、 频带划分部 104、 相关函数计算部 105a、 105b、 105c、 信 噪 比 (SNR : SignalNoise Ratio) 计 算 部 106a、 106b、 106c、 校正量决定部 107a、 107b、 107c、 以及非周期成分比率计算部 108a、 108b、 108c。
     声音分析装置 100 也可以作为例如以中央处理器、 存储装置等构成的计算机系统 来实现。在此情况下, 声音分析装置 100 的各个部的功能可以作为软件功能来实现, 所述中 央处理器执行存储在所述存储装置的程序, 从而所述软件发挥作用。此外, 声音分析装置 100 的各个部的功能也可以利用数字信号处理装置, 或者, 专用的硬件装置来实现。
     噪声区间识别部 101 接受作为背景噪声和声音的混合音的输入信号。接着, 按照 每个规定的时间长度将接受的输入信号划分为多个帧, 并且, 识别每个帧是作为仅表示背 景噪声的噪声区间的背景噪声帧还是作为表示背景噪声和声音的声音区间的声音帧。
     有声无声判断部 102 接受由噪声区间识别部 101 识别为声音帧的帧, 以作为输入, 并且, 判断被输入的帧内的声音是有声声音还是无声声音。基本频率归一化部 103 分析声音的基本频率, 所述声音为由有声无声判断部 102 判断为有声声音的声音, 并且, 将声音的基本频率归一化为规定的目标频率。
     频带划分部 104 将声音和背景噪声划分为作为预先规定的不同的多个频带的每 个划分频带的带通信号, 所述声音是由基本频率归一化部 103 将基本频率归一化为规定的 目标频率的, 所述背景噪声包含在由噪声区间识别部 101 识别为背景噪声帧的帧内。以下 将用于频率划分声音以及背景噪声的频带称为划分频带。
     相关函数计算部 105a、 105b、 105c 计算出由频带划分部 104 划分的各个带通信号 的自相关函数。
     信噪比计算部 106a、 106b、 106c 针对由频带划分部 104 划分的各个带通信号, 计算 出声音帧内的功率和背景噪声帧内的功率的比率, 以作为信噪比。
     校正量决定部 107a、 107b、 107c 根据由信噪比计算部 106a、 106b、 106c 计算出的信 噪比, 决定校正量, 该校正量与针对各个带通信号计算出的非周期成分比率有关。
     非周期成分比率计算部 108a、 108b、 108c 根据自相关函数和校正量, 按照每个划 分频带计算出声音中包含的非周期成分频率, 所述自相关函数是由相关函数计算部 105a、 105b、 105c 计算出的各个带通信号的自相关函数, 所述校正量是由校正量决定部 107a、 107b、 107c 决定的校正量。 以下, 针对各个部的工作进行详细的说明。
     < 噪声区间识别部 101>
     噪声区间识别部 101 按照每个规定的时间将输入信号划分为多个帧, 并且, 识别 划分出的各个帧是背景噪声帧还是声音帧, 所述背景噪声帧是作为仅表示背景噪声的噪声 区间的背景噪声帧, 所述声音帧是作为表示背景噪声和声音的声音区间的声音帧。
     在此, 也可以将输入信号例如按照每个 50msec 划分而得到的各个部分作为帧。此 外, 识别帧是背景噪声帧还是声音帧的方法不需要特别的限定, 但是, 例如可以将输入信号 的功率超过规定的阈值的帧识别为声音帧, 将其他的帧识别为背景噪声帧。
     < 有声无声判断部 102>
     有声无声判断部 102 判断声音是有声声音还是无声声音, 所述声音为以由噪声区 间识别部 101 识别为声音帧的帧内的输入信号表示的声音。判断的方法不需要特别的限 定。例如在声音的自相关函数或变形相关函数的峰值的大小超过预先规定的阈值的情况 下, 可以判断为有声声音。
     < 基本频率归一化部 103>
     基本频率归一化部 103 分析声音的基本频率, 所述声音为以由有声无声判断部 102 识别为有声帧的帧内的输入信号表示的声音。分析的方法不需要特别的限定。例如可 以利用作为针对混入噪声的声音的强健的基本频率分析方法的基于瞬时频率的基本频率 分析方法 ( 非专利文献 2 : T.Abe, T.Kobayashi, S.Imai“ ,Roubust pitch estimation with harmonic enhancement in noisy environment based on instantaneous frequency” , ASVA 97, 423-430(1996))。
     基 本 频 率 归 一 化 部 103 对 声 音 的 基 本 频 率 进 行 分 析 之 后, 将声音的基本 频 率 归 一 化 为 规 定 的 目 标 频 率。 归 一 化 的 方 法 不 需 要 特 别 的 限 定。 例 如 能 够 根 据 PSOLA(Pitch-Synchronous OverLap-Add : 基 周 同 步 叠 加 ) 法 ( 非 专 利 文 献 3:
     F.Charpentier, M.Stella, “Diphone synthesis using an over-lapped technique for speech waveforms concatenation” , Proc.ICASSP, 2015-2018, Tokyo, 1986) 变更声音的基 本频率, 且归一化为规定的目标频率。
     因此, 能够减轻韵律给自相关函数带来的影响。
     另外, 将声音归一化时的目标频率不需要特别的限定, 但是, 例如通过将目标频率 设定为声音的规定的区间 ( 也可以是整体 ) 中的基本频率的平均值, 从而能够缓和因基本 频率的归一化处理而引起的声音的变形。
     例如在 PSOLA 法中, 在将基本频率大幅度上升的情况下, 由于反复使用同一音调 波形, 从而会使自相关值上升得过大。另一方面, 在将基本频率大幅度降低的情况下, 由于 音调波形大量遗漏, 从而会导致声音的信息的丢失。 因此, 优选的是, 决定目标频率时, 尽可 能使变更的量少。
     < 频带划分部 104>
     频带划分部 104 将声音和背景噪声划分为作为预先决定的多个频带的每个划分 频带的带通信号, 所述声音是由基本频率归一化部 103 将基本频率归一化而得到的, 所述 背景噪声在由噪声区间识别部 101 判断为背景噪声帧的帧内。 划分的方法不需要特别的限定。例如也可以按照每个划分频带设计滤波器, 通过 对输入信号进行滤波处理, 从而将输入信号划分为各个带通信号。
     例如在输入信号的采样频率为 11KHz 的情况下, 作为划分频带的预先决定的 多个频带, 也可以为将包含 0-5.5KHz 的频带以等间隔划分为 8 等分而形成的 0-689Hz、 689-1378Hz、 1378-2067Hz、 2067Hz-2756Hz, 2756-3445Hz、 3445Hz-4134Hz、 4134Hz-4823Hz、 以及 4823Hz-5512Hz 中的各个频带。通过如上所述, 能够个别地计算出包含在各个划分频 带中的带通信号内的非周期成分比率。
     另外, 在本实施例中, 以将输入信号划分为 8 个划分频带的每一个的带通信号为 例进行了说明, 但是, 不限于 8 个, 也可以划分为 4 个或 16 个等。 通过使划分频带数量增多, 从而能够提高非周期成分的频率分辨能力。但是, 由于被划分的各个带通信号是由相关函 数计算部 105a-105c 计算出自相关函数, 因此, 为了计算出周期性的强度, 优选的是频带内 包含有多个基本周期的信号。例如在基本周期为 200Hz 的声音的情况下, 也可以将各个划 分频带的带宽划分成 400Hz 以上。
     此外, 也可以将频带不划分为等间隔, 例如也可以按照听觉特性, 利用 Mel 频率轴 划分为不等间隔。
     优选的是划分输入信号的频带, 以符合以上的条件。
     < 相关函数计算部 105a、 105b、 105c>
     相关函数计算部 105a、 105b、 105c 计算出由频带划分部 104 划分的各个带通信号 的自相关函数。若将第 i 个带通信号设为 xi(n), 则能够以公式 1 表示 xi(n) 的自相关函数 φi(m)。
     ( 公式 1)
     在此, M 为包含在一个帧内的抽样点的数量、 n 为抽样点的代码、 m 为抽样点的偏移值。 若将包含在由基本频率归一化部 103 分析出的声音的基本频率的一个周期内的 抽样点的数量设为 τ0, 则计算出的自相关函数 φi(m) 的 m = τ0 的值表示基本频率的一个 周期的时间移位中的第 i 个带通信号 xi(n) 的自相关值。也就是说, φi(τ0) 表示第 i 个带 通信号 xi(n) 的周期性的强度。因此, 可以说 φi(τ0) 越大周期性越强, φi(τ0) 越小非周 期性越强。
     图 2 是示出发声为 /a/ 的母音区间的时间中心的帧内的振幅谱的一个例子的图。 0-4500Hz 为止能够确认到高次谐波, 并且, 可知为周期性强的声音。
     图 3 是示出母音 /a/ 的中心帧内的第 1 个带通信号 ( 频带 0-689Hz) 的自相关函 数的一个例子的图。在图 3 中, φi(τ0) = 0.93 为第 1 个带通信号的周期性的强度。同样 地, 也可以计算出第 2 个之后的带通信号的周期性。
     低频带的带通信号的自相关函数的变动比较缓慢, 与此相对应, 由于高频带的带 通信号的自相关函数的变动激烈, 从而在 m = τ0 中未必一定取峰值。在此情况下, 也可以 计算出 m = τ0 的周围的几个抽样点中的最大值, 以作为周期性。
     图 4 是对所述的母音 /a/ 的中心帧内的从第 1 个到第 8 个为止的各个带通信号的 自相关函数的 m = τ0 的值进行绘图的图。在图 4 中, 在从第 1 个到第 7 个为止的带通信
     号中, 示出 0.9 以上这样高的自相关值, 可以说周期性是高的。另一方面, 在第 8 个带通信 号中, 自相关值大约为 0.5, 可知周期性变低了。 如上所述, 通过利用基本频率的一个周期的 时间移位中的各个带通信号的自相关值, 从而能够计算出声音的每个划分频带的周期性的 强度。
     < 信噪比计算部 106a、 106b、 106c>
     信噪比计算部 106a、 106b、 106c 计算出从背景噪声帧内的输入信号中划分出的各 个带通信号的功率且保持表示计算出的功率的值, 并且, 在计算出新的背景噪声帧的功率 的情况下, 以表示新计算出的功率的值更新保持着的值。由此, 信噪比计算部 106a、 106b、 106c 保持最近的背景噪声的功率。
     此外, 信噪比计算部 106a、 106b、 106c 计算出从声音帧内的输入信号划分出的各 个带通信号的功率, 并且, 按照每个划分频带计算出信噪比, 该信噪比为计算出的声音帧内 的功率和保持着的最近的背景噪声帧内的功率的比率。
     例 如, 针 对 第 i 个 带 通 信 号, 若 将 最 近 的 背 景 噪 声 帧 的 功 率 设 为 PiN, 将 S 声 音 帧 的 功 率 设 为 Pi , 则 声 音 帧 的 信 噪 比 SNRi 可 以 通 过 公 式 2 计 算 出。( 公 式 2) 另外, 信噪比计算部 106a、 106b、 106c 也可以保持针对规定期间或规定数量的多 个背景噪声帧计算出的功率的平均值, 利用被保持的功率的平均值计算出信噪比。
     < 校正量决定部 107a、 107b、 107c>
     校正量决定部 107a、 107b、 107c 根据信噪比, 决定非周期成分比率的校正量, 所述 信噪比是由信噪比计算部 106a、 106b、 106c 计算出的, 所述非周期成分比率是由非周期成 分比率计算部 108a、 108b、 108c 计算出的。
     接着, 针对具体的校正量的决定方法进行说明。
     由相关函数计算部 105a、 105b、 105c 计算出的自相关值 φi(τ0) 受来自背景噪声 的影响。具体地, 因背景噪声带通信号的振幅以及相位变乱, 从而波形的周期结构变乱, 结 果导致自相关值降低。
     图 5(a)- 图 5(h) 是说明为了取得由相关函数计算部 105a、 105b、 105c 计算的自相 关值 φi(τ0) 因噪声而受到的影响的实验结果的图。 在此实验中, 按照每个划分频带, 对针 对没有附加噪声的声音计算出的自相关值和针对在所述声音中附加各种大小的噪声的混 合音计算出的自相关值进行了比较。
     在图 5(a)- 图 5(h) 的各个图表中, 横轴表示各个带通信号的信噪比, 纵轴表示针 对没有附加噪声的声音计算出的自相关值和针对所述声音中附加了噪声的混合音计算出 的自相关值之间的差。一个点表示对于一个帧根据噪声的有无而计算出的自相关值的差。 此外, 白色线表示根据多项式将这些点进行了近似的曲线。
     通过图 5(a)- 图 5(h), 可知信噪比和自相关值的差之间具有一定的关系。也就是 说, 信噪比越高差越接近于零, 信噪比越低差变得越大。进一步, 可知这个关系在各个划分 频带中具有类似的倾向。
     根据此关系, 对针对背景噪声和声音的混合音计算出的自相关值以与信噪比相对 应的量进行校正, 从而能够计算出不包含噪声的声音的自相关值。
     能够根据表示信噪比和根据噪声的有无而计算出的自相关值的差之间的关系的 上述的近似函数, 决定与信噪比相对应的校正量。
     另外, 近似函数的种类不需要特别的限定, 能够利用多项式或指数函数以及对数 函数等。
     例如在近似函数中利用了 3 次的多项式的情况下, 如公式 3 所示, 校正量 C 能够作 为信噪比 (SNR) 的 3 次函数来表示。
     ( 公式 3)代替如公式 3 所示的将校正量作为信噪比的函数来保持, 也可以将信噪比和校正 量相对应地并以表保持, 并从表参照对应于由信噪比计算部 106a、 106b、 106c 计算出的信 噪比的校正量。
     也可以按照每个由频带划分部 104 划分出的带通信号个别地决定校正量, 也可以 在整个划分频带中共同地决定校正量。在共同地决定的情况下, 能够削减函数或表的存储 量。
     < 非周期成分比率计算部 108a、 108b、 108c>
     非周期成分比率计算部 108a、 108b、 108c 根据自相关函数和校正量计算出非周期 成分比率, 所述自相关函数是由相关函数计算部 105a、 105b、 105c 计算出的, 所述校正量是 由校正量决定部 107a、 107b、 107c 决定的。
     具体地, 在公式 4 对第 i 个带通信号的非周期成分比率 APi 进行定义。
     ( 公式 4)
     APi = 1-(φi(τ0)-Ci)在此, φi(τ0) 表示由相关函数计算部 105a、 105b、 105c 计算出的第 i 个带通信号 的基本频率的一个周期的时间移位中的自相关值, Ci 表示由校正量决定部 107a、 107b、 107c 决定的校正量。
     接着, 针对这样构成的声音分析装置 100 的工作的一个例子, 按照图 6 示出的流程 图进行说明。
     在步骤 S101 中, 按照每个预先规定的时间长度, 将被输入的声音划分为多个帧。 针对划分的各个帧执行从步骤 S102 开始到步骤 S113 为止的处理。
     在步骤 S102 中, 利用噪声区间识别部 101, 识别帧是包含声音的声音帧还是仅包 含背景噪声的背景噪声帧。
     针对在步骤 S102 中识别为背景噪声帧的帧, 执行步骤 S103。另一方面, 针对识别 为声音帧的帧, 执行步骤 S105。
     在步骤 S103 中, 针对在步骤 S102 中识别为背景噪声帧的帧, 利用频带划分部 104, 将该帧内的背景噪声划分为作为预先规定的多个频带的划分频带的每一个的带通信号。
     在步骤 S104 中, 利用信噪比计算部 106a、 106b、 106c, 计算出在步骤 S103 中划分出 的每一个带通信号的功率。 计算出的功率作为最近的背景噪声的每个划分频带的功率被保 持在信噪比计算部 106a、 106b、 106c。
     在步骤 105 中, 针对在步骤 S102 中识别为声音帧的帧, 利用有声无声判断部 102, 判断该帧内的声音是有声声音还是无声声音。
     在步骤 S106 中, 针对在步骤 S105 中判断声音为有声声音的帧, 利用基本频率归一 化部 103, 分析该帧内的声音的基本频率。
     在步骤 S107 中, 利用基本频率归一化部 103, 根据在步骤 S106 中分析的基本频率, 将声音的基本频率归一化为预先设定的目标频率。
     在步骤 S108 中, 利用频带划分部 104, 将在步骤 S107 中基本周期被归一化的声 音划分为每一个划分频带的带通信号, 所述划分频带与使用于划分背景噪声的划分频带相 同。
     在步骤 S109 中, 利用相关函数计算部 105a、 105b、 105c, 针对在步骤 S108 中划分出 的每一个带通信号计算出带通信号的自相关函数。
     在步骤 S110 中, 利用信噪比计算部 106a、 106b、 106c, 根据在步骤 S108 中划分出的 带通信号和通过步骤 S104 保持着的最近的背景噪声的功率, 计算出信噪比。具体地, 计算 出公式 2 所示的信噪比。
     在步骤 S111 中, 根据在步骤 S110 中计算出的信噪比, 决定计算各个带通信号的非 周期成分比率时的自相关值的校正量。具体地, 通过计算出公式 3 所示的函数的值或通过 参照表, 从而决定校正量。
     在步骤 S112 中, 利用非周期成分比率计算部 108a、 108b、 108c, 根据在步骤 S109 中 计算出的各个带通信号的自相关函数和在步骤 S111 中决定的校正量, 按照每个划分频带 计算出非周期成分比率。具体地, 利用公式 4 计算出非周期成分比率 APi。
     针对各个帧重复执行从步骤 S102 开始到步骤 S113 为止的处理, 从而能够计算出 所有的声音帧内的非周期成分比率。
     图 7 是示出由声音分析装置 100 对输入声音的非周期成分的分析结果的图。图 7 是对非周期成分少的声音的有声声音的一个帧的各个带通信号的自相关值 φi(τ0) 进行绘图的图。在图 7 中, 图表 (a) 为针对不包含背景噪声的声音计算出的自相 关值, 并且, 图表 (b) 为针对附加了背景噪声的声音计算出的自相关值。图表 (c) 为附加了 背景噪声之后, 根据由信噪比计算部 106a、 106b、 106c 计算出的信噪比, 考虑了由校正量决 定部 107a、 107b、 107c 决定的校正量的自相关值。
     如图 7 所示, 在图表 (b) 中因背景噪声引起各个带通信号的相位谱变乱, 从而相关 值降低, 但是, 在图表 (c) 中根据本发明的特殊结构自相关值被进行校正, 从而能够取得与 没有噪声的情况几乎相同的自相关值。
     另一方面, 图 8 是表示针对非周期成分多的声音, 进行了同样的分析的情况下的 结果的图。在图 8 中, 图表 (a) 表示针对不包含背景噪声的声音计算出的自相关值, 并且, 图表 (b) 表示针对附加了背景噪声的声音计算出的自相关值。图表 (c) 表示附加了背景 噪声之后, 根据由信噪比计算部 106a、 106b、 106c 计算出的信噪比, 考虑了由校正量决定部 107a、 107b、 107c 决定的校正量的自相关值。
     取得了图 8 所示的分析结果的声音为高频带的非周期性多的声音, 但是, 与图 7 所 示的分析结果相同, 由于考虑了由校正量决定部 107a、 107b、 107c 决定的校正量, 从而能够 取得与表示没有附加噪声的声音的自相关值的图形 (a) 几乎相同的自相关值。 也就是说, 不论针对非周期成分多的声音以及非周期成分少的声音的哪一个, 都 能够良好地校正噪声给自相关值带来的影响, 并正确地分析非周期成分比率。
     如上所述, 根据本发明的声音分析装置, 即使在存在背景噪声的喧闹等的实际环 境下, 也能够消除因噪声引起的影响并正确地分析声音中包含的非周期成分比率。
     进而, 由于按照每个划分频带, 根据作为带通信号的功率和背景噪声的功率的比 率的信噪比决定校正量, 因此, 能够不需要预先确定噪声的种类而进行处理。也就是说, 没 有预先掌握背景噪声的种类是白噪声还是粉红噪声等的知识, 也能够正确地分析非周期成 分比率。
     此外, 通过利用分析的结果所得到的每个划分频带的非周期成分比率, 以作为发 声者的个人特征, 从而例如能够生成模仿发声者的合成声音或进行发声者的个人识别。在 存在背景噪声的环境之下, 能够正确地分析声音的非周期成分比率, 这也给利用了非周期 成分比率的那些应用带来了卓越的效果。
     例如向卡拉 OK 等的声质转换的应用中, 若将发声者的声音模仿其他的发声者的 声质而进行转换, 则即使在卡拉 OK 房间等存在来自不特定多数的人的背景噪声的情况下, 也能够通过正确地分析发声者的声音的非周期成分比率, 从而取得转换后的声音与其他的 发声者的声质非常相似这样的效果。
     此外, 向使用于移动电话的个人识别的应用中, 即使在应识别的声音从车站等喧 闹的环境中发出的情况下, 也能够通过正确地分析非周期成分比率, 从而取得能够进行高 信赖度的个人识别这样的效果。
     如上述说明, 根据本发明涉及的声音分析装置, 将背景噪声和声音的混合音频率 划分为多个带通信号, 并将针对各个带通信号计算出的自相关值以对应于带通信号的信噪 比的校正量进行校正, 并利用校正之后的自相关值计算出非周期成分比率, 因此, 即使在存 在背景噪声的实际环境下, 也能够按照每个划分频带, 正确地分析声音本身的非周期成分
     比率。 各个带通信号的非周期成分比率作为发声者的个人特征能够利用在模仿了发声 者的合成声音的生成或发声者的个人识别上。通过利用本发明涉及的声音分析装置, 能够 在利用非周期成分比率的那些应用中, 提高合成声音的发声者相似性且增强个人识别的信 赖度。
     ( 向声音分析装置的应用例 )
     以下作为本发明的声音分析装置的应用例, 针对利用通过分析而取得的非周期成 分比率, 生成合成声音的声音分析合成装置以及方法进行说明。
     图 9 是示出本发明的应用例涉及的声音分析合成装置 500 的功能性的结构的一个 例子的框图。
     图 9 中的声音分析合成装置 500 分析第一输入信号以及第二输入信号, 并且, 在以 第二输入信号所表示的第二声音中再现以第一输入信号所表示的第一声音的非周期成分 的装置, 所述第一输入信号表示背景噪声和第一声音的混合音, 所述第二输入信号表示第 二声音, 所述声音分析合成装置 500 包括 : 声音分析装置 100、 声道特征分析部 501、 逆滤波 部 502、 声源模型化部 503、 合成部 504、 以及非周期成分频谱计算部 505。
     另外, 第一声音和第二声音可以是相同的声音。 在此情况下, 第一声音的非周期成 分被适用在第二声音的同一时刻。在第一声音和第二声音不同的情况下, 预先取得第一声 音和第二声音的在时间上的对应, 并且, 再现对应的时刻的非周期成分。
     声音分析装置 100 为图 1 所示的声音分析装置 100, 针对多个划分频带的每一个, 输出以第一输入信号所表示的第一声音的非周期成分比率。
     声 道 特 征 分 析 部 501 对 以 第 二 输 入 信 号 所 表 示 的 第 二 声 音 进 行 LPC(Linear Predictive Coding : 线性预测编码 ) 分析, 并计算出相当于第二声音的发声者的声道特征 的线性预测系数。
     逆滤波部 502 利用由声道特征分析部 501 分析的线性预测系数, 对以第二输入信 号所表示的第二声音进行逆滤波, 并计算出相当于第二声音的发声者的声源特征的逆滤波 波形。
     声源模型化部 503 对由逆滤波部 502 输出的声源波形进行模型化。
     非周期成分频谱计算部 505 根据作为由声音分析装置 100 输出的不同频带的非周 期成分比率, 计算出表示非周期成分比率的大小的频率分布的非周期成分频谱。
     合成部 504 接受线性预测系数、 声源参数以及非周期成分频谱, 以作为输入, 并 且, 对第二声音和第一声音的非周期成分进行合成, 所述线性预测系数是由声道特征分析 部 501 分析出的, 所述声源参数是由声源模型化部 503 分析出的, 所述非周期成分频谱是由 非周期成分频谱计算部 505 计算出的。
     < 声道特征分析部 501>
     声道特征分析部 501 对以第二输入信号所表示的第二声音进行线性预测分析。线 性预测分析为将作为声音波形的抽样值 yn 根据比其之前的 p 个抽样值进行预测的处理, 使 用于预测的模型公式可以以公式 5 表示。
     ( 公式 5) 针对 p 个抽样值的系数 αi 能够通过利用相关法或协方差法计算出。通过利用计算出的系数 αi 对 z 变换进行定义, 从而能够以公式 6 表示声音信号。
     ( 公式 6)在此, U(z) 表示以 1/A(z) 对输入声音 S(z) 进行了逆滤波的信号。
     < 逆滤波部 502>
     逆滤波部 502 利用由声音特征分析部 501 分析出的线性预测系数, 形成具有此频 率响应的逆特性的滤波, 并通过对以第二输入信号所表示的第二声音进行滤波, 从而提取 声音的声源波形。
     < 声源模型化部 503>
     图 10(a) 是示出从逆滤波部 502 输出的波形的一个例子的图。图 10(b) 是示出其 振幅谱的图。
     逆 滤 波 表 示 通 过 从 声 音 中 除 去 声 道 (vocal tract) 的 传 递 特 性 (transfer characteristics),从 而 推 定 声 带 声 源 的 信 息 的 运 算。 在 此,能 够 取 得 与 在 Rosenberg-klatt 模型等中假设的微分声门体积流波形 (differentiated glottal volume velocity waveform) 相类似的时间波形。 具有比 Rosenberg-klatt 模型的波形还细微的结 构, 这是因为 Rosenberg-klatt 模型为利用了简单的函数的模型, 且不能表示各个声带波 形所具有的在时间上的变动或其以外的复杂的振动的缘故。
     对这样被推定出的声带声源波形 ( 以下称为声源波形 ), 以如下的方法进行模型 化。
     1、 按照每个间隔周期推定声源波形的声门闭塞时刻。 推定的方法能够利用例如专 利文献 1 的专利第 3576800 号所公开的方法。
     2、 以声门闭塞时刻为中心、 按照每个间隔周期进行剪出。利用间隔周期的大约 2 倍的长度的汉宁 (Hanning) 窗函数进行剪出。
     3、 通过离散傅里叶变换 (Discrete Fourier Transform、 以下简称 DFT) 将剪出的 波形变换为频域 (Frequency Domain) 的表达。
     4、 通过从 DFT 的各个频率成分除去相位成分, 从而形成振幅谱信息。为了除去相 位成分, 通过公式 7 将以复数所表示的频率成分替换为绝对值。
     ( 公式 7)在此 z 表示绝对值, x 表示实数部, 以及 y 表示虚数部。
     图 11 是表示这样被形成的声源的振幅谱的图。
     在图 11 中, 实线的图表表示对连续波形进行了 DFT 的情况下的振幅谱。由于连续 波形包含伴有基本频率的谐音结构, 因此, 取得的振幅谱复杂地变化, 很难对基本频率等进 行变更处理。另一方面, 虚线的图表表示利用声源模型化部 503, 对剪出了一个间隔周期的 孤立波形进行了 DFT 的情况下的振幅谱。
     从图 11 中可知, 通过对孤立波形进行 DFT, 从而能够取得不受基本周期的影响的 对应于连续波形的振幅谱的包络的振幅谱。通过利用这样被取得的声源的振幅谱, 从而能 够变更基本频率等的声源信息。
     < 合成部 504>
     合成部 504 利用根据由声源模型化部分析出的声源参数的声源, 对由声道特征分析部 501 分析出的滤波器进行驱动, 并生成合成声音。此时, 利用由本发明的声音分析装置 分析出的非周期成分比率, 通过变换声源波形的相位信息, 从而在合成声音中再现第一声 音中包含的非周期成分。针对声源波形的生成方法的一个例子, 利用图 12(a)- 图 12(c) 进 行详细的说明。
     将通过声源模型化部 503 被进行模型化的声源参数的振幅谱, 如图 12(a) 所示将 乃奎斯特频率 ( 采样频率的 2 分之 1) 在分界上折叠, 形成对称的振幅谱。
     这样被形成的振幅谱通过 IDFT(Inverse Discrete Fourier Ttransform : 逆离散 傅里叶变换 ) 变换为时间波形。由于这样被变换的波形为如图 12(b) 所示左右对称的一个 间隔周期的波形, 因此, 通过将此波形如图 12(c) 所示重叠后进行配置, 以使成为希望的间 隔周期, 从而生成一连串的声源波形。
     图 12(a) 的振幅谱不具有相位信息。 针对此振幅谱, 通过利用由声音分析装置 100 分析第一声音而取得的每个频带的非周期成分比率, 附加持有频率分布的相位信息 ( 以下 称为相位谱 ), 从而能够对第二声音和第一声音的非周期成分进行合成。
     以下, 利用图 13(a)、 图 13(b) 对相位谱的附加方法进行说明。
     图 13(a) 是将纵轴作为相位、 将横轴作为频率来对相位谱 θr 的一个例子进行绘 图的图。实线的图表表示针对具有声源的一个间隔周期的波形应附加的相位谱, 且为频带 被限制的随机数序列。此外, 将乃奎斯特频率在分界上成为点对称。虚线的图表表示向此 随机数序列给予的增益。在图 13(a) 中, 在从低频率直到高频率 ( 乃奎斯特频率 ) 增加的 曲线上给予增益。按照非周期成分的大小的频率分布给予此增益。
     将非周期成分的大小的频率分布称为非周期成分频谱, 并通过如图 13(b) 所示在 频率轴上对非周期成分比率进行插值而求出, 所述非周期成分比率是按照每个频带计算出 的。在图 13(b) 中, 作为一个例子表示在频率轴上针对四个频带的每一个计算出的非周期 成分比率 APi 进行线性插值的非周期成分频谱 wη(1)。也可以不进行插值, 将各个频带的 非周期成分比率 APi 作为频带内的所有的频率而使用。
     具体地, 在求出将一个间隔周期的声源波形 g(n)( 例如图 12(b)) 的群延迟进行了 随机化的声源波形 g’ (n) 的情况下, 将相位谱 θr 设定为如公式 8a- 公式 8c。
     ( 公式 8a)
     ( 公式 8b)( 公式 8c)η(l) = r(l)/σr
     在此, N 为 FFT(Fast Fourier Transform : 高速傅里叶变换 ) 大小, r(l) 为频带 被限制的随机数序列, σr 为 r(l) 的标准偏差, w η(l) 为频率 l 内的非周期成分比率。图 13(a) 是生成的相位谱 θr 的一个例子。
     若利用如上所被生成的相位谱 θr, 则能够按照公式 9a、 公式 9b 生成附加了非周 期成分的声源波形 g’ (n)。( 公式 9a) ( 公式 9b)在此, G(2π/N·k) 为 g(n) 的 DFT 系数, 并能够以公式 10 所表示。 ( 公式 10)利用附加了与如上所被生成的相位谱 θr 相对应的非周期成分的声源波形 g’ (n), 能够合成一个间隔周期的波形。通过将此波形与图 12(c) 相同地叠加后进行配置, 以使成 为间隔周期, 从而生成一连串的声源波形。对于随机数序列每次使用不同的序列。
     根据这样被生成的声源波形, 利用合成部 504, 对由声道特征分析部 501 分析出 的声道滤波器进行驱动, 从而能够生成附加了非周期成分的声音。因此, 通过附加与各个 频带相对应的随机的相位, 从而能够在有声声音上附加气息性 (breathiness) 或柔和性 (softness)。
     因此, 即使使用了在噪声环境中发声的声音的情况下, 也能够再现作为个人特征 的气息性 (breathiness) 或柔和性 (softness) 等的非周期成分。( 实施例 2)
     在实施例 1 中说明了, 在因噪声而声音的自相关值所受到的影响的量 ( 即针对声 音所计算出的自相关值与针对所述声音和噪声的混合音所计算出的自相关值之间的差的 大小 ) 与所述声音和所述噪声的信噪比之间具有的能够以适当的校正规则信息 ( 例如以 3 次多项式所表示的近似函数 ) 表示的一定关系。
     此外, 说明了以下的情况, 即声音分析装置 100 的校正量决定部 107a-107c 通过将 自相关值以校正量进行校正, 所述自相关值是针对背景噪声和声音的混合音计算出的, 所 述校正量是根据所述校正规则信息按照信噪比决定的, 从而计算出不包含噪声的声音的自 相关值。
     在本发明的实施例 2 中, 针对校正规则信息生成装置进行说明, 所述校正规则信 息生成装置生成在声音分析装置 100 的校正量决定部 107a-107c 中用于决定校正量的校正 规则信息。
     图 14 是示出本发明的实施例 2 涉及的校正规则信息生成装置 200 的功能性的结 构的一个例子的框图。在图 14 中, 示出了校正规则信息生成装置 200, 并且, 也示出了实施 例 1 中说明的声音分析装置 100。 图 14 的校正规则信息生成装置 200 为根据预先准备的表示声音的输入信号和预 先准备的表示噪声的输入信号, 生成表示所述声音的自相关值与所述声音和所述噪声的 混合音的自相关值的差, 与信噪比之间的关系的校正规则信息的装置, 所述校正规则信息 生成装置 200 包括 : 有声无声判断部 102、 基本频率归一化部 103、 加法器 302、 频带划分部 104x、 104y、 相关函数计算部 105x、 105y、 差分器 303、 信噪比计算部 106、 以及校正规则信息 生成部 301。
     在校正规则信息生成装置 200 的构成要素中, 对于具有与声音分析装置 100 的构 成要素共同的功能的构成要素, 赋予共同的符号而表示。
     校正规则信息生成装置 200 也可以作为以例如由中央处理器、 存储装置等构成的 计算机系统来实现。在此情况下, 校正规则信息生成装置 200 各个部的功能可以作为软件 功能来实现, 所述中央处理器执行存储在所述存储装置的程序, 从而所述软件起作用。此 外, 校正规则信息生成装置 200 各个部的功能, 也可以利用数字信号处理装置, 或者, 专用 的硬件装置来实现。
     校正规则信息生成装置 200 中的有声无声判断部 102 接受按照每个规定的时间长 度表示预先准备的声音的多个声音帧, 并判断接受的各个声音帧中的声音是有声声音还是 无声声音 .
     基本频率归一化部 103 分析由有声无声判断部 102 判断为有声声音的声音的基本 频率, 并将声音的基本频率归一化为规定的目标频率。
     频带划分部 104x 将通过基本频率归一化部 103 基本频率被归一化为规定的目标 频率的声音划分为作为预先规定的不同的多个频带的每个划分频带的带通信号。
     加法器 302 对表示预先准备的噪声的噪声帧和表示通过基本频率归一化部 103 基 本频率被归一化为规定的目标频率的声音的声音帧进行混合, 从而合成表示所述噪声和所 述声音的混合音的混合音帧。
     频带划分部 104y 将由加法器 302 合成的混合音划分为每个划分频带的带通信号, 所述划分频带与在频带划分部 104x 中使用的划分频带相同。
     信噪比计算部 106 按照每个划分频带计算出信噪比, 该信噪比为通过频带划分部 104x 所取得的声音数据的各个带通信号和通过频带划分部 104y 所取得的混合音的带通信 号的功率的比率。信噪比是按照每个划分频带且按照每个帧计算出的。
     相关函数计算部 105x 计算出通过频带划分部 104x 所取得的声音数据的各个带通 信号的自相关函数, 从而求出自相关值, 相关函数计算部 105y 计算出通过频带划分部 104y 所取得的声音和噪声的混合音的各个带通信号的自相关函数, 从而求出自相关值。每一个 自相关值是作为声音的基本频率的一个周期的时间移位中的自相关函数的值而求出的, 所 述声音的基本频率为通过基本频率归一化部 103 所取得的分析结果。
     差分器 303 计算出通过相关函数计算部 105x 求出的声音的各个带通信号的自相 关值和通过相关函数计算部 105y 求出的与各个混合音相对应的带通信号的自相关值之间 的差。差是按照每个划分频带且按照每个帧计算出的。
     校正规则信息生成部 301 按照每个划分频带生成校正规则信息, 该校正规则信息 表示因噪声而声音的自相关值所受到的影响的量 ( 即由差分器 303 计算出的差 ) 和由信噪 比计算部 106 计算出的信噪比之间的关系。
     接着, 对于这样被构成的校正规则信息生成装置 200 的工作的一个例子, 按照图 15 所示的流程图进行说明。
     在步骤 S201 中, 接受噪声帧和多个声音帧, 针对接受的声音帧的每一个和噪声帧 的组, 执行从步骤 S202 开始到步骤 S210 为止的处理。
     在步骤 S202 中, 利用有声无声判断部 102, 判断作为对象的声音帧内的声音是有 声声音还是无声声音。在判断为有声声音的情况下, 执行从步骤 S203 开始到步骤 S210 为 止的处理。在判断为无声声音的情况下, 执行下一个组的处理。
     在步骤 S203 中, 利用基本频率归一化部 103, 针对在步骤 S202 中声音被判断为有声声音的帧, 分析该帧的声音的基本频率。
     在步骤 S204 中, 根据在步骤 S203 中分析的基本频率, 利用基本频率归一化部 103, 将声音的基本频率归一化为预先设定的目标频率。
     归一化的目标频率不需要特别的限定, 可以归一化为预先规定的频率, 或者, 也可 以归一化为被输入的声音的平均的基本频率。
     在步骤 S205 中, 利用频带划分部 104x, 将在步骤 S204 中基本周期被归一化的声音 划分为每个划分频带的带通信号。
     在步骤 S206 中, 利用相关函数计算部 105x 计算出在步骤 S205 中从声音划分出的 每一个带通信号的自相关函数, 并且, 将以在步骤 S203 中计算出的基本频率的倒数所表示 的基本周期的位置中的自相关函数的值作为声音的自相关值。
     在步骤 S207 中, 对在步骤 S204 中基本频率被归一化的声音帧和噪声帧进行混合, 并生成混合音。
     在步骤 S208 中, 利用频带划分部 104y, 将在步骤 S207 中被生成的混合音划分为每 个划分频带的带通信号。
     在步骤 S209 中, 利用相关函数计算部 105y 计算出在步骤 S208 中从混合音划分出 的各个带通信号的每一个自相关函数, 并且, 将以在步骤 S203 中计算出的基本频率的倒数 所表示的基本周期的位置中的自相关函数的值作为混合音的自相关值。
     另外, 对于从步骤 S205 到步骤 S206 为止的处理和从步骤 S207 到步骤 S209 为止 的处理, 可以并行地执行, 也可以依次执行。
     在步骤 S210 中, 利用信噪比计算部 106, 根据在步骤 S205 中计算出的声音的带通 信号和在步骤 S208 中计算出的混合音的带通信号, 按照每个划分频带计算出信噪比。如公 式 2 所示, 计算的方法可以使用与实施例 1 相同的方法。
     在步骤 S211 中, 对于声音帧和噪声帧的所有的组, 控制反复执行从步骤 S202 开始 到步骤 S210 为止的处理。其结果, 按照每个划分频带且按照每个帧, 求出声音和噪声的信 噪比、 声音的自相关值、 以及混合音的自相关值。
     在步骤 212 中, 利用校正规则信息生成部 301, 根据按照每个划分频带且按照每个 帧求出的声音和噪声的信噪比、 混合音的自相关值、 以及声音的自相关值, 生成校正规则信 息。
     具体地, 通过按照每个划分频带且按照每个帧保持校正量和信噪比, 从而取得如 图 5(a)-(h) 所示的分布, 所述校正量为在步骤 203 中计算出的声音的自相关值和在步骤 209 中计算出的混合音的自相关值之间的差, 所述信噪比为在步骤 210 中计算出的声音帧 和混合音帧之间的信噪比。
     生成表示此分布的校正规则信息。例如, 在将此分布以如公式 3 所示的 3 次的多 项式进行近似的情况下, 通过回归分析生成多项式的各个系数, 以作为校正规则信息。另 外, 如实施例 1 中所述, 可以以将信噪比和校正量相对应地进行保持的表来表示校正规则 信息。 如上所述, 按照每个划分频带, 生成表示与信噪比相对应的自相关值的校正量的校正 规则信息 ( 例如近似函数或表 )。
     如 上 所 生 成 的 校 正 规 则 信 息 被 输 出 到 声 音 分 析 装 置 100 的 校 正 量 决 定 部 107a-107c。声音分析装置 100 利用给予的校正规则信息而进行工作, 从而即使在存在背景噪声的喧闹等的实际环境下, 也能够除去噪声的影响并正确地分析声音中包含的非周期成 分。
     进而, 由于校正量是以每个划分频带的带通信号和不同频带的噪声之间的功率比 计算出的, 因此, 不需要预先确定噪声的种类。 也就是说, 具有如下效果, 即预先没有掌握背 景噪声的种类是白噪声还是粉红噪声等的知识, 也能够正确地分析非周期成分。
     本发明涉及的声音分析装置能够作为即使在存在背景噪声的实际环境下, 也能够 正确地分析声音中包含的作为个人特征的非周期成分比率的装置来适用。此外, 也能够作 为向将分析出的非周期成分比率作为个人特征而利用的声音合成以及个人识别等的应用 来适用。
     符号说明
     100、 900 声音分析装置
     101 噪声区间识别部
     102 有声无声判断部
     103 基本频率归一化部
     104、 104x、 104y 频带划分部
     105a、 105b、 105c、 105x、 105y 相关函数计算部 106、 106a、 106b、 106c 信噪比计算部 107a、 107b、 107c 校正量决定部 108a、 108b、 108c 非周期成分比率计算部 200 校正规则信息生成装置 301 校正规则信息生成部 302 加法器 303 差分器 500 声音分析合成装置 501 声道特征分析部 502 逆滤波部 503 声源模型化部 504 合成部 505 非周期成分频谱计算部 901 时间轴伸缩部 902 频带划分部 903a、 903b、 903n 相关函数计算部 904 边界频率计算部

声音分析装置、声音分析合成装置、校正规则信息生成装置、声音分析系统、声音分析方法、校正规则信息生成方法、以及程序.pdf_第1页
第1页 / 共40页
声音分析装置、声音分析合成装置、校正规则信息生成装置、声音分析系统、声音分析方法、校正规则信息生成方法、以及程序.pdf_第2页
第2页 / 共40页
声音分析装置、声音分析合成装置、校正规则信息生成装置、声音分析系统、声音分析方法、校正规则信息生成方法、以及程序.pdf_第3页
第3页 / 共40页
点击查看更多>>
资源描述

《声音分析装置、声音分析合成装置、校正规则信息生成装置、声音分析系统、声音分析方法、校正规则信息生成方法、以及程序.pdf》由会员分享,可在线阅读,更多相关《声音分析装置、声音分析合成装置、校正规则信息生成装置、声音分析系统、声音分析方法、校正规则信息生成方法、以及程序.pdf(40页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 101983402 A (43)申请公布日 2011.03.02 CN 101983402 A *CN101983402A* (21)申请号 200980111700.5 (22)申请日 2009.09.11 2008-237050 2008.09.16 JP G10L 11/00(2006.01) G10L 11/04(2006.01) (71)申请人 松下电器产业株式会社 地址 日本大阪府 (72)发明人 广濑良文 釜井孝浩 (74)专利代理机构 永新专利商标代理有限公司 72002 代理人 王成坤 胡建新 (54) 发明名称 声音分析装置、 声音分析合成装置、 。

2、校正规则 信息生成装置、 声音分析系统、 声音分析方法、 校 正规则信息生成方法、 以及程序 (57) 摘要 本发明为一种声音分析装置, 在存在背景噪 声的实际环境下, 能够正确地分析声音的非周期 成分, 并且, 包括 : 频带划分部 (104), 将表示背景 噪声和声音的混合音的输入信号频率划分为多 个带通信号 ; 噪声区间识别部 (101), 识别所述 输入信号的噪声区间和声音区间 ; 信噪比计算部 (106a-106c), 计算出信噪比, 该信噪比为各个带 通信号的所述声音区间中的功率和所述噪声区间 中的功率的比率 ; 相关函数计算部 (105a-105c), 计算出所述声音区间中的各个。

3、带通信号的自相关 函数 ; 校正量决定部 (107a-107b), 根据计算出的 所述信噪比, 决定校正量 ; 以及非周期成分比率 计算部 (108a-108c), 根据被决定的所述校正量 和计算出的所述自相关函数, 针对所述多个频带 分别计算出所述声音中包含的非周期成分比率。 (30)优先权数据 (85)PCT申请进入国家阶段日 2010.09.30 (86)PCT申请的申请数据 PCT/JP2009/004514 2009.09.11 (87)PCT申请的公布数据 WO2010/032405 JA 2010.03.25 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)。

4、发明专利申请 权利要求书 4 页 说明书 17 页 附图 18 页 CN 101983404 A1/4 页 2 1. 一种声音分析装置, 根据表示背景噪声和声音的混合音的输入信号, 分析所述声音 中包含的非周期成分, 所述声音分析装置包括 : 频带划分部, 将所述输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别部, 识别噪声区间和声音区间, 所述噪声区间为所述输入信号仅表示所 述背景噪声的区间, 所述声音区间为所述输入信号表示所述背景噪声以及所述声音的区 间 ; 信噪比计算部, 计算出信噪比, 该信噪比为从所述声音区间中的所述输入信号划分出 的各个带通信号的功率和从所述噪声区间中的所述。

5、输入信号划分出的各个带通信号的功 率的比率 ; 相关函数计算部, 计算出从所述声音区间中的所述输入信号划分出的各个带通信号的 自相关函数 ; 校正量决定部, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及 非周期成分比率计算部, 根据被决定的所述校正量和计算出的所述自相关函数, 针对 所述多个频带分别计算出包含在所述声音中的非周期成分比率。 2. 如权利要求 1 所述的声音分析装置, 计算出的所述信噪比越小, 所述校正量决定部就将越大的校正量作为有关所述非周期 成分比率的校正量来决定。 3. 如权利要求 1 所述的声音分析装置, 从所述输入信号的基本频率的一个周期的时间移位。

6、中的所述自相关函数的值减去所 述校正量之后得到的校正相关值越小, 所述非周期成分比率计算部就计算出越大的比率, 以作为所述非周期成分比率。 4. 如权利要求 1 所述的声音分析装置, 所述校正量决定部, 预先保持表示信噪比和校正量的对应关系的校正规则信息, 并根 据所述校正规则信息, 参照对应于计算出的所述信噪比的校正量, 并将被参照的校正量决 定为有关所述非周期成分比率的校正量。 5. 如权利要求 1 所述的声音分析装置, 所述校正量决定部, 预先将表示信噪比和校正量的关系的近似函数作为所述校正规则 信息来保持, 根据计算出的所述信噪比, 计算出所述近似函数的值, 将计算出的值决定为有 关所。

7、述非周期成分比率的校正量, 所述近似函数是根据声音的自相关值与已知的信噪比的 噪声被重叠在所述声音中的情况下的自相关值之间的差得到的。 6. 如权利要求 1 所述的声音分析装置, 所述声音分析装置还包括基本频率归一化部, 该基本频率归一化部将所述声音的基本 频率归一化为预先规定的目标频率, 所述非周期成分比率计算部, 利用基本频率被归一化之后的所述声音, 计算出所述非 周期成分比率。 7. 如权利要求 6 所述的声音分析装置, 所述基本频率归一化部, 将所述声音的基本频率归一化为所述声音的规定的单位的基 本频率的平均值。 8. 如权利要求 7 所述的声音分析装置, 权 利 要 求 书 CN 1。

8、01983402 A CN 101983404 A2/4 页 3 所述规定的单位为音素、 音节、 音拍、 重音句、 词组、 全句中的任一个。 9. 一种声音分析合成装置, 根据表示背景噪声和第一声音的混合音的第一输入信号, 分析所述第一声音中包含的非周期成分, 并对分析出的所述非周期成分和以第二输入信号 所表示的第二声音进行合成, 所述声音分析合成装置包括 : 频带划分部, 将所述第一输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别部, 识别噪声区间和声音区间, 所述噪声区间为所述第一输入信号仅表 示所述背景噪声的区间, 所述声音区间为所述第一输入信号表示所述背景噪声和所述声音 的区间。

9、 ; 信噪比计算部, 计算出信噪比, 该信噪比为从所述声音区间中的所述第一输入信号划 分出的各个带通信号的功率和从所述噪声区间中的所述第一输入信号划分出的各个带通 信号的功率的比率 ; 相关函数计算部, 计算出从所述声音区间中的所述第一输入信号划分出的各个带通信 号的自相关函数 ; 校正量决定部, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 非周期成分比率计算部, 根据被决定的所述校正量和计算出的所述自相关函数, 针对 所述多个频带分别计算出包含在所述第一声音中的非周期成分比率 ; 非周期成分频谱计算部, 根据针对所述多个频带分别计算出的非周期成分比率, 计算 出表示非周期成。

10、分的频率分布的非周期成分频谱 ; 声道特征分析部, 分析有关所述第二声音的声道特征 ; 逆滤波部, 通过利用分析出的所述声道特征的逆特性, 对所述第二声音进行逆滤波, 从 而提取所述第二声音的声源波形 ; 声源模型化部, 对被提取的所述声源波形进行模型化 ; 以及 合成部, 根据分析出的所述声道特征、 被进行模型化的所述声源特征和计算出的所述 非周期成分频谱, 对声音进行合成。 10. 一种校正规则信息生成装置, 包括 : 频带划分部, 将表示声音的输入信号和表示噪声的输入信号, 分别频率划分为作为相 同的多个频带的每个划分频带的带通信号 ; 信噪比计算部, 根据划分出的各个所述带通信号, 按。

11、照每个所述划分频带, 计算出信噪 比, 该信噪比为不同的多个时间区间的每一个中的所述声音的功率和所述噪声的功率的比 率 ; 相关函数计算部, 根据划分出的各个所述带通信号, 按照每个所述划分频带, 计算出所 述多个时间区间的每一个中的所述声音的自相关值以及所述噪声的自相关值 ; 以及 校正规则信息生成部, 根据计算出的所述信噪比、 所述声音的自相关值、 以及所述噪声 的自相关值, 按照每个所述划分频带, 生成校正规则信息, 该校正规则信息表示所述声音的 自相关值与所述噪声的自相关值之间的差和所述信噪比之间的对应关系。 11. 一种声音分析系统, 所述声音分析系统包括权利要求 1 所述的声音分析。

12、装置和权 利要求 10 所述的校正规则信息生成装置, 所述声音分析装置, 根据在所述校正规则信息生成装置生成的校正规则信息, 参照对 应于计算出的信噪比的校正量, 并将被参照的校正量决定为有关非周期成分比率的校正 权 利 要 求 书 CN 101983402 A CN 101983404 A3/4 页 4 量。 12. 一种声音分析方法, 根据表示背景噪声和声音的混合音的输入信号, 分析所述声音 中包含的非周期成分, 所述声音分析方法包括 : 频带划分步骤, 将所述输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别步骤, 识别噪声区间和声音区间, 所述噪声区间为所述输入信号仅表示 所述背。

13、景噪声的区间, 所述声音区间为所述输入信号表示所述背景噪声以及所述声音的区 间 ; 信噪比计算步骤, 计算出信噪比, 该信噪比为从所述声音区间中的所述输入信号划分 出的各个带通信号的功率和从所述噪声区间中的所述输入信号划分出的各个带通信号的 功率的比率 ; 相关函数计算步骤, 计算出从所述声音区间中的所述输入信号划分出的各个带通信号 的自相关函数 ; 校正量决定步骤, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及 非周期成分比率计算步骤, 根据被决定的所述校正量和计算出的所述自相关函数, 针 对所述多个频带分别计算出包含在所述声音中的非周期成分比率。 13. 一种校正规则。

14、信息生成方法, 包括 : 频带划分步骤, 将表示声音的输入信号和表示噪声的输入信号, 分别频率划分为作为 相同的多个频带的每个划分频带的带通信号 ; 信噪比计算步骤, 根据划分出的各个所述带通信号, 按照每个所述划分频带, 计算出信 噪比, 该信噪比为不同的多个时间区间的每一个中的所述声音的功率和所述噪声的功率的 比率 ; 相关函数计算步骤, 根据划分出的各个所述带通信号, 按照每个所述划分频带, 计算出 所述多个时间区间的每一个中的所述声音的自相关值以及所述噪声的自相关值 ; 以及 校正规则信息生成步骤, 根据计算出的所述信噪比、 所述声音的自相关值、 以及所述噪 声的自相关值, 按照每个所。

15、述划分频带, 生成校正规则信息, 该校正规则信息表示所述声音 的自相关值与所述噪声的自相关值之间的差和所述信噪比之间的对应关系。 14. 一种程序, 用于根据表示背景噪声和声音的混合音的输入信号, 来分析所述声音中 包含的非周期成分, 且能够由计算机执行, 该程序的特征在于使计算机执行以下步骤 : 频带划分步骤, 将所述输入信号频率划分为多个频带中的带通信号 ; 噪声区间识别步骤, 识别噪声区间和声音区间, 所述噪声区间为所述输入信号仅表示 所述背景噪声的区间, 所述声音区间为所述输入信号表示所述背景噪声以及所述声音的区 间 ; 信噪比计算步骤, 计算出信噪比, 该信噪比为从所述声音区间中的所。

16、述输入信号划分 出的各个带通信号的功率和从所述噪声区间中的所述输入信号划分出的各个带通信号的 功率的比率 ; 相关函数计算步骤, 计算出从所述声音区间中的所述输入信号划分出的各个带通信号 的自相关函数 ; 校正量决定步骤, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及 非周期成分比率计算步骤, 根据被决定的所述校正量和计算出的所述自相关函数, 针 权 利 要 求 书 CN 101983402 A CN 101983404 A4/4 页 5 对所述多个频带分别计算出包含在所述声音中的非周期成分比率。 15. 一种程序, 其特征在于, 使计算机执行以下步骤 : 频带划分步骤,。

17、 将表示声音的输入信号和表示噪声的输入信号, 分别频率划分为作为 相同的多个频带的每个划分频带的带通信号 ; 信噪比计算步骤, 根据划分出的所述各个带通信号, 按照每个所述划分频带, 计算出信 噪比, 该信噪比为不同的多个时间区间的每一个中的所述声音的功率和所述噪声的功率的 比率 ; 相关函数计算步骤, 根据划分出的所述各个带通信号, 按照每个所述划分频带, 计算出 所述多个时间区间的每一个中的所述声音的自相关值以及所述噪声的自相关值 ; 以及 校正规则信息生成步骤, 根据计算出的所述信噪比、 所述声音的自相关值、 以及所述噪 声的自相关值, 按照每个所述划分频带, 生成校正规则信息, 该校正。

18、规则信息表示所述声音 的自相关值与所述噪声的自相关值之间的差和所述信噪比之间的对应关系。 权 利 要 求 书 CN 101983402 A CN 101983404 A1/17 页 6 声音分析装置、 声音分析合成装置、 校正规则信息生成装 置、 声音分析系统、 声音分析方法、 校正规则信息生成方法、 以及程序 技术领域 0001 本发明涉及对声音的非周期成分进行分析的技术。 技术背景 0002 近几年, 随着声音生成技术的发展, 已经能够创作出音质非常高的合成音。 这样的 合成音是例如以播音员的语调宣读新闻的语句等用途为主。 0003 一方面, 在移动电话的服务等方面所提供的服务中逐渐普及的。

19、是某种特殊的声音 ( 具有个人再现性的高合成音或, 具有高中女学生的语气或关西方言等特殊韵律或声质的 合成音 ), 融汇了一个内容之中, 例如, 以有名人物的声音消息来代替电铃声等。 0004 作为合成音的用途的另一方面, 为了增加个人之间的交流中的乐趣, 对于创作特 殊的声音给对方听这样的需求也会增加。 0005 决定声音的特征的一个因素为非周期成分。在伴有声带振动的有声声音中, 包含 音调脉冲反复出现的周期性的成分和其他的非周期性的成分。此非周期性的成分包括 : 间 隔周期的波动、 音调振幅的波动、 音调脉冲波形的波动、 以及噪声成分等。这些非周期性的 成分, 对声音的自然性产生很大的影响。

20、, 并且, 对发声者的个人的特征也带来了很大的贡献 ( 非专利文献 1)。 0006 图16(a)和图16(b)为非周期成分的量不同的母音/a/的频谱图。 横轴表示时间, 纵轴表示频率。在图 16(a) 和图 16(b) 中水平方向看到的条状的线表示高次谐波, 该高次 谐波为基本频率的整数倍的频率的信号成分。 0007 图 16(a) 为非周期成分少的情况, 且能够确认到高频带的高次谐波。图 16(b) 为 非周期成分多的情况, 且能够确认到中间的频带 ( 以 X1 表示 ) 的高次谐波, 但是, 在中间的 频带以上的频带中不能确认高次谐波。 0008 这样的非周期成分多的声音多见于沙哑的声音。

21、的情况等中。此外, 非周期成分也 多见于如读故事给孩子听的柔和的声音的情况中。 0009 因此, 正确地分析非周期成分对声音的个人特征的再现非常重要。 此外, 通过适当 地变换非周期成分, 从而也能够适用在说话者变换上。 0010 高频带中的非周期性的成分不仅根据音调振幅以及间隔周期的波动, 还根据音调 波形的波动以及噪声成分的有无而被赋予特征, 并且, 破坏其频带中的谐波结构。 为了确定 此非周期成分占有支配性的频带, 在非专利文献 1 中利用了如下方法, 即根据不同的多个 频带中的带通信号的自相关函数的强度, 判断非周期性强的频带。 0011 图 17 是示出在非专利文献 1 中的对包含在。

22、声音中的非周期成分进行分析的声音 分析装置 900 的功能性的结构的框图。 0012 图 17 的声音分析装置 900 包括 : 时间轴伸缩部 901、 频带划分部 902、 相关函数计 算部 903a、 903b、 903n、 以及边界频率计算部 904。 说 明 书 CN 101983402 A CN 101983404 A2/17 页 7 0013 时间轴伸缩部 901 将输入信号划分为规定的时间长度的帧, 并对各个帧进行时间 轴的伸缩。 0014 频带划分部902将由时间轴伸缩部901伸缩的信号划分为每个预先规定的多个频 带的带通信号。 0015 相关函数计算部 903a、 903b、。

23、 903n 对由频带划分部 902 划分的各个带通信号 计算出自相关函数。 0016 边界频率计算部 904 根据由相关函数计算部 903a、 903b、 903n 计算出的自相 关函数, 计算出周期性的成分占有支配性的频带和非周期性的成分占有支配性的频带之间 的边界频率。 0017 输入声音由时间轴伸缩部901伸缩时间轴之后, 由频带划分部902进行频率划分。 针对被划分的输入声音的各个频带的频率成分, 计算出自相关函数, 并且, 计算出基本周期 T0 的时间移位中的自相关值。根据针对各个频带的频率成分计算出的自相关值, 能够决定 对周期性的成分占有支配性的频带和非周期性的成分占有支配性的频。

24、带进行划分的边界 频率。 0018 非专利文献 1 : 大冢贵弘、 糟谷英树 “時間周波数領域連続音声周 期非周期成分性質 ( 时间频带中的连续声音的周期非周期成分的性质 )” 日本音响 学会讲演论文集 (2001 年 10 月 pp.265-266.)。 0019 在上述的方法中, 能够计算出具有输入声音中包含的非周期成分的边界频率。然 而, 在实际的应用中声音的收录环境未必能像实验室一样安静。例如在移动电话中应用的 情况下, 声音被收录的环境如在街上或车站等含有很多噪声的情况比较多。 0020 在这样的噪声环境下会出现如下问题, 即在非专利文献 1 的非周期成分分析方法 中, 由于背景噪声。

25、带来的影响, 计算出的信号的自相关函数比实际的值低, 从而导致过大地 评价非周期成分。 0021 图18(a)-图18(c)是说明因背景噪声高次谐波被噪声埋没的状态的图。 图18(a) 示出试验性的对背景噪声进行重叠的声音信号的波形。图 18(b) 表示对背景噪声进行重 叠的声音信号的频谱图, 图 18(c) 则表示对背景噪声不进行重叠的元来的声音信号的频谱 图。 0022 如图 18(c) 所示, 元来的声音信号在高频带中也会出现高次谐波, 并且, 非周期成 分是少的。但是, 如图 18(b) 所示, 在对背景噪声进行重叠的情况下, 声音信号被背景噪声 埋没, 从而很难看到高次谐波。因此, 。

26、以往技术中出现如下结果, 即带通信号的自相关值降 低, 从而计算出比实际多的非周期成分。 发明内容 0023 为了解决所述以往的课题, 本发明的目的在于提供一种非周期成分的分析方法, 该非周期成分的分析方法即使在存在背景噪声的实际环境中, 也能够正确地分析非周期成 分。 0024 为了解决以往的课题, 本发明的声音分析装置根据表示背景噪声和声音的混合声 音的输入信号, 分析所述声音中包含的非周期成分, 其中包括 : 频带划分部, 将所述输入信 号频率划分为多个频带中的带通信号 ; 噪声区间识别部, 识别噪声区间和声音区间, 所述噪 说 明 书 CN 101983402 A CN 1019834。

27、04 A3/17 页 8 声区间为所述输入信号仅表示所述背景噪声的区间, 所述声音区间为所述输入信号表示所 述背景噪声以及所述声音的区间 ; 信噪比计算部, 计算出信噪比, 该信噪比为从所述声音区 间中的所述输入信号划分出的各个带通信号的功率和从所述噪声区间中的所述输入信号 划分出的各个带通信号的功率的比率 ; 相关函数计算部, 计算出从所述声音区间中的所述 输入信号划分出的各个带通信号的自相关函数 ; 校正量决定部, 根据计算出的所述信噪比, 决定有关非周期成分比率的校正量 ; 以及非周期成分比率计算部, 根据被决定的所述校正 量和计算出的所述自相关函数, 针对所述多个频带分别计算出包含在所。

28、述声音中的非周期 成分比率。 0025 在此, 也可以是, 计算出的所述信噪比越小, 所述校正量决定部就将越大的校正量 作为有关所述非周期成分比率的校正量来决定。 并且, 也可以是, 从所述输入信号的基本频 率的一个周期的时间移位中的所述自相关函数的值减去所述校正量之后得到的校正相关 值越小, 所述非周期成分比率计算部就计算出越大的比率, 以作为所述非周期成分比率。 0026 并且, 也可以是, 所述校正量决定部, 预先保持表示信噪比和校正量的对应关系的 校正规则信息, 并根据所述校正规则信息, 参照对应于计算出的所述信噪比的校正量, 并将 被参照的校正量决定为有关所述非周期成分比率的校正量。。

29、 0027 在此, 也可以是, 所述校正量决定部, 预先将表示信噪比和校正量的关系的近似函 数作为所述校正规则信息来保持, 根据计算出的所述信噪比, 计算出所述近似函数的值, 将 计算出的值决定为有关所述非周期成分比率的校正量, 所述近似函数是根据声音的自相关 值与已知的信噪比的噪声被重叠在所述声音中的情况下的自相关值之间的差得到的。 0028 此外, 也可以是, 所述声音分析装置还包括基本频率归一化部, 该基本频率归一化 部将所述声音的基本频率归一化为预先规定的目标频率, 所述非周期成分比率计算部, 利 用基本频率被归一化之后的所述声音, 计算出所述非周期成分比率。 0029 本发明不仅作为。

30、这样的声音分析装置来实现, 也可以作为声音分析方法以及程序 来实现。此外, 本发明也可以作为校正规则信息生成装置、 校正规则信息生成方法以及程 序来实现, 所述校正规则信息生成装置生成为了在这样的声音分析装置中决定校正量而使 用的校正规则信息。 本发明还可以作为向声音分析合成装置以及声音分析系统的应用来实 现。 0030 根据本发明的声音分析装置, 即使对于在噪声环境下收录的声音, 通过基于每个 频带的信噪比, 对非周期成分比率进行校正, 从而也能够排除噪声给非周期成分带来的影 响并正确地分析非周期成分。 0031 也就是说, 根据本发明的声音分析装置, 即使在存在背景噪声的街上等的实际环 境。

31、下, 也能够正确地分析包含在声音中的非周期成分。 附图说明 0032 图1是示出本发明的实施例1中的声音分析装置的功能性的结构的一个例子的框 图。 0033 图 2 是示出有声声音的振幅谱的一个例子的图。 0034 图 3 是示出有声声音的多个划分频带的每一个的带通信号的自相关函数的一个 例子的图。 说 明 书 CN 101983402 A CN 101983404 A4/17 页 9 0035 图 4 是示出有声声音的基本频率的一个周期的时间移位中的各个带通信号的自 相关值的一个例子的图。 0036 图 5(a)-(h) 是示出噪声给自相关值带来的影响的图。 0037 图 6 是示出本发明的。

32、实施例 1 中的声音分析装置的工作的一个例子的流程图。 0038 图 7 是示出对于非周期成分少的声音的分析结果的一个例子的图。 0039 图 8 是示出对于非周期成分多的声音的分析结果的一个例子的图。 0040 图 9 是示出本发明的应用例中的声音分析合成装置的功能性的结构的一个例子 的框图。 0041 图 10(a)、 (b) 是示出声源波形和其振幅谱的一个例子的图。 0042 图 11 是示出由声源模型化部进行模型化的声源的振幅谱的图。 0043 图 12(a)-(c) 是示出由合成部合成声源波形的方法的图。 0044 图 13(a)、 (b) 是示出基于非周期成分的相位谱的生成方法的图。

33、。 0045 图 14 是示出本发明的实施例 2 中的校正规则信息生成装置的功能性的结构的一 个例子的框图。 0046 图 15 是示出本发明的实施例 2 中的校正规则信息生成装置的工作的一个例子的 流程图。 0047 图 16(a)、 (b) 是示出非周期成分的不同量给频谱带来的影响的图。 0048 图 17 是示出以往的声音分析装置的功能性的结构的框图。 0049 图 18(a)-(c) 是示出由背景噪声引起的高次谐波被噪声埋没的状态的图。 具体实施方式 0050 以下, 参照附图对本发明的实施例进行说明。 0051 ( 实施例 1) 0052 图 1 是示出本发明的实施例 1 中的声音分。

34、析装置 100 的功能性的结构的一个例子 的框图。 0053 图 1 中的声音分析装置 100 为根据表示背景噪声和声音的混合音的输入信号, 分析所述声音中包含的非周期成分的装置, 所述声音分析装置 100 包括 : 噪声区间识别部 101、 有声无声判断部 102、 基本频率归一化部 103、 频带划分部 104、 相关函数计算部 105a、 105b、 105c、 信噪比 (SNR : SignalNoise Ratio) 计算部 106a、 106b、 106c、 校正量决定部 107a、 107b、 107c、 以及非周期成分比率计算部 108a、 108b、 108c。 0054 声。

35、音分析装置 100 也可以作为例如以中央处理器、 存储装置等构成的计算机系统 来实现。在此情况下, 声音分析装置 100 的各个部的功能可以作为软件功能来实现, 所述中 央处理器执行存储在所述存储装置的程序, 从而所述软件发挥作用。此外, 声音分析装置 100 的各个部的功能也可以利用数字信号处理装置, 或者, 专用的硬件装置来实现。 0055 噪声区间识别部 101 接受作为背景噪声和声音的混合音的输入信号。接着, 按照 每个规定的时间长度将接受的输入信号划分为多个帧, 并且, 识别每个帧是作为仅表示背 景噪声的噪声区间的背景噪声帧还是作为表示背景噪声和声音的声音区间的声音帧。 0056 有。

36、声无声判断部102接受由噪声区间识别部101识别为声音帧的帧, 以作为输入, 并且, 判断被输入的帧内的声音是有声声音还是无声声音。 说 明 书 CN 101983402 A CN 101983404 A5/17 页 10 0057 基本频率归一化部 103 分析声音的基本频率, 所述声音为由有声无声判断部 102 判断为有声声音的声音, 并且, 将声音的基本频率归一化为规定的目标频率。 0058 频带划分部 104 将声音和背景噪声划分为作为预先规定的不同的多个频带的每 个划分频带的带通信号, 所述声音是由基本频率归一化部 103 将基本频率归一化为规定的 目标频率的, 所述背景噪声包含在由。

37、噪声区间识别部 101 识别为背景噪声帧的帧内。以下 将用于频率划分声音以及背景噪声的频带称为划分频带。 0059 相关函数计算部 105a、 105b、 105c 计算出由频带划分部 104 划分的各个带通信号 的自相关函数。 0060 信噪比计算部106a、 106b、 106c针对由频带划分部104划分的各个带通信号, 计算 出声音帧内的功率和背景噪声帧内的功率的比率, 以作为信噪比。 0061 校正量决定部107a、 107b、 107c根据由信噪比计算部106a、 106b、 106c计算出的信 噪比, 决定校正量, 该校正量与针对各个带通信号计算出的非周期成分比率有关。 0062 。

38、非周期成分比率计算部 108a、 108b、 108c 根据自相关函数和校正量, 按照每个划 分频带计算出声音中包含的非周期成分频率, 所述自相关函数是由相关函数计算部 105a、 105b、 105c 计算出的各个带通信号的自相关函数, 所述校正量是由校正量决定部 107a、 107b、 107c 决定的校正量。 0063 以下, 针对各个部的工作进行详细的说明。 0064 0065 噪声区间识别部 101 按照每个规定的时间将输入信号划分为多个帧, 并且, 识别 划分出的各个帧是背景噪声帧还是声音帧, 所述背景噪声帧是作为仅表示背景噪声的噪声 区间的背景噪声帧, 所述声音帧是作为表示背景噪。

39、声和声音的声音区间的声音帧。 0066 在此, 也可以将输入信号例如按照每个 50msec 划分而得到的各个部分作为帧。此 外, 识别帧是背景噪声帧还是声音帧的方法不需要特别的限定, 但是, 例如可以将输入信号 的功率超过规定的阈值的帧识别为声音帧, 将其他的帧识别为背景噪声帧。 0067 0068 有声无声判断部 102 判断声音是有声声音还是无声声音, 所述声音为以由噪声区 间识别部 101 识别为声音帧的帧内的输入信号表示的声音。判断的方法不需要特别的限 定。例如在声音的自相关函数或变形相关函数的峰值的大小超过预先规定的阈值的情况 下, 可以判断为有声声音。 0069 0070 基本频率。

40、归一化部 103 分析声音的基本频率, 所述声音为以由有声无声判断部 102 识别为有声帧的帧内的输入信号表示的声音。分析的方法不需要特别的限定。例如可 以利用作为针对混入噪声的声音的强健的基本频率分析方法的基于瞬时频率的基本频率 分析方法 ( 非专利文献 2 : T.Abe, T.Kobayashi, S.Imai,“Roubust pitch estimation with harmonic enhancement in noisy environment based on instantaneous frequency” , ASVA 97, 423-430(1996)。 0071 基本。

41、频率归一化部 103 对声音的基本频率进行分析之后, 将声音的基本 频率归一化为规定的目标频率。归一化的方法不需要特别的限定。例如能够根 据 PSOLA(Pitch-Synchronous OverLap-Add : 基 周 同 步 叠 加 ) 法 ( 非 专 利 文 献 3 : 说 明 书 CN 101983402 A CN 101983404 A6/17 页 11 F.Charpentier, M.Stella,“Diphone synthesis using an over-lapped technique for speech waveforms concatenation” , Pr。

42、oc.ICASSP, 2015-2018, Tokyo, 1986) 变更声音的基 本频率, 且归一化为规定的目标频率。 0072 因此, 能够减轻韵律给自相关函数带来的影响。 0073 另外, 将声音归一化时的目标频率不需要特别的限定, 但是, 例如通过将目标频率 设定为声音的规定的区间 ( 也可以是整体 ) 中的基本频率的平均值, 从而能够缓和因基本 频率的归一化处理而引起的声音的变形。 0074 例如在 PSOLA 法中, 在将基本频率大幅度上升的情况下, 由于反复使用同一音调 波形, 从而会使自相关值上升得过大。另一方面, 在将基本频率大幅度降低的情况下, 由于 音调波形大量遗漏, 从。

43、而会导致声音的信息的丢失。 因此, 优选的是, 决定目标频率时, 尽可 能使变更的量少。 0075 0076 频带划分部 104 将声音和背景噪声划分为作为预先决定的多个频带的每个划分 频带的带通信号, 所述声音是由基本频率归一化部 103 将基本频率归一化而得到的, 所述 背景噪声在由噪声区间识别部 101 判断为背景噪声帧的帧内。 0077 划分的方法不需要特别的限定。例如也可以按照每个划分频带设计滤波器, 通过 对输入信号进行滤波处理, 从而将输入信号划分为各个带通信号。 0078 例如在输入信号的采样频率为 11KHz 的情况下, 作为划分频带的预先决定的 多个频带, 也可以为将包含 。

44、0-5.5KHz 的频带以等间隔划分为 8 等分而形成的 0-689Hz、 689-1378Hz、 1378-2067Hz、 2067Hz-2756Hz, 2756-3445Hz、 3445Hz-4134Hz、 4134Hz-4823Hz、 以及 4823Hz-5512Hz 中的各个频带。通过如上所述, 能够个别地计算出包含在各个划分频 带中的带通信号内的非周期成分比率。 0079 另外, 在本实施例中, 以将输入信号划分为 8 个划分频带的每一个的带通信号为 例进行了说明, 但是, 不限于8个, 也可以划分为4个或16个等。 通过使划分频带数量增多, 从而能够提高非周期成分的频率分辨能力。但。

45、是, 由于被划分的各个带通信号是由相关函 数计算部 105a-105c 计算出自相关函数, 因此, 为了计算出周期性的强度, 优选的是频带内 包含有多个基本周期的信号。例如在基本周期为 200Hz 的声音的情况下, 也可以将各个划 分频带的带宽划分成 400Hz 以上。 0080 此外, 也可以将频带不划分为等间隔, 例如也可以按照听觉特性, 利用 Mel 频率轴 划分为不等间隔。 0081 优选的是划分输入信号的频带, 以符合以上的条件。 0082 0083 相关函数计算部 105a、 105b、 105c 计算出由频带划分部 104 划分的各个带通信号 的自相关函数。若将第 i 个带通信号。

46、设为 xi(n), 则能够以公式 1 表示 xi(n) 的自相关函数 i(m)。 0084 ( 公式 1) 0085 0086 在此, M 为包含在一个帧内的抽样点的数量、 n 为抽样点的代码、 m 为抽样点的偏移 说 明 书 CN 101983402 A CN 101983404 A7/17 页 12 值。 0087 若将包含在由基本频率归一化部 103 分析出的声音的基本频率的一个周期内的 抽样点的数量设为0, 则计算出的自相关函数i(m)的m0的值表示基本频率的一个 周期的时间移位中的第 i 个带通信号 xi(n) 的自相关值。也就是说, i(0) 表示第 i 个带 通信号 xi(n) 。

47、的周期性的强度。因此, 可以说 i(0) 越大周期性越强, i(0) 越小非周 期性越强。 0088 图 2 是示出发声为 /a/ 的母音区间的时间中心的帧内的振幅谱的一个例子的图。 0-4500Hz 为止能够确认到高次谐波, 并且, 可知为周期性强的声音。 0089 图 3 是示出母音 /a/ 的中心帧内的第 1 个带通信号 ( 频带 0-689Hz) 的自相关函 数的一个例子的图。在图 3 中, i(0) 0.93 为第 1 个带通信号的周期性的强度。同样 地, 也可以计算出第 2 个之后的带通信号的周期性。 0090 低频带的带通信号的自相关函数的变动比较缓慢, 与此相对应, 由于高频带。

48、的带 通信号的自相关函数的变动激烈, 从而在 m 0中未必一定取峰值。在此情况下, 也可以 计算出 m 0的周围的几个抽样点中的最大值, 以作为周期性。 0091 图 4 是对所述的母音 /a/ 的中心帧内的从第 1 个到第 8 个为止的各个带通信号的 自相关函数的 m 0的值进行绘图的图。在图 4 中, 在从第 1 个到第 7 个为止的带通信 号中, 示出 0.9 以上这样高的自相关值, 可以说周期性是高的。另一方面, 在第 8 个带通信 号中, 自相关值大约为0.5, 可知周期性变低了。 如上所述, 通过利用基本频率的一个周期的 时间移位中的各个带通信号的自相关值, 从而能够计算出声音的每。

49、个划分频带的周期性的 强度。 0092 0093 信噪比计算部 106a、 106b、 106c 计算出从背景噪声帧内的输入信号中划分出的各 个带通信号的功率且保持表示计算出的功率的值, 并且, 在计算出新的背景噪声帧的功率 的情况下, 以表示新计算出的功率的值更新保持着的值。由此, 信噪比计算部 106a、 106b、 106c 保持最近的背景噪声的功率。 0094 此外, 信噪比计算部 106a、 106b、 106c 计算出从声音帧内的输入信号划分出的各 个带通信号的功率, 并且, 按照每个划分频带计算出信噪比, 该信噪比为计算出的声音帧内 的功率和保持着的最近的背景噪声帧内的功率的比率。 0095 例如, 针对第 i 个带通信号, 若将最近的背景噪声帧的功率设为 PiN, 将 声音帧的功率设为 PiS, 则声音帧的信噪比 S。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 乐器;声学


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1