《声音处理装置、声音处理方法和程序.pdf》由会员分享,可在线阅读,更多相关《声音处理装置、声音处理方法和程序.pdf(36页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103886865 A (43)申请公布日 2014.06.25 CN 103886865 A (21)申请号 201310684752.X (22)申请日 2013.12.13 2012-277662 2012.12.20 JP G10L 21/02(2013.01) H04R 27/02(2006.01) (71)申请人 索尼公司 地址 日本东京都 (72)发明人 东山惠祐 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 杜诚 王娜丽 (54) 发明名称 声音处理装置、 声音处理方法和程序 (57) 摘要 提供了一种声音处理装置、 声音处。
2、理方法和 程序。该声音处理装置包括 : 背景噪声估计单元, 被配置成估计输入信号的背景噪声 ; 噪声抑制单 元, 被配置成基于通过估计背景噪声而获得的结 果, 来抑制输入信号的背景噪声 ; 特征量计算单 元, 被配置成基于抑制了背景噪声的输入信号而 计算特征量 ; 以及辅音检测单元, 被配置成基于 特征量从输入信号检测辅音。 (30)优先权数据 (51)Int.Cl. 权利要求书 2 页 说明书 17 页 附图 16 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书17页 附图16页 (10)申请公布号 CN 103886865 A CN 10388686。
3、5 A 1/2 页 2 1. 一种声音处理装置, 包括 : 背景噪声估计单元, 被配置成估计输入信号的背景噪声 ; 噪声抑制单元, 被配置成基于通过估计所述背景噪声而获得的结果, 来抑制所述输入 信号的背景噪声 ; 特征量计算单元, 被配置成基于抑制了所述背景噪声的所述输入信号而计算特征量 ; 以及 辅音检测单元, 被配置成基于所述特征量来从所述输入信号检测辅音。 2. 根据权利要求 1 所述的声音处理装置, 其中, 所述背景噪声估计单元在频域中估计所述背景噪声, 其中, 所述噪声抑制单元通过抑制从所述输入信号获得的输入谱中包括的背景噪声而 获得噪声抑制谱, 以及 其中, 所述特征量计算单元基。
4、于所述噪声抑制谱而计算所述特征量。 3. 根据权利要求 2 所述的声音处理装置, 其中, 所述背景噪声估计单元通过获得先前 输入谱的平均值而估计所述背景噪声。 4. 根据权利要求 3 所述的声音处理装置, 还包括 : 辅音增强单元, 被配置成针对这样的频率增强所述输入谱 : 在该频率处, 所述噪声抑制 谱的值大于通过将背景噪声谱乘以常数所获得的值, 所述背景噪声谱是通过对所述背景噪 声的估计而获得的。 5. 根据权利要求 4 所述的声音处理装置, 其中, 所述辅音增强单元以预定增强量增强 所述输入谱。 6. 根据权利要求 4 所述的声音处理装置, 还包括 : 辅音增强水平计算单元, 被配置成基。
5、于所述输入信号的当前功率与所述输入信号的先 前元音部分的功率的平均值之比而计算增强量, 其中, 所述辅音增强单元以所述增强量增强所述输入谱。 7. 根据权利要求 6 所述的声音处理装置, 其中, 关于频率方向执行所述增强量的内插。 8. 根据权利要求 2 所述的声音处理装置, 其中, 所述噪声抑制单元通过使用谱减法而 获得所述噪声抑制谱。 9. 根据权利要求 2 所述的声音处理装置, 其中, 所述输入信号的音调强度也用作特征 量, 以及 其中, 所述辅音检测单元基于作为所述特征量的音调强度和根据所述噪声抑制谱算出 的特征量而从所述输入信号检测辅音。 10. 根据权利要求 9 所述的声音处理装置。
6、, 其中, 所述音调强度由在音调频率的位置和 所述音调频率的谐波频率的位置生成所述噪声抑制谱的峰的程度来表示。 11. 根据权利要求 9 所述的声音处理装置, 其中, 所述音调强度是所述输入信号的自相 关系数值。 12. 根据权利要求 2 所述的声音处理装置, 其中, 所述特征量计算单元将所述噪声抑制 谱的频带划分为多个子带, 并且基于所述子带中的所述噪声抑制谱的代表值而计算所述特 征量。 13. 根据权利要求 12 所述的声音处理装置, 其中, 所述噪声抑制谱是功率谱。 权 利 要 求 书 CN 103886865 A 2 2/2 页 3 14. 根据权利要求 12 所述的声音处理装置, 其。
7、中, 所述噪声抑制谱是幅度谱。 15. 根据权利要求 12 所述的声音处理装置, 其中, 所述代表值是所述子带中的所述噪 声抑制谱的平均值。 16. 根据权利要求 12 所述的声音处理装置, 其中, 所述代表值是所述子带中的所述噪 声抑制谱的最大值。 17. 根据权利要求 12 所述的声音处理装置, 其中, 所述特征量计算单元计算所述噪声 抑制谱中的所述子带的代表值之间的时间差分值作为所述特征量。 18. 一种声音处理方法, 包括 : 估计输入信号的背景噪声 ; 基于通过估计所述背景噪声而获得的结果, 来抑制所述输入信号的背景噪声 ; 基于抑制了所述背景噪声的所述输入信号而计算特征量 ; 以及。
8、 基于所述特征量从所述输入信号检测辅音。 19. 一种用于使得计算机执行以下处理的程序 : 估计输入信号的背景噪声 ; 基于通过估计所述背景噪声而获得的结果, 来抑制所述输入信号的背景噪声 ; 基于抑制了所述背景噪声的所述输入信号而计算特征量 ; 以及 基于所述特征量从所述输入信号检测辅音。 权 利 要 求 书 CN 103886865 A 3 1/17 页 4 声音处理装置、 声音处理方法和程序 0001 对相关申请的交叉引用 0002 该申请要求 2012 年 12 月 20 日提交的日本优先权专利申请 JP2012-277662 的权 益, 其全部内容通过引用合并于此。 技术领域 000。
9、3 本技术涉及一种声音处理装置、 声音处理方法和程序。 更具体地, 本技术涉及一种 能够以更高准确度检测辅音的声音处理装置、 声音处理方法和程序。 背景技术 0004 近年来, 随着老龄化社会的发展, 越来越多的人正遭受年龄相关的听力损失。 在年 龄相关的听力损失中, 在高频带的听觉灵敏度趋于劣化, 因此存在听见话音尤其是辅音变 得困难的许多示例。 0005 因此, 作为使得较容易听见辅音的技术, 存在通过使用均衡器而增强存在输入信 号的辅音的频带的技术。 然而, 在该技术中, 通常在与输入信号的类型无关的情况下执行该 频带的增强, 因此, 尽管增强了辅音, 但是除辅音之外的声音的质量被改变,。
10、 从而变得难以 听见该声音。 0006 此外, 随着便携式电话的发展, 变得能够在任何时间任何地点使用便携式电话进 行对话。 然而, 这也意味着扬声器更可能处于有噪声的环境中。 声音信号的辅音部分与其元 音部分相比具有相对少的功率。因此, 由于辅音部分被埋没在噪声中的事实而降低了声音 的清晰度, 因此出现难以听见对话语音的情形。特别地, 对于具有年龄相关听力损失的人, 已知听见声音的容易性受到背景噪声的幅度的影响, 因此期望一种用于使得甚至在有噪声 的环境中也较容易地听见声音的技术。 0007 例如, 如果噪声较大, 则存在用于通过使用噪声抑制技术减小噪声来相对增加声 音的 SN 比 (信噪比。
11、) 的技术。然而, 在该技术中, 随着 SN 比的增加, 声音本身的质量通常将 被改变, 并且语音清晰度或可懂度趋于劣化。另外, 当说话者从开始以模糊的语音咕哝时, 噪声抑制技术是无用的。 0008 鉴于以上情形, 需要提供一种检测和增强辅音的技术, 并且已提出了用于检测和 增强辅音的技术。 0009 作为这样的技术的一个示例, 提出了通过利用多个时间帧提取多个帧信号以及通 过计算和比较帧信号的平均功率来检测和增强辅音的技术 (例如, 参考日本未审查专利申 请公布第 2010-091897 号和日本专利第 04876245 号) 。 发明内容 0010 在日本未审查专利申请公布第 2010-0。
12、91897 号和日本专利第 04876245 号所公开 的技术中, 音节的辅音区间或长度是先前定义的, 并且仅对应于该定义的帧被视为辅音。 然 而, 实际的声音不一定遵从该定义。特别地, 其定义根据语言而变化, 因此算法的语言依赖 说 明 书 CN 103886865 A 4 2/17 页 5 性将变高。 0011 此外, 仅通过帧信号的功率的比较来执行辅音的检测, 因此如果功率由于背景噪 声而改变, 则可能难以正确地检测辅音。 0012 如上所述, 在检测辅音的上述方法中, 对于在辅音的背景中存在噪声的信号, 难以 以高准确度检测辅音。 0013 本技术的实施例是鉴于这样的情形而做出的。期望。
13、以较高准确度检测辅音。 0014 根据本公开的实施例, 提供了一种声音处理装置, 该声音处理装置包括 : 背景噪声 估计单元, 被配置成估计输入信号的背景噪声 ; 噪声抑制单元, 被配置成基于通过估计背景 噪声而获得的结果, 来抑制输入信号的背景噪声 ; 特征量计算单元, 被配置成基于抑制了背 景噪声的输入信号而计算特征量 ; 以及辅音检测单元, 被配置成基于特征量来从输入信号 检测辅音。 0015 背景噪声估计单元可在频域中估计背景噪声。 噪声抑制单元可通过抑制从输入信 号获得的输入谱中包括的背景噪声而获得噪声抑制谱。 特征量计算单元可基于噪声抑制谱 而计算特征量。 0016 背景噪声估计单。
14、元可通过获得先前输入谱的平均值而估计背景噪声。 0017 声音处理装置还可包括辅音增强单元, 该辅音增强单元被配置成针对这样的频率 增强所述输入谱 : 在该频率处, 噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的 值, 该背景噪声谱是通过对背景噪声的估计而获得的。 0018 辅音增强单元可以以预定增强量来增强输入谱。 0019 声音处理装置还可包括辅音增强水平计算单元, 被配置成基于输入信号的当前功 率与输入信号的先前元音部分的功率的平均值之比而计算增强量。 辅音增强单元可以以该 增强量来增强输入谱。 0020 可关于频率方向执行增强量的内插。 0021 噪声抑制单元可通过使用谱减法而获得。
15、噪声抑制谱。 0022 输入信号的音调强度也可用作特征量。 辅音检测单元可基于作为特征量的音调强 度和根据噪声抑制谱算出的特征量而从输入信号检测辅音。 0023 音调强度可由在音调频率的位置和该音调频率的谐波频率的位置生成噪声抑制 谱的峰的程度来表示。 0024 音调强度可以是输入信号的自相关系数值。 0025 特征量计算单元可将噪声抑制谱的频带划分为多个子带, 并且基于子带中的噪声 抑制谱的代表值而计算特征量。 0026 噪声抑制谱可以是功率谱。 0027 噪声抑制谱可以是幅度谱。 0028 代表值可以是子带中的噪声抑制谱的平均值。 0029 代表值可以是子带中的噪声抑制谱的最大值。 003。
16、0 特征量计算单元可计算噪声抑制谱中的子带的代表值之间的时间差分值作为特 征量。 0031 根据本公开的实施例, 提供了一种声音处理方法, 该声音处理方法包括 : 估计输入 信号的背景噪声 ; 基于通过估计背景噪声而获得的结果, 来抑制输入信号的背景噪声 ; 基 说 明 书 CN 103886865 A 5 3/17 页 6 于抑制了背景噪声的输入信号而计算特征量 ; 以及基于特征量从输入信号检测辅音。 0032 根据本公开的实施例, 提供了一种用于使得计算机执行如下处理的程序 : 估计输 入信号的背景噪声 ; 基于通过估计背景噪声而获得的结果, 来抑制输入信号的背景噪声 ; 基于抑制了背景噪。
17、声的输入信号而计算特征量 ; 以及基于特征量从输入信号检测辅音。 0033 根据本公开的一个或更多个实施例, 可以以高准确度检测辅音。 附图说明 0034 图 1 是示出辅音增强装置的示例性配置的图 ; 0035 图 2 是用于说明时间频率变换的图 ; 0036 图 3 是用于说明背景噪声的估计的图 ; 0037 图 4 是用于说明噪声抑制谱的计算的图 ; 0038 图 5 是用于说明特征量的计算的图 ; 0039 图 6 是用于说明输入谱的增强的图 ; 0040 图 7 是示出通过增强输入信号而获得的结果的示例的图 ; 0041 图 8 是用于说明辅音增强处理的流程图 ; 0042 图 9 。
18、是用于说明辅音检测处理的流程图 ; 0043 图 10 是用于说明增强量计算处理的流程图 ; 0044 图 11 是示出辅音增强装置的另一示例性配置的图 ; 0045 图 12 是示出辅音增强装置的另一示例性配置的图 ; 0046 图 13 是示出辅音增强装置的另一示例性配置的图 ; 0047 图 14 是示出辅音检测装置的示例性配置的图 ; 0048 图 15 是示出辅音检测装置的另一示例性配置的图 ; 以及 0049 图 16 是示出计算机的示例性配置的图。 具体实施方式 0050 在下文中, 将参照附图详细描述本技术的优选实施例。注意, 在该说明书和附图 中, 具有基本上相同的功能和结构。
19、的结构元件以相同的附图标记来表示, 并且省略对这些 结构元件的重复说明。 0051 0052 0053 本技术的实施例可以被配置成通过基于具有抑制后的背景噪声的信号检测辅音, 甚至在背景中存在噪声时仍以高准确度检测辅音。另外, 本技术的实施例允许通过基于输 入信号、 估计的背景噪声和噪声抑制后的信号的水平来确定增强量而在考虑噪声的情况下 适当地执行辅音的增强。 0054 图 1 是示出根据应用本技术的辅音增强装置的实施例的示例性配置的图。 0055 辅音增强装置 11 接收作为声音信号的输入信号, 从输入信号检测辅音部分, 基于 通过检测获得的结果而增强辅音, 并且输出所得到的声音信号作为输出。
20、信号。 0056 辅音增强装置11包括时间频率变换单元21、 背景噪声估计单元22、 噪声抑制谱计 算单元23、 音调强度计算单元24、 特征量计算单元25、 辅音检测单元26、 辅音增强水平计算 说 明 书 CN 103886865 A 6 4/17 页 7 单元 27、 辅音增强单元 28 和频率时间变换单元 29。 0057 时间频率变换单元 21 对所提供的输入信号执行时间频率变换, 并且将所得到的 输入谱提供到背景噪声估计单元22、 噪声抑制谱计算单元23、 辅音增强水平计算单元27和 辅音增强单元 28。 0058 背景噪声估计单元 22 基于从时间频率变换单元 21 提供的输入谱。
21、而估计背景噪 声, 并且将所得到的背景噪声谱提供到噪声抑制谱计算单元 23 和辅音增强水平计算单元 27。 0059 背景噪声是输入信号的声音当中的与说话者的话音等不同的噪声分量 (诸如环境 声音) 。另外, 背景噪声谱是背景噪声的谱。 0060 噪声抑制谱计算单元23基于从时间频率变换单元21提供的输入谱和从背景噪声 估计单元 22 提供的背景噪声谱而抑制包括在输入谱中的背景噪声分量, 并且获得噪声抑 制谱。 噪声抑制谱计算单元23将所得到的噪声抑制谱提供到音调强度计算单元24、 特征量 计算单元 25 和辅音增强水平计算单元 27。 0061 音调强度计算单元24基于从噪声抑制谱计算单元2。
22、3提供的噪声抑制谱而计算输 入信号的音调强度, 并且将算出的音调强度提供到特征量计算单元 25 和辅音检测单元 26。 另外, 在以下, 将描述从噪声抑制谱获得音调强度的情况。然而, 可从噪声抑制之前的谱或 作为时域中的信号的输入信号来获得音调强度。 0062 特征量计算单元 25 基于从噪声抑制谱计算单元 23 提供的噪声抑制谱, 或者基于 噪声抑制谱和从音调强度计算单元24提供的音调强度, 而计算特征量。 特征量计算单元25 然后将算出的特征量提供到辅音检测单元 26。特征量计算单元 25 算出的特征量用于从输 入信号检测辅音。 0063 辅音检测单元26基于从音调强度计算单元24提供的音。
23、调强度和从特征量计算单 元 25 提供的特征量而检测输入信号的辅音区间, 并且将检测结果提供到辅音增强水平计 算单元 27。 0064 更具体地, 在检测辅音区间时, 指定要处理的输入信号的帧是辅音的帧、 元音的帧 还是其它帧 (即, 既不是辅音也不是元音的帧) 。在以下描述中, 辅音的帧将被特别地称为辅 音帧, 并且元音的帧将被特别地称为元音帧。 0065 辅音增强水平计算单元 27 基于来自时间频率变换单元 21 的输入谱、 来自背景噪 声估计单元 22 的背景噪声谱、 来自噪声抑制谱计算单元 23 的噪声抑制谱和来自辅音检测 单元 26 的检测结果而计算增强量。换言之, 计算通过辅音检测。
24、为辅音帧的帧的增强量, 然 后将算出的增强量从辅音增强水平计算单元 27 提供到辅音增强单元 28。 0066 辅音增强单元28通过将从时间频率变换单元21提供的输入谱乘以从辅音增强水 平计算单元 27 提供的增强量而增强输入谱的辅音部分, 并且将辅音部分被增强的输入谱 提供到频率时间变换单元 29。 0067 频率时间变换单元 29 对从辅音增强单元 28 提供的输入谱执行频率时间变换, 并 且输出所得到的输出时间波形作为输出信号。 0068 0069 接下来, 现在将描述由构成图 1 所示的辅音增强装置 11 的各个单元执行的处理。 0070 现在将描述由被配置成将输入信号变换为输入谱的时。
25、间频率变换单元 21 执行的 说 明 书 CN 103886865 A 7 5/17 页 8 处理。 0071 作为示例, 假设具有以图 2 中的箭头 A11 指示的波形的输入信号被提供到时间频 率变换单元 21。另外, 在以箭头 A11 指示的输入信号中, 水平方向表示时间, 并且垂直方向 表示幅度。 0072 当以箭头A11指示的输入信号被提供到时间频率变换单元21时, 时间频率变换单 元 21 允许构成输入信号的多个预定连续样本合并为帧。在该示例中, 输入信号的区间 L11 至 L19 中的每个对应于单个帧。 0073 此外, 时间频率变换单元21针对输入信号的每个帧使用窗 (即, 具有。
26、以箭头A12指 示的形状的窗函数) 执行加窗。这里, 在以箭头 A12 指示的窗函数中, 垂直方向表示窗函数 的值, 并且水平方向表示时间 (即, 要与窗函数的值相乘的输入信号的样本位置) 。 0074 另外, 可使用正弦窗来执行加窗, 或者可使用汉宁窗、 汉明窗等来执行加窗。 然而, 加窗需要与执行将频率信号变换回时间信号的逆变换的时间匹配。 0075 当通过将构成输入信号的帧的每个样本乘以窗函数来执行加窗时, 时间频率变换 单元 21 对所得到的信号执行零填充。例如, 如果使用以箭头 A12 指示的窗函数对输入信号 的区间 L11 执行加窗并且对所得到的信号执行零填充, 则获得以箭头 A1。
27、3 指示的信号。 0076 在以箭头 A13 指示的信号中, 垂直方向表示幅度, 并且水平方向表示时间。在以箭 头 A13 指示的信号中, 区间 L31 是执行零填充的部分, 并且该部分中的信号的幅度变为零。 另外, 为了增加后级的时间频率变换的频率分辨率, 零填充之后的信号的长度可以例如是 窗的长度的两倍、 四倍或更多倍。 0077 此外, 在执行零填充之后, 时间频率变换单元 21 对通过零填充所获得的信号执行 诸如离散傅立叶变换的时间频率变换, 并且将时间信号变换为作为频率信号的输入谱。例 如, 如果对以箭头 A13 指示的信号执行离散傅立叶变换, 则获得以箭头 A14 指示的输入谱。 。
28、另外, 在以箭头 A14 指示的输入谱中, 水平方向表示频率, 并且垂直方向表示功率或幅度。 0078 以此方式, 从输入信号的帧获得的输入谱可以是功率谱, 或者可以是幅度谱或对 数幅值谱。 另外, 用于获得输入谱的时间频率变换的示例包括但不限于离散傅立叶变换、 离 散余弦变换等。 0079 另外, 在图 2 的示例中, 为了增加频率分辨率, 通过由于零填充的过采样而使得频 率变换的长度比窗的长度长, 但是不一定要执行零填充。 0080 上述处理允许针对输入信号的每个帧获得输入谱。 0081 0082 随后, 将给出要由背景噪声估计单元 22 执行的背景噪声估计的描述。 0083 例如, 如图。
29、 3 所示, 在时间频率变换单元 21 中, 假设分别以箭头 22 至 26 指示的输 入谱 X(t-1,f) 至 X(t-5,f) 分别是从构成以箭头 A21 指示的输入信号的五个帧 F(t-1) 至 F(t-5) 获得的。在图 3 中, 在以箭头 A21 指示的输入信号中, 垂直方向表示幅度, 并且水平 方向表示时间。另外, 在对应于每个帧的输入谱 X(t,f) 中, t 表示时间索引, 并且 f 表示频 率。 0084 背景噪声估计单元 22 获得由时间频率变换单元 21 获得的输入谱 X(t-1,f) 至 X(t-5,f) 中的每个的平均值, 并且将所获得的输入谱的平均值设置为背景噪声。
30、谱 N(t,f)。 在图 3 的示例中, 以箭头 A27 指示的谱表示通过计算输入谱 X(t-1,f) 至 X(t-5,f) 的平均 说 明 书 CN 103886865 A 8 6/17 页 9 值而获得的背景噪声谱 N(t,f)。 0085 以此方式, 在背景噪声估计单元 22 中, 通过将输入信号的预定数量的先前帧的输 入谱的平均值设置为背景噪声来执行背景噪声的估计。 一般地, 对于相对长的时段, 通过取 声音信号的每个帧的谱的平均值, 知道该平均值基本上变为噪声谱。 0086 例如, 在先前 M 个帧的输入谱的平均值被设置为背景噪声谱的情况下, 背景噪 声谱估计单元 22 通过计算以下。
31、等式 (1) 来计算时间索引被设置为 t 的帧的背景噪声谱 N(t,f)。 0087 0088 在等式 (1) 中, X(t,f) 表示时间索引被设置为 t 的帧的输入谱。 0089 此外, 当计算背景噪声谱时, 具有大的电平变化的帧被视为除噪声之外的声音信 号, 因此可从用于计算背景噪声谱的平均值计算处理中排除该帧的输入谱。 0090 可例如基于帧的输入谱的功率与其相邻帧的输入谱的功率之比来指定具有大的 电平变化的帧。另外, 可通过对输入谱应用阈值处理等来指定具有大的电平变化的帧。 0091 另外, 可使用其它方法来计算背景噪声谱而不限于等式 (1) 的计算。例如, 取代将 预定数量的先前帧。
32、的输入谱的平均值设置为背景噪声谱, 可针对连续受到先前帧影响的每 个帧更新背景噪声谱。 0092 在这样的情况下, 例如, 背景噪声估计单元 22 通过计算以下等式 (2) 来计算背景 噪声谱 N(t,f)。 0093 0094 在等式 (2) 中, n(f) 和 x(f) 表示预定系数。 0095 因此, 在等式 (2) 中, 通过紧接的先前帧的背景噪声谱和当前帧的输入谱的加权求 和来计算当前帧的背景噪声谱。例如, 在需要减小具有大的电平变化的帧的贡献度的情况 下, 对于具有大的电平变化的帧可将系数 n(f) 的值设置为诸如零的小值。 0096 此外, 在下文中, 当不需要特别区分时间索引时。
33、, 背景噪声谱 N(t,f) 被简称为背 景噪声谱N(f)。 类似地, 在下文中, 当不需要特别区分时间索引时, 输入谱X(t,f)被简称为 输入谱 X(f)。 0097 0098 接下来, 将给出由噪声抑制谱计算单元 23 执行的噪声抑制谱的计算的描述。 0099 作为示例, 通过如图 4 所示的谱减法来计算噪声抑制谱。 0100 在图 4 中, 以箭头 A41 至 A43 指示的谱分别表示噪声抑制谱 S(f)、 输入谱 X(f) 和 背景噪声谱N(f)。 另外, 在图4所示的每个谱中, 纵轴表示功率或幅度, 并且横轴表示频率。 0101 在谱减法中, 假设噪声抑制谱 S(f) 和背景噪声谱。
34、 N(f) 的和是输入谱 X(f)。噪声 抑制谱 S(f) 是声音部分的谱, 并且背景噪声谱 N(f) 是背景噪声的分量。 0102 因此, 通过从输入谱 X(f) 减去背景噪声谱 N(f) 获得的谱成为通过估计而获得的 噪声抑制谱 S(f)。在图 4 中, 输入谱 X(f) 中的阴影线部分表示包括在输入谱 X(f) 中的背 说 明 书 CN 103886865 A 9 7/17 页 10 景噪声分量。 0103 更具体地, 噪声抑制谱计算单元 23 例如通过基于输入谱 X(f) 和背景噪声谱 N(f) 计算以下等式 (3) 来计算噪声抑制谱 S(f)。 0104 0105 在等式 (3) 中。
35、, (f) 是用于确定噪声抑制量的系数, 并且 (f) 的值可对每个频 率不同或者可对于所有频率相同。另外, 在等式 (3) 中, i 是用于确定噪声抑制的域的值。 0106 以此方式获得的噪声抑制谱 S(f) 可以是功率谱或幅度谱。 0107 0108 此外, 将给出由音调强度计算单元 24 执行的音调强度计算的描述。 0109 根据噪声抑制谱 S(f) 计算音调强度。 0110 音调强度由音调频率和音调频率的谐波频率中存在作为功率谱或幅度谱的噪声 抑制谱的多少峰来表示。换言之, 音调强度由在音调频率的位置和在音调频率的谐波频率 的位置生成噪声抑制谱的峰的程度来表示。 0111 因此, 基于。
36、峰是否存在于音调频率的位置中以及峰是否存在于音调频率的谐波频 率的位置中 (即, 存在多少具有峰的谐波频率) 来确定音调强度。 0112 通过基于峰频率附近的谱的曲率获得作为峰的可能性来确定是否是峰。另外, 可 通过基于峰频率中的谱及其周围频率中的谱或周围谱的平均值之间之比或差获得作为峰 的可能性来确定是否是峰。 0113 0114 随后, 将给出由特征量计算单元 25 执行的特征量计算的描述。 0115 可基于噪声抑制谱和音调强度来计算特征量。 然而, 在下文中, 将描述基于噪声抑 制谱计算特征量的示例。 0116 作为示例, 假设图 5 所示的噪声抑制谱 S(f) 从噪声抑制谱计算单元 2。
37、3 提供到特 征量计算单元 25。另外, 在图 5 中, 纵轴表示功率或幅度, 并且横轴表示频率。 0117 另外, 在噪声抑制谱 S(f) 中, 每个矩形表示单个频率 (频率窗口 (frequency bin) ) 中的谱的值。在该示例中, 十七个频率窗口中的谱的值被包括在噪声抑制谱 S(f) 中。 0118 如果这样的噪声抑制谱 S(f) 被提供到特征量计算单元 25, 则特征量计算单元 25 将噪声抑制谱 S(f) 的频带划分为多个子带。换言之, 噪声抑制谱 S(f) 的频带被划分为以 虚线矩形表示的十七个子带BD11至BD17。 例如, 最低频率侧的两个频率窗口被捆绑在一起 并且其成为。
38、子带 BD11。 0119 在划分为子带的方法中, 每个子带可以以一致宽度来划分或者可以以对听觉滤波 器进行模拟的非一致宽度来划分。在图 5 的示例中, 子带 BD11 至 BD14 中的每个被配置成 包括两个频率窗口, 并且子带 BD15 至 BD17 中的每个被配置成包括三个频率窗口。 0120 此外, 对于构成噪声抑制谱S(f)的每个子带, 特征量计算单元25将子带中的谱值 的最大值设置为子带的代表值, 并且将通过组合每个子带的代表值而获得的向量设置为噪 声抑制谱 S(f) 的特征量。 说 明 书 CN 103886865 A 10 8/17 页 11 0121 例如, 当子带 BD11。
39、 至 BD17 的代表值分别为 55、 50、 40、 30、 20、 25 和 20 时, 通过顺 序布置这些值而获得的向量 b=55,50,40,30,20,25,20 被设置为特征量。 0122 这里, 尽管描述了将子带中的谱值的最大值设置为代表值的示例, 但是可将子带 中的谱值的平均值设置为代表值。 另外, 作为用于检测辅音的开始的特征量, 可使用噪声抑 制谱 S(f) 的每个子带的代表值的时间差分值, 即, 时间方向上的相邻帧的同一子带的代表 值的差分值。 0123 0124 接下来, 将给出由辅音检测单元 26 执行的辅音帧的检测的描述。 0125 例如, 辅音检测单元 26 通过。
40、基于从特征量计算单元 25 提供的特征量执行线性判 别来确定输入信号的要处理的当前帧是否是辅音帧。 0126 具体地, 例如, 辅音检测单元 26 通过将特征量代入由以下等式 (4) 表示的线性判 别式 Y 来执行判别。 0127 0128 在等式 (4) 中, an(其中, 1 n N) 和 a0分别表示预先学习的常数和系数。辅音 检测单元 26 保持由这些系数和常数构成的系数向量。另外, bn(其中, 1 n N) 表示以 下向量的每个元素, 该向量是特征量计算单元 25 算出的特征量。 0129 如果从特征量计算单元25提供的特征量被代入由等式 (4) 表示的线性判别式Y中 并且所得到的。
41、值是负的, 即, Y=anbn+a0 0139 另外, 将描述由辅音增强水平计算单元 27 执行的增强量计算和由辅音增强单元 28 执行的输入谱增强。 0140 例如, 辅音增强水平计算单元 27 计算并保持输入信号的先前元音帧的功率的平 均值作为元音部分功率。 元音帧的功率被设置为例如元音帧的输入谱中的每个频率的功率 的平均值等。 0141 如果要处理的当前帧是元音帧, 则辅音增强水平计算单元 27 更新其中所保持的 元音部分功率。 0142 具体地, 如果基于从辅音检测单元 26 提供的辅音检测结果将当前帧指定为元音 帧, 则辅音增强水平计算单元 27 基于所保持的元音部分和从时间频率变换。
42、单元 21 提供的 当前帧的输入谱而更新元音部分功率。 0143 如果基于从辅音检测单元 26 提供的辅音检测结果将当前帧指定为辅音帧, 则辅 音增强水平计算单元 27 使用所保持的元音部分功率来计算增强量。 0144 例如, 辅音增强水平计算单元 27 获得从时间频率变换单元 21 提供的当前帧的输 入谱中的每个频率的功率的平均值, 并且将所获得的平均值设置为当前帧功率。当前帧功 率是输入谱的整个功率。辅音增强水平计算单元 27 然后通过计算以下等式 (5) 来计算当 前帧的增强量。 0145 增强量 = 元音部分功率 / 当前帧功率(5) 0146 在等式 (5) 中, 先前元音帧的功率的。
43、平均值与当前帧的输入谱的功率之比 (百分 比) 被计算作为增强量。这是由于如果辅音部分的功率被增强到与元音部分的功率基本上 相同的程度, 则变得足够容易听见辅音。 0147 输入谱的增强量可包括其它值 (例如, 预定常数) 而不限于通过等式 (5) 获得的值。 另外, 增强量可以是通过等式 (5) 获得的值和预定常数中的较大值或较小值中的任意值。 0148 此外, 可根据回放实际经辅音增强的声音的环境来改变增强量。 例如, 在难以提供 高频带的环境中进行回放的情况下, 增强量可被设置得较大。在原始回放稍微大的高频带 的环境中, 增强量可被设置得较小。 0149 在辅音增强单元 28 中, 使用。
44、以上述方式算出的增强量并且执行输入谱的增强。 0150 例如, 当执行输入信号的增强时, 如果以相同增强量对输入信号的整个频带或特 定固定频带执行谱增强, 则将不仅增强了辅音分量而且增强了噪声分量。 因此, 增强后的声 音将是具有高噪声灵敏度的不舒服声音。 0151 因此, 辅音增强装置 11 被配置成不对背景噪声占主要的谱执行增强。 0152 具体地, 例如, 如图 6 所示, 辅音增强水平计算单元 27 被配置成仅在噪声抑制谱 S(f) 的值比背景噪声谱 N(f) 的值大常数倍数时才执行增强。 0153 在图 6 中, 折线 C11 至 C13 分别表示噪声抑制谱 S(f)、 背景噪声谱 。
45、N(f) 以及乘以 常数 的背景噪声谱 N(f)。另外, 在图 6 中, 横轴表示频率, 并且纵轴表示功率或幅度。 0154 在图 6 的示例中, 针对每个频率, 对以折线 C13 指示的、 乘以预定常数 的背景噪 声谱 N(f) 的值和以折线 C11 指示的噪声抑制谱 S(f) 的值进行比较。换言之, 辅音增强水 说 明 书 CN 103886865 A 12 10/17 页 13 平计算单元 27 将乘以常数 的背景噪声谱 N(f) 的值与噪声抑制谱 S(f) 的值进行比较, 并且将比较结果和增强量提供到辅音增强单元 28。 0155 在该示例中, 在图6中, 在以向上指的箭头指示的频率中。
46、, 噪声抑制谱S(f)比背景 噪声谱 N(f) 大常数 倍, 因此增强该部分的谱。向上指的箭头表示频率分量被增强的状 态。 0156 以此方式, 噪声抑制谱 S(f) 和背景噪声谱 N(f) 的比较使得确定辅音帧中的功率 或幅度比背景噪声大的频带是包括辅音分量的频带, 即, 与辅音有关的频带。 0157 另外, 噪声抑制谱 S(f) 小于或等于背景噪声谱 N(f) 的常数 倍的频带是相比于 其它声音 (诸如辅音) 背景噪声占主要的频带, 因此不执行谱增强。 0158 辅音增强单元 28 基于来自辅音增强水平计算单元 27 的比较结果, 仅对于噪声抑 制谱 S(f) 的值大于乘以常数 的背景噪声。
47、谱 N(f) 的值的频率, 将输入谱乘以增强量。 0159 因此, 对于背景噪声占主要的谱不执行增强, 因此可以增强声音的辅音部分, 以使 得在仅辅音被增强的状态听见增强后的声音的质量。 0160 然而, 如果执行了增强的谱部分丢失, 则存在生成称为音乐噪声的刺耳噪声的可 能性, 因此期望在频率方向上执行增强量的内插。例如, 可基于通过将噪声抑制谱 S(f) 的 值与乘以常数 的背景噪声谱 N(f) 的值进行比较而获得的结果来执行增强量的内插。 0161 在图 6 中, 以上已描述了常数 是大于 1 的值的示例, 但是常数 可小于 1。另 外, 常数 的值可被设置为对于每个频率不同。 0162。
48、 以此方式, 在辅音帧中, 如果仅对于背景噪声不占主要的频带执行谱增强, 则从增 强后的输入谱获得例如图 7 所示的输出信号。另外, 在图 7 中, 纵轴表示幅度, 并且横轴表 示时间。 0163 在图 7 中, 箭头 A61 指示辅音部分增强之前的输入信号的时间波形, 并且箭头 A62 指示辅音部分增强之后的输出信号的时间波形。 0164 在该示例中, 如箭头 Q11 至 Q19 所指示的, 可以看出, 输入信号的辅音部分的水平 被增强, 并且在输出信号中, 与这些辅音部分相同的部分的水平大于输入信号。 0165 在上述现有技术中, 如果背景中存在噪声, 则可能难以以高准确度检测辅音。 另一 方面, 辅音增强装置 11 获得抑制了背景噪声的噪声抑制谱, 并且基于通过使用至少噪声抑 制谱所获得的特征量而检测频带中的辅音, 从而使得可以以较高准确度检测辅音。 0166 此外, 在现有技术中, 在声音信号的时域中执行放大, 因此, 如果背景中存在噪声, 则不仅辅音而且噪声将被放大。 在该情况下, 如果回放放大后的声音, 则听见如同噪声被增 强而不是辅音被增强的声音。因此, 在现有技术中, 没有执行将噪声纳入考虑的增强, 因此 将听见如同仅噪声灵敏度变强一样的、 通过这样的放大所获得的声。