声音处理装置、声音处理方法和程序.pdf

摘要
申请专利号：	CN201310684752.X	申请日：	2013.12.13
公开号：	CN103886865A	公开日：	2014.06.25
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G10L 21/02申请公布日:20140625\|\|\|公开
IPC分类号：	G10L21/02(2013.01)I; H04R27/02	主分类号：	G10L21/02
申请人：	索尼公司
发明人：	东山惠祐
地址：	日本东京都
优先权：	2012.12.20 JP 2012-277662
专利代理机构：	北京集佳知识产权代理有限公司 11227	代理人：	杜诚;王娜丽
PDF下载：	PDF下载

内容摘要

提供了一种声音处理装置、声音处理方法和程序。该声音处理装置包括：背景噪声估计单元，被配置成估计输入信号的背景噪声；噪声抑制单元，被配置成基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；特征量计算单元，被配置成基于抑制了背景噪声的输入信号而计算特征量；以及辅音检测单元，被配置成基于特征量从输入信号检测辅音。

权利要求书

权利要求书
1.  一种声音处理装置，包括：
背景噪声估计单元，被配置成估计输入信号的背景噪声；
噪声抑制单元，被配置成基于通过估计所述背景噪声而获得的结果，来抑制所述输入信号的背景噪声；
特征量计算单元，被配置成基于抑制了所述背景噪声的所述输入信号而计算特征量；以及
辅音检测单元，被配置成基于所述特征量来从所述输入信号检测辅音。

2.  根据权利要求1所述的声音处理装置，
其中，所述背景噪声估计单元在频域中估计所述背景噪声，
其中，所述噪声抑制单元通过抑制从所述输入信号获得的输入谱中包括的背景噪声而获得噪声抑制谱，以及
其中，所述特征量计算单元基于所述噪声抑制谱而计算所述特征量。

3.  根据权利要求2所述的声音处理装置，其中，所述背景噪声估计单元通过获得先前输入谱的平均值而估计所述背景噪声。

4.  根据权利要求3所述的声音处理装置，还包括：
辅音增强单元，被配置成针对这样的频率增强所述输入谱：在该频率处，所述噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的值，所述背景噪声谱是通过对所述背景噪声的估计而获得的。

5.  根据权利要求4所述的声音处理装置，其中，所述辅音增强单元以预定增强量增强所述输入谱。

6.  根据权利要求4所述的声音处理装置，还包括：
辅音增强水平计算单元，被配置成基于所述输入信号的当前功率与所述输入信号的先前元音部分的功率的平均值之比而计算增强量，
其中，所述辅音增强单元以所述增强量增强所述输入谱。

7.  根据权利要求6所述的声音处理装置，其中，关于频率方向执行所述增强量的内插。

8.  根据权利要求2所述的声音处理装置，其中，所述噪声抑制单元通过使用谱减法而获得所述噪声抑制谱。

9.  根据权利要求2所述的声音处理装置，其中，所述输入信号的音调强度也用作特征量，以及
其中，所述辅音检测单元基于作为所述特征量的音调强度和根据所述噪声抑制谱算出的特征量而从所述输入信号检测辅音。

10.  根据权利要求9所述的声音处理装置，其中，所述音调强度由在音调频率的位置和所述音调频率的谐波频率的位置生成所述噪声抑制谱的峰的程度来表示。

11.  根据权利要求9所述的声音处理装置，其中，所述音调强度是所述输入信号的自相关系数值。

12.  根据权利要求2所述的声音处理装置，其中，所述特征量计算单元将所述噪声抑制谱的频带划分为多个子带，并且基于所述子带中的所述噪声抑制谱的代表值而计算所述特征量。

13.  根据权利要求12所述的声音处理装置，其中，所述噪声抑制谱是功率谱。

14.  根据权利要求12所述的声音处理装置，其中，所述噪声抑制谱是幅度谱。

15.  根据权利要求12所述的声音处理装置，其中，所述代表值是所述子带中的所述噪声抑制谱的平均值。

16.  根据权利要求12所述的声音处理装置，其中，所述代表值是所述子带中的所述噪声抑制谱的最大值。

17.  根据权利要求12所述的声音处理装置，其中，所述特征量计算单元计算所述噪声抑制谱中的所述子带的代表值之间的时间差分值作为所述特征量。

18.  一种声音处理方法，包括：
估计输入信号的背景噪声；
基于通过估计所述背景噪声而获得的结果，来抑制所述输入信号的背景噪声；
基于抑制了所述背景噪声的所述输入信号而计算特征量；以及
基于所述特征量从所述输入信号检测辅音。

19.  一种用于使得计算机执行以下处理的程序：
估计输入信号的背景噪声；
基于通过估计所述背景噪声而获得的结果，来抑制所述输入信号的背景噪声；
基于抑制了所述背景噪声的所述输入信号而计算特征量；以及
基于所述特征量从所述输入信号检测辅音。

说明书

说明书声音处理装置、声音处理方法和程序
对相关申请的交叉引用
该申请要求2012年12月20日提交的日本优先权专利申请JP2012-277662的权益，其全部内容通过引用合并于此。
技术领域
本技术涉及一种声音处理装置、声音处理方法和程序。更具体地，本技术涉及一种能够以更高准确度检测辅音的声音处理装置、声音处理方法和程序。
背景技术
近年来，随着老龄化社会的发展，越来越多的人正遭受年龄相关的听力损失。在年龄相关的听力损失中，在高频带的听觉灵敏度趋于劣化，因此存在听见话音尤其是辅音变得困难的许多示例。
因此，作为使得较容易听见辅音的技术，存在通过使用均衡器而增强存在输入信号的辅音的频带的技术。然而，在该技术中，通常在与输入信号的类型无关的情况下执行该频带的增强，因此，尽管增强了辅音，但是除辅音之外的声音的质量被改变，从而变得难以听见该声音。
此外，随着便携式电话的发展，变得能够在任何时间任何地点使用便携式电话进行对话。然而，这也意味着扬声器更可能处于有噪声的环境中。声音信号的辅音部分与其元音部分相比具有相对少的功率。因此，由于辅音部分被埋没在噪声中的事实而降低了声音的清晰度，因此出现难以听见对话语音的情形。特别地，对于具有年龄相关听力损失的人，已知听见声音的容易性受到背景噪声的幅度的影响，因此期望一种用于使得甚至在有噪声的环境中也较容易地听见声音的技术。
例如，如果噪声较大，则存在用于通过使用噪声抑制技术减小噪声来相对增加声音的SN比（信噪比）的技术。然而，在该技术中，随着SN比的增加，声音本身的质量通常将被改变，并且语音清晰度或可懂度趋于劣化。另外，当说话者从开始以模糊的语音咕哝时，噪声抑制技术是无用的。
鉴于以上情形，需要提供一种检测和增强辅音的技术，并且已提出了用于检测和增强辅音的技术。
作为这样的技术的一个示例，提出了通过利用多个时间帧提取多个帧信号以及通过计算和比较帧信号的平均功率来检测和增强辅音的技术（例如，参考日本未审查专利申请公布第2010-091897号和日本专利第04876245号）。
发明内容
在日本未审查专利申请公布第2010-091897号和日本专利第04876245号所公开的技术中，音节的辅音区间或长度是先前定义的，并且仅对应于该定义的帧被视为辅音。然而，实际的声音不一定遵从该定义。特别地，其定义根据语言而变化，因此算法的语言依赖性将变高。
此外，仅通过帧信号的功率的比较来执行辅音的检测，因此如果功率由于背景噪声而改变，则可能难以正确地检测辅音。
如上所述，在检测辅音的上述方法中，对于在辅音的背景中存在噪声的信号，难以以高准确度检测辅音。
本技术的实施例是鉴于这样的情形而做出的。期望以较高准确度检测辅音。
根据本公开的实施例，提供了一种声音处理装置，该声音处理装置包括：背景噪声估计单元，被配置成估计输入信号的背景噪声；噪声抑制单元，被配置成基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；特征量计算单元，被配置成基于抑制了背景噪声的输入信号而计算特征量；以及辅音检测单元，被配置成基于特征量来从输入信号检测辅音。
背景噪声估计单元可在频域中估计背景噪声。噪声抑制单元可通过抑制从输入信号获得的输入谱中包括的背景噪声而获得噪声抑制谱。特征量计算单元可基于噪声抑制谱而计算特征量。
背景噪声估计单元可通过获得先前输入谱的平均值而估计背景噪声。
声音处理装置还可包括辅音增强单元，该辅音增强单元被配置成针对这样的频率增强所述输入谱：在该频率处，噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的值，该背景噪声谱是通过对背景噪声的估计而获得的。
辅音增强单元可以以预定增强量来增强输入谱。
声音处理装置还可包括辅音增强水平计算单元，被配置成基于输入信号的当前功率与输入信号的先前元音部分的功率的平均值之比而计算增强量。辅音增强单元可以以该增强量来增强输入谱。
可关于频率方向执行增强量的内插。
噪声抑制单元可通过使用谱减法而获得噪声抑制谱。
输入信号的音调强度也可用作特征量。辅音检测单元可基于作为特征量的音调强度和根据噪声抑制谱算出的特征量而从输入信号检测辅音。
音调强度可由在音调频率的位置和该音调频率的谐波频率的位置生成噪声抑制谱的峰的程度来表示。
音调强度可以是输入信号的自相关系数值。
特征量计算单元可将噪声抑制谱的频带划分为多个子带，并且基于子带中的噪声抑制谱的代表值而计算特征量。
噪声抑制谱可以是功率谱。
噪声抑制谱可以是幅度谱。
代表值可以是子带中的噪声抑制谱的平均值。
代表值可以是子带中的噪声抑制谱的最大值。
特征量计算单元可计算噪声抑制谱中的子带的代表值之间的时间差分值作为特征量。
根据本公开的实施例，提供了一种声音处理方法，该声音处理方法包括：估计输入信号的背景噪声；基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；基于抑制了背景噪声的输入信号而计算特征量；以及基于特征量从输入信号检测辅音。
根据本公开的实施例，提供了一种用于使得计算机执行如下处理的程序：估计输入信号的背景噪声；基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；基于抑制了背景噪声的输入信号而计算特征量；以及基于特征量从输入信号检测辅音。
根据本公开的一个或更多个实施例，可以以高准确度检测辅音。
附图说明
图1是示出辅音增强装置的示例性配置的图；
图2是用于说明时间频率变换的图；
图3是用于说明背景噪声的估计的图；
图4是用于说明噪声抑制谱的计算的图；
图5是用于说明特征量的计算的图；
图6是用于说明输入谱的增强的图；
图7是示出通过增强输入信号而获得的结果的示例的图；
图8是用于说明辅音增强处理的流程图；
图9是用于说明辅音检测处理的流程图；
图10是用于说明增强量计算处理的流程图；
图11是示出辅音增强装置的另一示例性配置的图；
图12是示出辅音增强装置的另一示例性配置的图；
图13是示出辅音增强装置的另一示例性配置的图；
图14是示出辅音检测装置的示例性配置的图；
图15是示出辅音检测装置的另一示例性配置的图；以及
图16是示出计算机的示例性配置的图。
具体实施方式
在下文中，将参照附图详细描述本技术的优选实施例。注意，在该说明书和附图中，具有基本上相同的功能和结构的结构元件以相同的附图标记来表示，并且省略对这些结构元件的重复说明。
<第一实施例>
<辅音增强装置的示例性配置>
本技术的实施例可以被配置成通过基于具有抑制后的背景噪声的信号检测辅音，甚至在背景中存在噪声时仍以高准确度检测辅音。另外，本技术的实施例允许通过基于输入信号、估计的背景噪声和噪声抑制后的信号的水平来确定增强量而在考虑噪声的情况下适当地执行辅音的增强。
图1是示出根据应用本技术的辅音增强装置的实施例的示例性配置的图。
辅音增强装置11接收作为声音信号的输入信号，从输入信号检测辅音部分，基于通过检测获得的结果而增强辅音，并且输出所得到的声音信号作为输出信号。
辅音增强装置11包括时间频率变换单元21、背景噪声估计单元22、噪声抑制谱计算单元23、音调强度计算单元24、特征量计算单元25、辅音检测单元26、辅音增强水平计算单元27、辅音增强单元28和频率时间变换单元29。
时间频率变换单元21对所提供的输入信号执行时间频率变换，并且将所得到的输入谱提供到背景噪声估计单元22、噪声抑制谱计算单元23、辅音增强水平计算单元27和辅音增强单元28。
背景噪声估计单元22基于从时间频率变换单元21提供的输入谱而估计背景噪声，并且将所得到的背景噪声谱提供到噪声抑制谱计算单元23和辅音增强水平计算单元27。
背景噪声是输入信号的声音当中的与说话者的话音等不同的噪声分量（诸如环境声音）。另外，背景噪声谱是背景噪声的谱。
噪声抑制谱计算单元23基于从时间频率变换单元21提供的输入谱和从背景噪声估计单元22提供的背景噪声谱而抑制包括在输入谱中的背景噪声分量，并且获得噪声抑制谱。噪声抑制谱计算单元23将所得到的噪声抑制谱提供到音调强度计算单元24、特征量计算单元25和辅音增强水平计算单元27。
音调强度计算单元24基于从噪声抑制谱计算单元23提供的噪声抑制谱而计算输入信号的音调强度，并且将算出的音调强度提供到特征量计算单元25和辅音检测单元26。另外，在以下，将描述从噪声抑制谱获得音调强度的情况。然而，可从噪声抑制之前的谱或作为时域中的信号的输入信号来获得音调强度。
特征量计算单元25基于从噪声抑制谱计算单元23提供的噪声抑制谱，或者基于噪声抑制谱和从音调强度计算单元24提供的音调强度，而计算特征量。特征量计算单元25然后将算出的特征量提供到辅音检测单元26。特征量计算单元25算出的特征量用于从输入信号检测辅音。
辅音检测单元26基于从音调强度计算单元24提供的音调强度和从特征量计算单元25提供的特征量而检测输入信号的辅音区间，并且将检测结果提供到辅音增强水平计算单元27。
更具体地，在检测辅音区间时，指定要处理的输入信号的帧是辅音的帧、元音的帧还是其它帧（即，既不是辅音也不是元音的帧）。在以下描述中，辅音的帧将被特别地称为辅音帧，并且元音的帧将被特别地称为元音帧。
辅音增强水平计算单元27基于来自时间频率变换单元21的输入谱、来自背景噪声估计单元22的背景噪声谱、来自噪声抑制谱计算单元23的噪声抑制谱和来自辅音检测单元26的检测结果而计算增强量。换言之，计算通过辅音检测为辅音帧的帧的增强量，然后将算出的增强量从辅音增强水平计算单元27提供到辅音增强单元28。
辅音增强单元28通过将从时间频率变换单元21提供的输入谱乘以从辅音增强水平计算单元27提供的增强量而增强输入谱的辅音部分，并且将辅音部分被增强的输入谱提供到频率时间变换单元29。
频率时间变换单元29对从辅音增强单元28提供的输入谱执行频率时间变换，并且输出所得到的输出时间波形作为输出信号。
<输入谱的计算>
接下来，现在将描述由构成图1所示的辅音增强装置11的各个单元执行的处理。
现在将描述由被配置成将输入信号变换为输入谱的时间频率变换单元21执行的处理。
作为示例，假设具有以图2中的箭头A11指示的波形的输入信号被提供到时间频率变换单元21。另外，在以箭头A11指示的输入信号中，水平方向表示时间，并且垂直方向表示幅度。
当以箭头A11指示的输入信号被提供到时间频率变换单元21时，时间频率变换单元21允许构成输入信号的多个预定连续样本合并为帧。在该示例中，输入信号的区间L11至L19中的每个对应于单个帧。
此外，时间频率变换单元21针对输入信号的每个帧使用窗（即，具有以箭头A12指示的形状的窗函数）执行加窗。这里，在以箭头A12指示的窗函数中，垂直方向表示窗函数的值，并且水平方向表示时间（即，要与窗函数的值相乘的输入信号的样本位置）。
另外，可使用正弦窗来执行加窗，或者可使用汉宁窗、汉明窗等来执行加窗。然而，加窗需要与执行将频率信号变换回时间信号的逆变换的时间匹配。
当通过将构成输入信号的帧的每个样本乘以窗函数来执行加窗时，时间频率变换单元21对所得到的信号执行零填充。例如，如果使用以箭头A12指示的窗函数对输入信号的区间L11执行加窗并且对所得到的信号执行零填充，则获得以箭头A13指示的信号。
在以箭头A13指示的信号中，垂直方向表示幅度，并且水平方向表示时间。在以箭头A13指示的信号中，区间L31是执行零填充的部分，并且该部分中的信号的幅度变为零。另外，为了增加后级的时间频率变换的频率分辨率，零填充之后的信号的长度可以例如是窗的长度的两倍、四倍或更多倍。
此外，在执行零填充之后，时间频率变换单元21对通过零填充所获得的信号执行诸如离散傅立叶变换的时间频率变换，并且将时间信号变换为作为频率信号的输入谱。例如，如果对以箭头A13指示的信号执行离散傅立叶变换，则获得以箭头A14指示的输入谱。另外，在以箭头A14指示的输入谱中，水平方向表示频率，并且垂直方向表示功率或幅度。
以此方式，从输入信号的帧获得的输入谱可以是功率谱，或者可以是幅度谱或对数幅值谱。另外，用于获得输入谱的时间频率变换的示例包括但不限于离散傅立叶变换、离散余弦变换等。
另外，在图2的示例中，为了增加频率分辨率，通过由于零填充的过采样而使得频率变换的长度比窗的长度长，但是不一定要执行零填充。
上述处理允许针对输入信号的每个帧获得输入谱。
<背景噪声的估计>
随后，将给出要由背景噪声估计单元22执行的背景噪声估计的描述。
例如，如图3所示，在时间频率变换单元21中，假设分别以箭头22至26指示的输入谱X(t-1,f)至X(t-5,f)分别是从构成以箭头A21指示的输入信号的五个帧F(t-1)至F(t-5)获得的。在图3中，在以箭头A21指示的输入信号中，垂直方向表示幅度，并且水平方向表示时间。另外，在对应于每个帧的输入谱X(t,f)中，t表示时间索引，并且f表示频率。
背景噪声估计单元22获得由时间频率变换单元21获得的输入谱X(t-1,f)至X(t-5,f)中的每个的平均值，并且将所获得的输入谱的平均值设置为背景噪声谱N(t,f)。在图3的示例中，以箭头A27指示的谱表示通过计算输入谱X(t-1,f)至X(t-5,f)的平均值而获得的背景噪声谱N(t,f)。
以此方式，在背景噪声估计单元22中，通过将输入信号的预定数量的先前帧的输入谱的平均值设置为背景噪声来执行背景噪声的估计。一般地，对于相对长的时段，通过取声音信号的每个帧的谱的平均值，知道该平均值基本上变为噪声谱。
例如，在先前M个帧的输入谱的平均值被设置为背景噪声谱的情况下，背景噪声谱估计单元22通过计算以下等式（1）来计算时间索引被设置为t的帧的背景噪声谱N(t,f)。
N(t,f)=1MΣτ=1MX(t-τ,f)---(1)]]>
在等式（1）中，X(t,f)表示时间索引被设置为t的帧的输入谱。
此外，当计算背景噪声谱时，具有大的电平变化的帧被视为除噪声之外的声音信号，因此可从用于计算背景噪声谱的平均值计算处理中排除该帧的输入谱。
可例如基于帧的输入谱的功率与其相邻帧的输入谱的功率之比来指定具有大的电平变化的帧。另外，可通过对输入谱应用阈值处理等来指定具有大的电平变化的帧。
另外，可使用其它方法来计算背景噪声谱而不限于等式（1）的计算。例如，取代将预定数量的先前帧的输入谱的平均值设置为背景噪声谱，可针对连续受到先前帧影响的每个帧更新背景噪声谱。
在这样的情况下，例如，背景噪声估计单元22通过计算以下等式（2）来计算背景噪声谱N(t,f)。
N(t,f)=αn(f)N(t-1,f)+αx(f)X(t,f)αn(f)+αx(f)---(2)]]>
在等式（2）中，αn(f)和αx(f)表示预定系数。
因此，在等式（2）中，通过紧接的先前帧的背景噪声谱和当前帧的输入谱的加权求和来计算当前帧的背景噪声谱。例如，在需要减小具有大的电平变化的帧的贡献度的情况下，对于具有大的电平变化的帧可将系数αn(f)的值设置为诸如零的小值。
此外，在下文中，当不需要特别区分时间索引时，背景噪声谱N(t,f)被简称为背景噪声谱N(f)。类似地，在下文中，当不需要特别区分时间索引时，输入谱X(t,f)被简称为输入谱X(f)。
<噪声抑制谱的计算>
接下来，将给出由噪声抑制谱计算单元23执行的噪声抑制谱的计算的描述。
作为示例，通过如图4所示的谱减法来计算噪声抑制谱。
在图4中，以箭头A41至A43指示的谱分别表示噪声抑制谱S(f)、输入谱X(f)和背景噪声谱N(f)。另外，在图4所示的每个谱中，纵轴表示功率或幅度，并且横轴表示频率。
在谱减法中，假设噪声抑制谱S(f)和背景噪声谱N(f)的和是输入谱X(f)。噪声抑制谱S(f)是声音部分的谱，并且背景噪声谱N(f)是背景噪声的分量。
因此，通过从输入谱X(f)减去背景噪声谱N(f)获得的谱成为通过估计而获得的噪声抑制谱S(f)。在图4中，输入谱X(f)中的阴影线部分表示包括在输入谱X(f)中的背景噪声分量。
更具体地，噪声抑制谱计算单元23例如通过基于输入谱X(f)和背景噪声谱N(f)计算以下等式（3）来计算噪声抑制谱S(f)。
S(f)=X(f)(1-β(f)(|N(f)||X(f)|)i)1i---(3)]]>
在等式（3）中，β(f)是用于确定噪声抑制量的系数，并且β(f)的值可对每个频率不同或者可对于所有频率相同。另外，在等式（3）中，i是用于确定噪声抑制的域的值。
以此方式获得的噪声抑制谱S(f)可以是功率谱或幅度谱。
<音调强度的计算>
此外，将给出由音调强度计算单元24执行的音调强度计算的描述。
根据噪声抑制谱S(f)计算音调强度。
音调强度由音调频率和音调频率的谐波频率中存在作为功率谱或幅度谱的噪声抑制谱的多少峰来表示。换言之，音调强度由在音调频率的位置和在音调频率的谐波频率的位置生成噪声抑制谱的峰的程度来表示。
因此，基于峰是否存在于音调频率的位置中以及峰是否存在于音调频率的谐波频率的位置中（即，存在多少具有峰的谐波频率）来确定音调强度。
通过基于峰频率附近的谱的曲率获得作为峰的可能性来确定是否是峰。另外，可通过基于峰频率中的谱及其周围频率中的谱或周围谱的平均值之间之比或差获得作为峰的可能性来确定是否是峰。
<特征量的计算>
随后，将给出由特征量计算单元25执行的特征量计算的描述。
可基于噪声抑制谱和音调强度来计算特征量。然而，在下文中，将描述基于噪声抑制谱计算特征量的示例。
作为示例，假设图5所示的噪声抑制谱S(f)从噪声抑制谱计算单元23提供到特征量计算单元25。另外，在图5中，纵轴表示功率或幅度，并且横轴表示频率。
另外，在噪声抑制谱S(f)中，每个矩形表示单个频率（频率窗口（frequency bin））中的谱的值。在该示例中，十七个频率窗口中的谱的值被包括在噪声抑制谱S(f)中。
如果这样的噪声抑制谱S(f)被提供到特征量计算单元25，则特征量计算单元25将噪声抑制谱S(f)的频带划分为多个子带。换言之，噪声抑制谱S(f)的频带被划分为以虚线矩形表示的十七个子带BD11至BD17。例如，最低频率侧的两个频率窗口被捆绑在一起并且其成为子带BD11。
在划分为子带的方法中，每个子带可以以一致宽度来划分或者可以以对听觉滤波器进行模拟的非一致宽度来划分。在图5的示例中，子带BD11至BD14中的每个被配置成包括两个频率窗口，并且子带BD15至BD17中的每个被配置成包括三个频率窗口。
此外，对于构成噪声抑制谱S(f)的每个子带，特征量计算单元25将子带中的谱值的最大值设置为子带的代表值，并且将通过组合每个子带的代表值而获得的向量设置为噪声抑制谱S(f)的特征量。
例如，当子带BD11至BD17的代表值分别为55、50、40、30、20、25和20时，通过顺序布置这些值而获得的向量b={55,50,40,30,20,25,20}被设置为特征量。
这里，尽管描述了将子带中的谱值的最大值设置为代表值的示例，但是可将子带中的谱值的平均值设置为代表值。另外，作为用于检测辅音的开始的特征量，可使用噪声抑制谱S(f)的每个子带的代表值的时间差分值，即，时间方向上的相邻帧的同一子带的代表值的差分值。
<辅音帧的检测>
接下来，将给出由辅音检测单元26执行的辅音帧的检测的描述。
例如，辅音检测单元26通过基于从特征量计算单元25提供的特征量执行线性判别来确定输入信号的要处理的当前帧是否是辅音帧。
具体地，例如，辅音检测单元26通过将特征量代入由以下等式（4）表示的线性判别式Y来执行判别。
Y=Σn=1Nanbn+a0---(4)]]>
在等式（4）中，an（其中，1≤n≤N）和a0分别表示预先学习的常数和系数。辅音检测单元26保持由这些系数和常数构成的系数向量。另外，bn（其中，1≤n≤N）表示以下向量的每个元素，该向量是特征量计算单元25算出的特征量。
如果从特征量计算单元25提供的特征量被代入由等式（4）表示的线性判别式Y中并且所得到的值是负的，即，Y=Σanbn+a0<0，则辅音检测单元26将当前帧视为辅音帧。
此外，如果线性判别式Y的值大于或等于零，则辅音检测单元26通过进一步确定音调强度是否大于阈值来确定当前是否是元音帧。例如，如果音调强度大于阈值，则确定当前帧是元音帧。如果音调强度小于或等于阈值，则确定当前帧既不是辅音帧也不是元音帧而是其它帧。
辅音检测单元26将指示以此方式判别的当前帧的类型的信息作为辅音检测的结果提供到辅音增强水平计算单元27。
例如，已知峰周期性地出现在元音帧中，因此可以基于输入信号的音调强度来指定是否存在作为元音帧的可能性。
辅音增强装置11在频域中获得输入信号的音调强度，因此可以通过选择性地使用特定频带（诸如仅使用峰可能出现的较低频带处的频带）来计算音调强度。这使得可以改进元音检测的准确度。
此外，在辅音增强装置11中，尽管使用抑制了背景噪声的背景噪声谱来计算音调强度，但是由于噪声抑制谱是抑制了背景噪声的谱，因此变得可以以更高准确度检测峰。
此外，作为要用于判别辅音帧的特征量，以上已描述了使用从噪声抑制谱S(f)获得的特征量的示例。然而，不仅从噪声抑制谱S(f)获得的特征量可用作特征量，而且音调强度也可用作特征量。
在这样的情况下，例如，要用作特征量的音调强度可被包括作为线性判别式Y中的项，或者通过仅使用音调强度而获得的辅音检测结果可被级联到线性判别式Y。以此方式使用音调强度来判别辅音帧使得可以进一步改进辅音检测的准确度。
此外，作为判别辅音的方法，除了线性判别式之外，还可使用诸如支持向量机或神经网络的判别方法。
<增强量的计算和输入谱的增强>
另外，将描述由辅音增强水平计算单元27执行的增强量计算和由辅音增强单元28执行的输入谱增强。
例如，辅音增强水平计算单元27计算并保持输入信号的先前元音帧的功率的平均值作为元音部分功率。元音帧的功率被设置为例如元音帧的输入谱中的每个频率的功率的平均值等。
如果要处理的当前帧是元音帧，则辅音增强水平计算单元27更新其中所保持的元音部分功率。
具体地，如果基于从辅音检测单元26提供的辅音检测结果将当前帧指定为元音帧，则辅音增强水平计算单元27基于所保持的元音部分和从时间频率变换单元21提供的当前帧的输入谱而更新元音部分功率。
如果基于从辅音检测单元26提供的辅音检测结果将当前帧指定为辅音帧，则辅音增强水平计算单元27使用所保持的元音部分功率来计算增强量。
例如，辅音增强水平计算单元27获得从时间频率变换单元21提供的当前帧的输入谱中的每个频率的功率的平均值，并且将所获得的平均值设置为当前帧功率。当前帧功率是输入谱的整个功率。辅音增强水平计算单元27然后通过计算以下等式（5）来计算当前帧的增强量。
增强量=元音部分功率/当前帧功率…(5)
在等式（5）中，先前元音帧的功率的平均值与当前帧的输入谱的功率之比（百分比）被计算作为增强量。这是由于如果辅音部分的功率被增强到与元音部分的功率基本上相同的程度，则变得足够容易听见辅音。
输入谱的增强量可包括其它值（例如，预定常数）而不限于通过等式（5）获得的值。另外，增强量可以是通过等式（5）获得的值和预定常数中的较大值或较小值中的任意值。
此外，可根据回放实际经辅音增强的声音的环境来改变增强量。例如，在难以提供高频带的环境中进行回放的情况下，增强量可被设置得较大。在原始回放稍微大的高频带的环境中，增强量可被设置得较小。
在辅音增强单元28中，使用以上述方式算出的增强量并且执行输入谱的增强。
例如，当执行输入信号的增强时，如果以相同增强量对输入信号的整个频带或特定固定频带执行谱增强，则将不仅增强了辅音分量而且增强了噪声分量。因此，增强后的声音将是具有高噪声灵敏度的不舒服声音。
因此，辅音增强装置11被配置成不对背景噪声占主要的谱执行增强。
具体地，例如，如图6所示，辅音增强水平计算单元27被配置成仅在噪声抑制谱S(f)的值比背景噪声谱N(f)的值大常数倍数时才执行增强。
在图6中，折线C11至C13分别表示噪声抑制谱S(f)、背景噪声谱N(f)以及乘以常数γ的背景噪声谱N(f)。另外，在图6中，横轴表示频率，并且纵轴表示功率或幅度。
在图6的示例中，针对每个频率，对以折线C13指示的、乘以预定常数γ的背景噪声谱N(f)的值和以折线C11指示的噪声抑制谱S(f)的值进行比较。换言之，辅音增强水平计算单元27将乘以常数γ的背景噪声谱N(f)的值与噪声抑制谱S(f)的值进行比较，并且将比较结果和增强量提供到辅音增强单元28。
在该示例中，在图6中，在以向上指的箭头指示的频率中，噪声抑制谱S(f)比背景噪声谱N(f)大常数γ倍，因此增强该部分的谱。向上指的箭头表示频率分量被增强的状态。
以此方式，噪声抑制谱S(f)和背景噪声谱N(f)的比较使得确定辅音帧中的功率或幅度比背景噪声大的频带是包括辅音分量的频带，即，与辅音有关的频带。
另外，噪声抑制谱S(f)小于或等于背景噪声谱N(f)的常数γ倍的频带是相比于其它声音（诸如辅音）背景噪声占主要的频带，因此不执行谱增强。
辅音增强单元28基于来自辅音增强水平计算单元27的比较结果，仅对于噪声抑制谱S(f)的值大于乘以常数γ的背景噪声谱N(f)的值的频率，将输入谱乘以增强量。
因此，对于背景噪声占主要的谱不执行增强，因此可以增强声音的辅音部分，以使得在仅辅音被增强的状态听见增强后的声音的质量。
然而，如果执行了增强的谱部分丢失，则存在生成称为音乐噪声的刺耳噪声的可能性，因此期望在频率方向上执行增强量的内插。例如，可基于通过将噪声抑制谱S(f)的值与乘以常数γ的背景噪声谱N(f)的值进行比较而获得的结果来执行增强量的内插。
在图6中，以上已描述了常数γ是大于1的值的示例，但是常数γ可小于1。另外，常数γ的值可被设置为对于每个频率不同。
以此方式，在辅音帧中，如果仅对于背景噪声不占主要的频带执行谱增强，则从增强后的输入谱获得例如图7所示的输出信号。另外，在图7中，纵轴表示幅度，并且横轴表示时间。
在图7中，箭头A61指示辅音部分增强之前的输入信号的时间波形，并且箭头A62指示辅音部分增强之后的输出信号的时间波形。
在该示例中，如箭头Q11至Q19所指示的，可以看出，输入信号的辅音部分的水平被增强，并且在输出信号中，与这些辅音部分相同的部分的水平大于输入信号。
在上述现有技术中，如果背景中存在噪声，则可能难以以高准确度检测辅音。另一方面，辅音增强装置11获得抑制了背景噪声的噪声抑制谱，并且基于通过使用至少噪声抑制谱所获得的特征量而检测频带中的辅音，从而使得可以以较高准确度检测辅音。
此外，在现有技术中，在声音信号的时域中执行放大，因此，如果背景中存在噪声，则不仅辅音而且噪声将被放大。在该情况下，如果回放放大后的声音，则听见如同噪声被增强而不是辅音被增强的声音。因此，在现有技术中，没有执行将噪声纳入考虑的增强，因此将听见如同仅噪声灵敏度变强一样的、通过这样的放大所获得的声音。
另一方面，辅音增强装置11增强除了频域中辅音帧的背景噪声占主要的频带之外的频带，因此可以获得仅辅音被增强的声音。即，可以更有效地执行声音的增强。
此外，辅音增强装置11计算频域中的元音部分功率或当前帧功率，因此当计算功率时，可以通过选择性地使用特定频带（诸如排除了不包括声音的频带）而不是使用整个频带来计算功率，从而以高自由度执行处理。
<辅音增强处理>
同时，当将输入信号被提供到辅音增强装置11并且指示增强输入信号的辅音部分时，辅音增强装置11执行辅音增强处理并且生成输出信号。
现在将参照图8的流程图描述要辅音增强装置11执行的辅音增强处理。另外，针对输入信号的每个帧执行辅音增强处理。
在步骤S11中，时间频率变换单元21对所提供的输入信号执行时间频率变换，然后将所得到的输入谱提供到背景噪声估计单元22、噪声抑制谱计算单元23、辅音增强水平计算单元27和辅音增强单元28。
例如，将作为输入信号的要处理的帧的当前帧乘以窗函数，并且进一步使得乘以窗函数的信号经受离散傅立叶变换，以使得信号被变换为输入谱。
在步骤S12中，背景噪声估计单元22基于从时间频率变换单元21提供的输入谱而执行背景噪声估计，然后将通过执行背景噪声估计而获得的背景噪声谱提供到噪声抑制谱计算单元23和辅音增强水平计算单元27。
例如通过执行上述等式（1）或等式（2）的计算来获得背景噪声谱N(f)。
在步骤S13中，噪声抑制谱计算单元23基于从时间频率变换单元21提供的输入谱和从背景噪声估计单元22提供的背景噪声谱而获得噪声抑制谱。噪声抑制谱计算单元23然后将所获得的噪声抑制谱提供到音调强度计算单元24、特征量计算单元25和辅音增强水平计算单元27。例如通过执行上述等式（3）的计算来获得噪声抑制谱S(f)。
在步骤S14中，音调强度计算单元24基于从噪声抑制谱计算单元23提供的噪声抑制谱来计算输入信号的音调强度，然后将算出的音调强度提供到特征量计算单元25和辅音检测单元26。
在步骤S15中，特征量计算单元25至少使用从噪声抑制谱计算单元23提供的噪声抑制谱来计算特征量，然后将算出的特征量提供到辅音检测单元26。例如，特征量计算单元25将向量设置为特征量。通过将噪声抑制谱划分为多个子带以及通过布置如以上参照图5描述的每个频带的代表值来获得该向量。
在步骤S16中，辅音检测单元26通过执行辅音检测处理来指定当前帧的类型，然后将其结果提供到辅音增强水平计算单元27。
参照图9的流程图，现在将描述与图8中的步骤S16的处理对应的辅音检测处理。
在步骤S51中，辅音检测单元26将从特征量计算单元25提供的特征量代入线性判别式中。例如，构成特征量的每个元素bn被代入以上述等式（4）表示的线性判别式中。
在步骤S52中，辅音检测单元26确定通过将特征量代入线性判别式所获得的结果是否是负值。
在步骤S52中，如果确定代入结果是负值，则在步骤S53中，辅音检测单元26将当前帧视为辅音帧，并且将指示当前帧被视为辅音帧的事实的辅音检测结果提供到辅音增强水平计算单元27。当辅音检测结果被提供到辅音增强水平计算单元27时，辅音检测处理结束，然后处理进行到图8中的步骤S17。
另一方面，在步骤S52中，如果确定代入结果不是负值，则在步骤S54中，辅音检测单元26确定从音调强度计算单元24提供的音调强度是否大于预定阈值。
在步骤S54中，如果确定音调强度大于预定阈值，则在步骤S55中，噪声检测单元26将当前帧视为元音帧，并且将指示当前帧被视为元音帧的事实的辅音检测结果提供到辅音增强水平计算单元27。当辅音检测结果被提供到辅音增强水平计算单元27时，辅音检测处理结束，然后处理进行到图8中的步骤S17。
另外，在步骤S54中，如果确定音调强度小于或等于预定阈值，则在步骤S56中，辅音检测单元26将当前帧视为不是辅音帧也不是元音帧而是其它帧。辅音检测单元26然后将指示当前帧被视为其它帧的事实的辅音检测结果提供到辅音增强水平计算单元27。当辅音检测结果被提供到辅音增强水平计算单元27时，辅音检测处理结束，然后处理进行到图8中的步骤S17。
返回参照图8的流程图，在步骤S16中，如果执行了辅音检测，则在步骤S17中，辅音增强水平计算单元27执行增强量计算处理，并且将所得到的增强量提供到辅音增强单元28。
现在将参照图10的流程图描述与图8中的步骤S17的处理对应的增强量计算处理。
在步骤S81中，辅音增强水平计算单元27基于从辅音检测单元26提供的辅音检测结果而确定当前帧是否是辅音帧。
在步骤S81中，如果确定当前帧不是辅音帧，则在步骤S82中，辅音增强水平计算单元27基于从辅音检测单元26提供的辅音检测结果而确定当前帧是否是元音帧。
在步骤S82中，如果确定当前帧不是元音帧，即，确定当前帧是其它帧，则增强量计算处理结束而不输出输入谱的增强量，然后处理进行到图8中的步骤S18。在该情况下，当前帧不是辅音帧，因此在步骤S18中不执行输入谱的增强。
此外，在步骤S82中，如果确定当前帧是元音帧，则在步骤S83中，辅音增强水平计算单元27基于所保持的元音部分功率和从时间频率变换单元21提供的输入谱而更新元音部分功率。例如，包括当前帧的先前元音帧的输入谱的功率的平均值被设置为更新后的元音部分功率，并且被保持在辅音增强水平计算单元27中。
如果更新了元音部分功率，则增强量计算处理结束，然后处理进行到图8中的步骤S18。甚至在该情况下，当前帧也不是辅音帧，因此在步骤S18中不执行输入谱的增强。
此外，在步骤S81中，如果确定当前帧是元音帧，则执行步骤S84的处理。
换言之，在步骤S84中，辅音增强水平计算单元27基于所保持的元音部分功率和从时间频率变换单元21提供的输入谱而计算增强量，并且将算出的增强量提供到辅音增强单元28。例如通过执行上述等式（5）的计算来计算增强量。
在步骤S85中，辅音增强水平计算单元27对从背景噪声估计单元22提供的背景噪声谱和从噪声抑制谱计算单元23提供的噪声抑制谱进行比较，并且将比较结果提供到辅音增强单元28。
例如，如参照图6描述的，针对每个频率，将通过将背景噪声谱N(f)乘以常数γ而获得的值和噪声抑制谱S(f)的值进行比较。
如果背景噪声谱和噪声抑制谱之间的比较结果被提供到辅音增强单元28，则增强量计算处理结束，然后处理进行到图8中的步骤S18。
返回参照图8的流程图，在步骤S18中，辅音增强单元28通过将从辅音增强水平计算单元27提供的增强量乘以从时间频率变换单元21提供的输入谱来增强输入谱，并且将增强后的输入谱提供到频率时间变换单元29。
更具体地，辅音增强单元28基于从辅音增强水平计算单元27提供的比较结果，将除相对于输入谱的其它部分而言背景噪声占主要的频带之外的频带乘以增强量。
另外，如果确定当前帧不是元音帧，则不执行输入谱的增强。辅音增强单元28将从时间频率变换单元21提供的输入谱按原样提供到频率时间变换单元29而没有任何改变。
在步骤S19中，频率时间变换单元29通过对从辅音增强单元28提供的输入谱执行频率时间变换而将输入谱变换为作为时间信号的输出信号，并且输出该输出信号。当输出该输出信号时，辅音增强处理结束。
如上所述，辅音增强装置11获得抑制了背景噪声的噪声抑制谱，基于从噪声抑制谱获得的特征量而在频域中检测辅音，并且根据通过检测获得的结果来增强辅音帧。
以此方式，使用噪声抑制谱在频域中检测辅音，从而以较高准确度检测辅音。另外，可以通过在频域中增强除辅音帧的背景噪声占主要的频带之外的频带来更有效地执行声音增强。
<第一实施例的变型例1>
<辅音增强装置的示例性配置>
尽管以上描述了基于输入谱来计算增强量，但是可基于输入信号而在时域中计算增强量。
在这样的情况下，辅音增强装置11被配置为例如如图11所示。在图11中，与图1中的部分对应的部分以相同的附图标记来表示，并且适当地省略对这些部分的重复说明。
图11所示的辅音增强装置11具有与图1所示的辅音增强装置11相同的配置，除了所提供的输入信号还被提供到辅音增强水平计算单元27之外。
在图11所示的辅音增强装置11中，辅音增强水平计算单元27基于所提供的输入信号计算被视为辅音帧的当前帧的输入信号的时域中的元音部分功率或功率。因此，根据作为时间信号的输入信号来计算等式（5）所示的增强量。另外，例如，输入信号的功率可以是均方根（RMS）等。
另外，时间频率变换单元21将通过执行时间频率变换而获得的输入谱提供到背景噪声估计单元22、噪声抑制谱计算单元23和辅音增强单元28。
<第一实施例的变型例2>
<辅音增强装置的示例性配置>
此外，尽管以上描述了基于噪声抑制谱来计算输入信号的音调强度，但是可基于输入信号在时域中计算音调强度。
在这样的情况下，辅音增强装置11被配置为例如如图12所示。在图12中，与图1中的部分对应的部分以相同的附图标记来表示，并且适当地省略对这些部分的重复说明。
图12所示的辅音增强装置11具有与图1所示的辅音增强装置11相同的配置，除了所提供的输入信号也被提供到音调强度计算单元24之外。
在图12所示的辅音增强装置11中，音调强度计算单元24通过确定作为所提供的时间信号的输入信号的自相关性而计算音调强度，并且将算出的音调强度提供到特征量计算单元25和辅音检测单元26。换言之，在音调强度计算单元24中，在时域中，基于输入信号算出的自相关系数的值按原样被设置为音调强度而没有任何改变。
另外，噪声抑制谱计算单元23将通过噪声抑制获得的噪声抑制谱提供到特征量计算单元25和辅音增强水平计算单元27。
<第一实施例的变型例3>
<辅音增强装置的示例性配置>
此外，可在时域中计算增强量和音调强度。在这样的情况下，辅音增强装置11被配置为例如如图13所示。在图13中，与图1中的部分对应的部分以相同的附图标记来表示，并且适当地省略对这些部分的重复说明。
图13所示的辅音增强装置11具有与图1所示的辅音增强装置11相同的配置，除了所提供的输入信号除了被提供到时间频率变换单元21外也被提供到音调强度计算单元24和辅音增强水平计算单元27。
在图13所示的辅音增强装置11中，时间频率变换单元21将通过执行时间频率变换而获得的输入谱提供到背景噪声估计单元22、噪声抑制谱计算单元23和辅音增强单元28。
音调强度计算单元24基于作为所提供的时间信号的输入信号而计算音调强度，并且将算出的音调强度提供到特征量计算单元25和辅音检测单元26。另外，噪声抑制谱计算单元23将通过噪声抑制而获得的噪声抑制谱提供到特征量计算单元25和辅音增强水平计算单元27。
另外，辅音增强水平计算单元27基于所提供的输入信号计算被视为辅音帧的当前帧的输入信号的元音部分功率或功率。换言之，在时域中计算增强量。
<第二实施例>
<辅音检测装置的示例性配置>
此外，以上描述了本技术被应用于用于从输入信号检测辅音部分以及增强辅音的谱的辅音增强装置的示例。然而，本技术的实施例可应用于被配置成从输入信号检测辅音帧的辅音检测装置。
在这样的情况下，辅音检测装置被配置为例如如图14所示。在图14中，与图1中的部分对应的部分以相同的附图标记来表示，并且适当地省略对这些部分的重复说明。
图14所示的辅音检测装置61被配置成包括时间频率变换单元21、背景噪声估计单元22、噪声抑制谱计算单元23、音调强度计算单元24、特征量计算单元25和辅音检测单元26。
时间频率变换单元21对所提供的输入信号执行时间频率变换，并且将所得到的输入谱提供到背景噪声估计单元22和噪声抑制谱计算单元 23。
背景噪声估计单元22基于从时间频率变换单元21提供的输入谱而执行背景噪声估计，并且将所得到的背景噪声谱提供到噪声抑制谱计算单元23。噪声抑制谱计算单元23基于从时间频率变换单元21提供的输入谱和从背景噪声估计单元22提供的背景噪声谱而获得噪声抑制谱，并且将所获得的噪声抑制谱提供到特征量计算单元25。
音调强度计算单元24基于作为所提供的时间信号的输入信号而在时域中计算音调强度，并且将算出的音调强度提供到特征量计算单元25和辅音检测单元26。
特征量计算单元25基于从噪声抑制谱计算单元23提供的噪声抑制谱，或者基于噪声抑制谱和从音调强度计算单元24提供的音调强度，而计算特征量，并且将算出的特征量提供到辅音检测单元26。
辅音检测单元26基于从音调强度计算单元24提供的音调强度和从特征量计算单元25提供的特征量而检测输入信号的辅音区间，并且将检测结果输出到后级。换言之，在辅音检测单元26中，例如，执行与以上参照图9的流程图描述的辅音检测处理类似的处理。
以此方式，甚至在辅音检测装置61中，如在辅音增强装置11的情况下一样，可以以较高准确度从输入信号检测辅音。
<第二实施例的变型例1>
<辅音检测装置的示例性配置>
此外，在图14所示的辅音检测装置61中，已描述了在时域中获得音调强度的示例，然而可在频域中获得音调强度。
在这样的情况下，辅音检测装置61被配置为例如如图15所示。在图15中，与图14中的部分对应的部分以相同的附图标记来表示，并且适当地省略对这些部分的重复说明。
图15所示的辅音检测装置61具有与图14所示的辅音检测装置61相同的配置，除了输入信号被提供到时间频率变换单元21并且噪声抑制谱从噪声抑制谱计算单元23被提供到音调强度计算单元24之外。
噪声抑制谱计算单元23将通过抑制背景噪声而获得的噪声抑制谱提供到音调强度计算单元24和特征量计算单元25。
音调强度计算单元24基于从噪声抑制谱计算单元23提供的噪声抑制谱而在频域中计算输入信号的音调强度，并且将算出的音调强度提供到特征量计算单元25和辅音检测单元26。
上述系列处理可以由硬件来执行但是也可以由软件来执行。当该系列处理由软件来执行时，构成这样的软件的程序被安装到计算机中。这里，表述“计算机”包括并入专用硬件的计算机和能够在安装了各种程序时执行各种功能的通用个人计算机等。
图16是示出使用程序执行上述系列处理的计算机的硬件配置示例的框图。
在计算机中，中央处理单元（CPU）301、只读存储器（ROM）302和随机存取存储器（RAM）303通过总线304相互连接。
输入/输出接口305也连接到总线304。输入单元306、输出单元307、存储单元308、通信单元309和驱动器310连接到输入/输出接口305。
输入单元306由键盘、鼠标、麦克风、成像装置等构成。输出单元307由显示器、扬声器等构成。存储单元308由硬盘、非易失性存储器等构成。通信单元309由网络接口等构成。驱动器310驱动诸如磁盘、光盘、磁光盘、半导体存储器等的可拆卸介质311。
在如上所述配置的计算机中，CPU301经由输入/输出接口305和总线304将存储在例如存储单元308中的程序加载到RAM303上，并且执行该程序。因此，执行上述系列处理。
由计算机（CPU301）执行的程序以记录在作为封装介质等的可拆卸介质311中来提供。另外，程序可经由有线或无线传输介质（诸如局域网、因特网或数字卫星广播）来提供。
在计算机中，通过将可拆卸介质311插入到驱动器310中，程序可以经由输入/输出接口305而被安装在存储单元308中。此外，程序可以由通信单元309经由有线或无线传输介质来接收并且被安装在存储单元308中。另外，程序可以预先安装在ROM302或存储单元308中。
应注意，要由计算机执行的程序可以是根据本说明书中描述的顺序以时间序列处理的程序或者是并行地或在必要的定时（诸如调用时）处理的程序。
本技术的实施例不限于上述实施例。本领域技术人员应理解，在所附权利要求或其等同方案的范围内，根据设计要求和其它因素，可进行各种修改、组合、子组合和变更。
例如，本公开可以采用通过经由网络由多个设备分配和连接一个功能而进行处理的云计算配置。
此外，上述流程图描述的每个步骤可以由一个设备来执行或者可以通过分配多个设备来执行。
另外，在多个处理被包括在一个步骤中的情况下，在这一个步骤中包括的多个处理可以由一个设备来执行或者可以通过分配多个设备来执行。
另外，本技术还可如下进行配置。
（1）一种声音处理装置，包括：
背景噪声估计单元，被配置成估计输入信号的背景噪声；
噪声抑制单元，被配置成基于通过估计所述背景噪声而获得的结果，来抑制所述输入信号的背景噪声；
特征量计算单元，被配置成基于抑制了所述背景噪声的所述输入信号而计算特征量；以及
辅音检测单元，被配置成基于所述特征量来从所述输入信号检测辅音。
（2）根据（1）所述的声音处理装置，
其中，所述背景噪声估计单元在频域中估计所述背景噪声，
其中，所述噪声抑制单元通过抑制从所述输入信号获得的输入谱中包括的背景噪声而获得噪声抑制谱，以及
其中，所述特征量计算单元基于所述噪声抑制谱而计算所述特征量。
（3）根据（2）所述的声音处理装置，其中，所述背景噪声估计单元通过获得先前输入谱的平均值而估计所述背景噪声。
（4）根据（2）或（3）所述的声音处理装置，还包括：
辅音增强单元，被配置成针对这样的频率增强所述输入谱：在该频率处，所述噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的值，所述背景噪声谱是通过对所述背景噪声的估计而获得的。
（5）根据（4）所述的声音处理装置，其中，所述辅音增强单元以预定增强量增强所述输入谱。
（6）根据（4）所述的声音处理装置，还包括：
辅音增强水平计算单元，被配置成基于所述输入信号的当前功率与所述输入信号的先前元音部分的功率的平均值之比而计算增强量，
其中，所述辅音增强单元以所述增强量增强所述输入谱。
（7）根据（5）或（6）所述的声音处理装置，其中，关于频率方向执行所述增强量的内插。
（8）根据（2）至（7）中任一项所述的声音处理装置，其中，所述噪声抑制单元通过使用谱减法而获得所述噪声抑制谱。
（9）根据（2）至（8）中任一项所述的声音处理装置，其中，所述输入信号的音调强度也用作特征量，以及
其中，所述辅音检测单元基于作为所述特征量的音调强度和根据所述噪声抑制谱算出的特征量而从所述输入信号检测辅音。
（10）根据（9）所述的声音处理装置，其中，所述音调强度由在音调频率的位置和所述音调频率的谐波频率的位置生成所述噪声抑制谱的峰的程度来表示。
（11）根据（9）所述的声音处理装置，其中，所述音调强度是所述输入信号的自相关系数值。
（12）根据（2）至（11）中任一项所述的声音处理装置，其中，所述特征量计算单元将所述噪声抑制谱的频带划分为多个子带，并且基于所述子带中的所述噪声抑制谱的代表值而计算所述特征量。
（13）根据（12）所述的声音处理装置，其中，所述噪声抑制谱是功率谱。
（14）根据（12）所述的声音处理装置，其中，所述噪声抑制谱是幅度谱。
（15）根据（12）至（14）中任一项所述的声音处理装置，其中，所述代表值是所述子带中的所述噪声抑制谱的平均值。
（16）根据（12）至（14）中任一项所述的声音处理装置，其中，所述代表值是所述子带中的所述噪声抑制谱的最大值。
（17）根据（12）至（16）中任一项所述的声音处理装置，其中，所述特征量计算单元计算所述噪声抑制谱中的所述子带的代表值之间的时间差分值作为所述特征量。

资源描述

《声音处理装置、声音处理方法和程序.pdf》由会员分享，可在线阅读，更多相关《声音处理装置、声音处理方法和程序.pdf（36页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103886865 A (43)申请公布日 2014.06.25 CN 103886865 A (21)申请号 201310684752.X (22)申请日 2013.12.13 2012-277662 2012.12.20 JP G10L 21/02(2013.01) H04R 27/02(2006.01) (71)申请人索尼公司地址日本东京都 (72)发明人东山惠祐 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人杜诚王娜丽 (54) 发明名称声音处理装置、声音处理方法和程序 (57) 摘要提供了一种声音处理装置、声音处。

2、理方法和程序。该声音处理装置包括：背景噪声估计单元，被配置成估计输入信号的背景噪声；噪声抑制单元，被配置成基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；特征量计算单元，被配置成基于抑制了背景噪声的输入信号而计算特征量；以及辅音检测单元，被配置成基于特征量从输入信号检测辅音。 (30)优先权数据 (51)Int.Cl. 权利要求书 2 页说明书 17 页附图 16 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书17页附图16页 (10)申请公布号 CN 103886865 A CN 10388686。

3、5 A 1/2 页 2 1. 一种声音处理装置，包括：背景噪声估计单元，被配置成估计输入信号的背景噪声；噪声抑制单元，被配置成基于通过估计所述背景噪声而获得的结果，来抑制所述输入信号的背景噪声；特征量计算单元，被配置成基于抑制了所述背景噪声的所述输入信号而计算特征量；以及辅音检测单元，被配置成基于所述特征量来从所述输入信号检测辅音。 2. 根据权利要求 1 所述的声音处理装置，其中，所述背景噪声估计单元在频域中估计所述背景噪声，其中，所述噪声抑制单元通过抑制从所述输入信号获得的输入谱中包括的背景噪声而获得噪声抑制谱，以及其中，所述特征量计算单元基。

4、于所述噪声抑制谱而计算所述特征量。 3. 根据权利要求 2 所述的声音处理装置，其中，所述背景噪声估计单元通过获得先前输入谱的平均值而估计所述背景噪声。 4. 根据权利要求 3 所述的声音处理装置，还包括：辅音增强单元，被配置成针对这样的频率增强所述输入谱：在该频率处，所述噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的值，所述背景噪声谱是通过对所述背景噪声的估计而获得的。 5. 根据权利要求 4 所述的声音处理装置，其中，所述辅音增强单元以预定增强量增强所述输入谱。 6. 根据权利要求 4 所述的声音处理装置，还包括：辅音增强水平计算单元，被配置成基。

5、于所述输入信号的当前功率与所述输入信号的先前元音部分的功率的平均值之比而计算增强量，其中，所述辅音增强单元以所述增强量增强所述输入谱。 7. 根据权利要求 6 所述的声音处理装置，其中，关于频率方向执行所述增强量的内插。 8. 根据权利要求 2 所述的声音处理装置，其中，所述噪声抑制单元通过使用谱减法而获得所述噪声抑制谱。 9. 根据权利要求 2 所述的声音处理装置，其中，所述输入信号的音调强度也用作特征量，以及其中，所述辅音检测单元基于作为所述特征量的音调强度和根据所述噪声抑制谱算出的特征量而从所述输入信号检测辅音。 10. 根据权利要求 9 所述的声音处理装置。

6、，其中，所述音调强度由在音调频率的位置和所述音调频率的谐波频率的位置生成所述噪声抑制谱的峰的程度来表示。 11. 根据权利要求 9 所述的声音处理装置，其中，所述音调强度是所述输入信号的自相关系数值。 12. 根据权利要求 2 所述的声音处理装置，其中，所述特征量计算单元将所述噪声抑制谱的频带划分为多个子带，并且基于所述子带中的所述噪声抑制谱的代表值而计算所述特征量。 13. 根据权利要求 12 所述的声音处理装置，其中，所述噪声抑制谱是功率谱。权利要求书 CN 103886865 A 2 2/2 页 3 14. 根据权利要求 12 所述的声音处理装置，其。

7、中，所述噪声抑制谱是幅度谱。 15. 根据权利要求 12 所述的声音处理装置，其中，所述代表值是所述子带中的所述噪声抑制谱的平均值。 16. 根据权利要求 12 所述的声音处理装置，其中，所述代表值是所述子带中的所述噪声抑制谱的最大值。 17. 根据权利要求 12 所述的声音处理装置，其中，所述特征量计算单元计算所述噪声抑制谱中的所述子带的代表值之间的时间差分值作为所述特征量。 18. 一种声音处理方法，包括：估计输入信号的背景噪声；基于通过估计所述背景噪声而获得的结果，来抑制所述输入信号的背景噪声；基于抑制了所述背景噪声的所述输入信号而计算特征量；以及。

8、基于所述特征量从所述输入信号检测辅音。 19. 一种用于使得计算机执行以下处理的程序：估计输入信号的背景噪声；基于通过估计所述背景噪声而获得的结果，来抑制所述输入信号的背景噪声；基于抑制了所述背景噪声的所述输入信号而计算特征量；以及基于所述特征量从所述输入信号检测辅音。权利要求书 CN 103886865 A 3 1/17 页 4 声音处理装置、声音处理方法和程序 0001 对相关申请的交叉引用 0002 该申请要求 2012 年 12 月 20 日提交的日本优先权专利申请 JP2012-277662 的权益，其全部内容通过引用合并于此。技术领域 000。

9、3 本技术涉及一种声音处理装置、声音处理方法和程序。更具体地，本技术涉及一种能够以更高准确度检测辅音的声音处理装置、声音处理方法和程序。背景技术 0004 近年来，随着老龄化社会的发展，越来越多的人正遭受年龄相关的听力损失。在年龄相关的听力损失中，在高频带的听觉灵敏度趋于劣化，因此存在听见话音尤其是辅音变得困难的许多示例。 0005 因此，作为使得较容易听见辅音的技术，存在通过使用均衡器而增强存在输入信号的辅音的频带的技术。然而，在该技术中，通常在与输入信号的类型无关的情况下执行该频带的增强，因此，尽管增强了辅音，但是除辅音之外的声音的质量被改变，。

10、从而变得难以听见该声音。 0006 此外，随着便携式电话的发展，变得能够在任何时间任何地点使用便携式电话进行对话。然而，这也意味着扬声器更可能处于有噪声的环境中。声音信号的辅音部分与其元音部分相比具有相对少的功率。因此，由于辅音部分被埋没在噪声中的事实而降低了声音的清晰度，因此出现难以听见对话语音的情形。特别地，对于具有年龄相关听力损失的人，已知听见声音的容易性受到背景噪声的幅度的影响，因此期望一种用于使得甚至在有噪声的环境中也较容易地听见声音的技术。 0007 例如，如果噪声较大，则存在用于通过使用噪声抑制技术减小噪声来相对增加声音的 SN 比（信噪比。

11、）的技术。然而，在该技术中，随着 SN 比的增加，声音本身的质量通常将被改变，并且语音清晰度或可懂度趋于劣化。另外，当说话者从开始以模糊的语音咕哝时，噪声抑制技术是无用的。 0008 鉴于以上情形，需要提供一种检测和增强辅音的技术，并且已提出了用于检测和增强辅音的技术。 0009 作为这样的技术的一个示例，提出了通过利用多个时间帧提取多个帧信号以及通过计算和比较帧信号的平均功率来检测和增强辅音的技术（例如，参考日本未审查专利申请公布第 2010-091897 号和日本专利第 04876245 号）。发明内容 0010 在日本未审查专利申请公布第 2010-0。

12、91897 号和日本专利第 04876245 号所公开的技术中，音节的辅音区间或长度是先前定义的，并且仅对应于该定义的帧被视为辅音。然而，实际的声音不一定遵从该定义。特别地，其定义根据语言而变化，因此算法的语言依赖说明书 CN 103886865 A 4 2/17 页 5 性将变高。 0011 此外，仅通过帧信号的功率的比较来执行辅音的检测，因此如果功率由于背景噪声而改变，则可能难以正确地检测辅音。 0012 如上所述，在检测辅音的上述方法中，对于在辅音的背景中存在噪声的信号，难以以高准确度检测辅音。 0013 本技术的实施例是鉴于这样的情形而做出的。期望。

13、以较高准确度检测辅音。 0014 根据本公开的实施例，提供了一种声音处理装置，该声音处理装置包括：背景噪声估计单元，被配置成估计输入信号的背景噪声；噪声抑制单元，被配置成基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；特征量计算单元，被配置成基于抑制了背景噪声的输入信号而计算特征量；以及辅音检测单元，被配置成基于特征量来从输入信号检测辅音。 0015 背景噪声估计单元可在频域中估计背景噪声。噪声抑制单元可通过抑制从输入信号获得的输入谱中包括的背景噪声而获得噪声抑制谱。特征量计算单元可基于噪声抑制谱而计算特征量。 0016 背景噪声估计单。

14、元可通过获得先前输入谱的平均值而估计背景噪声。 0017 声音处理装置还可包括辅音增强单元，该辅音增强单元被配置成针对这样的频率增强所述输入谱：在该频率处，噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的值，该背景噪声谱是通过对背景噪声的估计而获得的。 0018 辅音增强单元可以以预定增强量来增强输入谱。 0019 声音处理装置还可包括辅音增强水平计算单元，被配置成基于输入信号的当前功率与输入信号的先前元音部分的功率的平均值之比而计算增强量。辅音增强单元可以以该增强量来增强输入谱。 0020 可关于频率方向执行增强量的内插。 0021 噪声抑制单元可通过使用谱减法而获得。

15、噪声抑制谱。 0022 输入信号的音调强度也可用作特征量。辅音检测单元可基于作为特征量的音调强度和根据噪声抑制谱算出的特征量而从输入信号检测辅音。 0023 音调强度可由在音调频率的位置和该音调频率的谐波频率的位置生成噪声抑制谱的峰的程度来表示。 0024 音调强度可以是输入信号的自相关系数值。 0025 特征量计算单元可将噪声抑制谱的频带划分为多个子带，并且基于子带中的噪声抑制谱的代表值而计算特征量。 0026 噪声抑制谱可以是功率谱。 0027 噪声抑制谱可以是幅度谱。 0028 代表值可以是子带中的噪声抑制谱的平均值。 0029 代表值可以是子带中的噪声抑制谱的最大值。 003。

16、0 特征量计算单元可计算噪声抑制谱中的子带的代表值之间的时间差分值作为特征量。 0031 根据本公开的实施例，提供了一种声音处理方法，该声音处理方法包括：估计输入信号的背景噪声；基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；基说明书 CN 103886865 A 5 3/17 页 6 于抑制了背景噪声的输入信号而计算特征量；以及基于特征量从输入信号检测辅音。 0032 根据本公开的实施例，提供了一种用于使得计算机执行如下处理的程序：估计输入信号的背景噪声；基于通过估计背景噪声而获得的结果，来抑制输入信号的背景噪声；基于抑制了背景噪。

17、声的输入信号而计算特征量；以及基于特征量从输入信号检测辅音。 0033 根据本公开的一个或更多个实施例，可以以高准确度检测辅音。附图说明 0034 图 1 是示出辅音增强装置的示例性配置的图； 0035 图 2 是用于说明时间频率变换的图； 0036 图 3 是用于说明背景噪声的估计的图； 0037 图 4 是用于说明噪声抑制谱的计算的图； 0038 图 5 是用于说明特征量的计算的图； 0039 图 6 是用于说明输入谱的增强的图； 0040 图 7 是示出通过增强输入信号而获得的结果的示例的图； 0041 图 8 是用于说明辅音增强处理的流程图； 0042 图 9 。

18、是用于说明辅音检测处理的流程图； 0043 图 10 是用于说明增强量计算处理的流程图； 0044 图 11 是示出辅音增强装置的另一示例性配置的图； 0045 图 12 是示出辅音增强装置的另一示例性配置的图； 0046 图 13 是示出辅音增强装置的另一示例性配置的图； 0047 图 14 是示出辅音检测装置的示例性配置的图； 0048 图 15 是示出辅音检测装置的另一示例性配置的图；以及 0049 图 16 是示出计算机的示例性配置的图。具体实施方式 0050 在下文中，将参照附图详细描述本技术的优选实施例。注意，在该说明书和附图中，具有基本上相同的功能和结构。

19、的结构元件以相同的附图标记来表示，并且省略对这些结构元件的重复说明。 0051 0052 0053 本技术的实施例可以被配置成通过基于具有抑制后的背景噪声的信号检测辅音，甚至在背景中存在噪声时仍以高准确度检测辅音。另外，本技术的实施例允许通过基于输入信号、估计的背景噪声和噪声抑制后的信号的水平来确定增强量而在考虑噪声的情况下适当地执行辅音的增强。 0054 图 1 是示出根据应用本技术的辅音增强装置的实施例的示例性配置的图。 0055 辅音增强装置 11 接收作为声音信号的输入信号，从输入信号检测辅音部分，基于通过检测获得的结果而增强辅音，并且输出所得到的声音信号作为输出。

20、信号。 0056 辅音增强装置11包括时间频率变换单元21、背景噪声估计单元22、噪声抑制谱计算单元23、音调强度计算单元24、特征量计算单元25、辅音检测单元26、辅音增强水平计算说明书 CN 103886865 A 6 4/17 页 7 单元 27、辅音增强单元 28 和频率时间变换单元 29。 0057 时间频率变换单元 21 对所提供的输入信号执行时间频率变换，并且将所得到的输入谱提供到背景噪声估计单元22、噪声抑制谱计算单元23、辅音增强水平计算单元27和辅音增强单元 28。 0058 背景噪声估计单元 22 基于从时间频率变换单元 21 提供的输入谱。

21、而估计背景噪声，并且将所得到的背景噪声谱提供到噪声抑制谱计算单元 23 和辅音增强水平计算单元 27。 0059 背景噪声是输入信号的声音当中的与说话者的话音等不同的噪声分量（诸如环境声音）。另外，背景噪声谱是背景噪声的谱。 0060 噪声抑制谱计算单元23基于从时间频率变换单元21提供的输入谱和从背景噪声估计单元 22 提供的背景噪声谱而抑制包括在输入谱中的背景噪声分量，并且获得噪声抑制谱。噪声抑制谱计算单元23将所得到的噪声抑制谱提供到音调强度计算单元24、特征量计算单元 25 和辅音增强水平计算单元 27。 0061 音调强度计算单元24基于从噪声抑制谱计算单元2。

22、3提供的噪声抑制谱而计算输入信号的音调强度，并且将算出的音调强度提供到特征量计算单元 25 和辅音检测单元 26。另外，在以下，将描述从噪声抑制谱获得音调强度的情况。然而，可从噪声抑制之前的谱或作为时域中的信号的输入信号来获得音调强度。 0062 特征量计算单元 25 基于从噪声抑制谱计算单元 23 提供的噪声抑制谱，或者基于噪声抑制谱和从音调强度计算单元24提供的音调强度，而计算特征量。特征量计算单元25 然后将算出的特征量提供到辅音检测单元 26。特征量计算单元 25 算出的特征量用于从输入信号检测辅音。 0063 辅音检测单元26基于从音调强度计算单元24提供的音。

23、调强度和从特征量计算单元 25 提供的特征量而检测输入信号的辅音区间，并且将检测结果提供到辅音增强水平计算单元 27。 0064 更具体地，在检测辅音区间时，指定要处理的输入信号的帧是辅音的帧、元音的帧还是其它帧（即，既不是辅音也不是元音的帧）。在以下描述中，辅音的帧将被特别地称为辅音帧，并且元音的帧将被特别地称为元音帧。 0065 辅音增强水平计算单元 27 基于来自时间频率变换单元 21 的输入谱、来自背景噪声估计单元 22 的背景噪声谱、来自噪声抑制谱计算单元 23 的噪声抑制谱和来自辅音检测单元 26 的检测结果而计算增强量。换言之，计算通过辅音检测。

24、为辅音帧的帧的增强量，然后将算出的增强量从辅音增强水平计算单元 27 提供到辅音增强单元 28。 0066 辅音增强单元28通过将从时间频率变换单元21提供的输入谱乘以从辅音增强水平计算单元 27 提供的增强量而增强输入谱的辅音部分，并且将辅音部分被增强的输入谱提供到频率时间变换单元 29。 0067 频率时间变换单元 29 对从辅音增强单元 28 提供的输入谱执行频率时间变换，并且输出所得到的输出时间波形作为输出信号。 0068 0069 接下来，现在将描述由构成图 1 所示的辅音增强装置 11 的各个单元执行的处理。 0070 现在将描述由被配置成将输入信号变换为输入谱的时。

25、间频率变换单元 21 执行的说明书 CN 103886865 A 7 5/17 页 8 处理。 0071 作为示例，假设具有以图 2 中的箭头 A11 指示的波形的输入信号被提供到时间频率变换单元 21。另外，在以箭头 A11 指示的输入信号中，水平方向表示时间，并且垂直方向表示幅度。 0072 当以箭头A11指示的输入信号被提供到时间频率变换单元21时，时间频率变换单元 21 允许构成输入信号的多个预定连续样本合并为帧。在该示例中，输入信号的区间 L11 至 L19 中的每个对应于单个帧。 0073 此外，时间频率变换单元21针对输入信号的每个帧使用窗（即，具有。

26、以箭头A12指示的形状的窗函数）执行加窗。这里，在以箭头 A12 指示的窗函数中，垂直方向表示窗函数的值，并且水平方向表示时间（即，要与窗函数的值相乘的输入信号的样本位置）。 0074 另外，可使用正弦窗来执行加窗，或者可使用汉宁窗、汉明窗等来执行加窗。然而，加窗需要与执行将频率信号变换回时间信号的逆变换的时间匹配。 0075 当通过将构成输入信号的帧的每个样本乘以窗函数来执行加窗时，时间频率变换单元 21 对所得到的信号执行零填充。例如，如果使用以箭头 A12 指示的窗函数对输入信号的区间 L11 执行加窗并且对所得到的信号执行零填充，则获得以箭头 A1。

27、3 指示的信号。 0076 在以箭头 A13 指示的信号中，垂直方向表示幅度，并且水平方向表示时间。在以箭头 A13 指示的信号中，区间 L31 是执行零填充的部分，并且该部分中的信号的幅度变为零。另外，为了增加后级的时间频率变换的频率分辨率，零填充之后的信号的长度可以例如是窗的长度的两倍、四倍或更多倍。 0077 此外，在执行零填充之后，时间频率变换单元 21 对通过零填充所获得的信号执行诸如离散傅立叶变换的时间频率变换，并且将时间信号变换为作为频率信号的输入谱。例如，如果对以箭头 A13 指示的信号执行离散傅立叶变换，则获得以箭头 A14 指示的输入谱。。

28、另外，在以箭头 A14 指示的输入谱中，水平方向表示频率，并且垂直方向表示功率或幅度。 0078 以此方式，从输入信号的帧获得的输入谱可以是功率谱，或者可以是幅度谱或对数幅值谱。另外，用于获得输入谱的时间频率变换的示例包括但不限于离散傅立叶变换、离散余弦变换等。 0079 另外，在图 2 的示例中，为了增加频率分辨率，通过由于零填充的过采样而使得频率变换的长度比窗的长度长，但是不一定要执行零填充。 0080 上述处理允许针对输入信号的每个帧获得输入谱。 0081 0082 随后，将给出要由背景噪声估计单元 22 执行的背景噪声估计的描述。 0083 例如，如图。

29、 3 所示，在时间频率变换单元 21 中，假设分别以箭头 22 至 26 指示的输入谱 X(t-1,f) 至 X(t-5,f) 分别是从构成以箭头 A21 指示的输入信号的五个帧 F(t-1) 至 F(t-5) 获得的。在图 3 中，在以箭头 A21 指示的输入信号中，垂直方向表示幅度，并且水平方向表示时间。另外，在对应于每个帧的输入谱 X(t,f) 中， t 表示时间索引，并且 f 表示频率。 0084 背景噪声估计单元 22 获得由时间频率变换单元 21 获得的输入谱 X(t-1,f) 至 X(t-5,f) 中的每个的平均值，并且将所获得的输入谱的平均值设置为背景噪声。

30、谱 N(t,f)。在图 3 的示例中，以箭头 A27 指示的谱表示通过计算输入谱 X(t-1,f) 至 X(t-5,f) 的平均说明书 CN 103886865 A 8 6/17 页 9 值而获得的背景噪声谱 N(t,f)。 0085 以此方式，在背景噪声估计单元 22 中，通过将输入信号的预定数量的先前帧的输入谱的平均值设置为背景噪声来执行背景噪声的估计。一般地，对于相对长的时段，通过取声音信号的每个帧的谱的平均值，知道该平均值基本上变为噪声谱。 0086 例如，在先前 M 个帧的输入谱的平均值被设置为背景噪声谱的情况下，背景噪声谱估计单元 22 通过计算以下。

31、等式（1）来计算时间索引被设置为 t 的帧的背景噪声谱 N(t,f)。 0087 0088 在等式（1）中， X(t,f) 表示时间索引被设置为 t 的帧的输入谱。 0089 此外，当计算背景噪声谱时，具有大的电平变化的帧被视为除噪声之外的声音信号，因此可从用于计算背景噪声谱的平均值计算处理中排除该帧的输入谱。 0090 可例如基于帧的输入谱的功率与其相邻帧的输入谱的功率之比来指定具有大的电平变化的帧。另外，可通过对输入谱应用阈值处理等来指定具有大的电平变化的帧。 0091 另外，可使用其它方法来计算背景噪声谱而不限于等式（1）的计算。例如，取代将预定数量的先前帧。

32、的输入谱的平均值设置为背景噪声谱，可针对连续受到先前帧影响的每个帧更新背景噪声谱。 0092 在这样的情况下，例如，背景噪声估计单元 22 通过计算以下等式（2）来计算背景噪声谱 N(t,f)。 0093 0094 在等式（2）中， n(f) 和 x(f) 表示预定系数。 0095 因此，在等式（2）中，通过紧接的先前帧的背景噪声谱和当前帧的输入谱的加权求和来计算当前帧的背景噪声谱。例如，在需要减小具有大的电平变化的帧的贡献度的情况下，对于具有大的电平变化的帧可将系数 n(f) 的值设置为诸如零的小值。 0096 此外，在下文中，当不需要特别区分时间索引时。

33、，背景噪声谱 N(t,f) 被简称为背景噪声谱N(f)。类似地，在下文中，当不需要特别区分时间索引时，输入谱X(t,f)被简称为输入谱 X(f)。 0097 0098 接下来，将给出由噪声抑制谱计算单元 23 执行的噪声抑制谱的计算的描述。 0099 作为示例，通过如图 4 所示的谱减法来计算噪声抑制谱。 0100 在图 4 中，以箭头 A41 至 A43 指示的谱分别表示噪声抑制谱 S(f)、输入谱 X(f) 和背景噪声谱N(f)。另外，在图4所示的每个谱中，纵轴表示功率或幅度，并且横轴表示频率。 0101 在谱减法中，假设噪声抑制谱 S(f) 和背景噪声谱。

34、 N(f) 的和是输入谱 X(f)。噪声抑制谱 S(f) 是声音部分的谱，并且背景噪声谱 N(f) 是背景噪声的分量。 0102 因此，通过从输入谱 X(f) 减去背景噪声谱 N(f) 获得的谱成为通过估计而获得的噪声抑制谱 S(f)。在图 4 中，输入谱 X(f) 中的阴影线部分表示包括在输入谱 X(f) 中的背说明书 CN 103886865 A 9 7/17 页 10 景噪声分量。 0103 更具体地，噪声抑制谱计算单元 23 例如通过基于输入谱 X(f) 和背景噪声谱 N(f) 计算以下等式（3）来计算噪声抑制谱 S(f)。 0104 0105 在等式（3）中。

35、， (f) 是用于确定噪声抑制量的系数，并且 (f) 的值可对每个频率不同或者可对于所有频率相同。另外，在等式（3）中， i 是用于确定噪声抑制的域的值。 0106 以此方式获得的噪声抑制谱 S(f) 可以是功率谱或幅度谱。 0107 0108 此外，将给出由音调强度计算单元 24 执行的音调强度计算的描述。 0109 根据噪声抑制谱 S(f) 计算音调强度。 0110 音调强度由音调频率和音调频率的谐波频率中存在作为功率谱或幅度谱的噪声抑制谱的多少峰来表示。换言之，音调强度由在音调频率的位置和在音调频率的谐波频率的位置生成噪声抑制谱的峰的程度来表示。 0111 因此，基于。

36、峰是否存在于音调频率的位置中以及峰是否存在于音调频率的谐波频率的位置中（即，存在多少具有峰的谐波频率）来确定音调强度。 0112 通过基于峰频率附近的谱的曲率获得作为峰的可能性来确定是否是峰。另外，可通过基于峰频率中的谱及其周围频率中的谱或周围谱的平均值之间之比或差获得作为峰的可能性来确定是否是峰。 0113 0114 随后，将给出由特征量计算单元 25 执行的特征量计算的描述。 0115 可基于噪声抑制谱和音调强度来计算特征量。然而，在下文中，将描述基于噪声抑制谱计算特征量的示例。 0116 作为示例，假设图 5 所示的噪声抑制谱 S(f) 从噪声抑制谱计算单元 2。

37、3 提供到特征量计算单元 25。另外，在图 5 中，纵轴表示功率或幅度，并且横轴表示频率。 0117 另外，在噪声抑制谱 S(f) 中，每个矩形表示单个频率（频率窗口（frequency bin））中的谱的值。在该示例中，十七个频率窗口中的谱的值被包括在噪声抑制谱 S(f) 中。 0118 如果这样的噪声抑制谱 S(f) 被提供到特征量计算单元 25，则特征量计算单元 25 将噪声抑制谱 S(f) 的频带划分为多个子带。换言之，噪声抑制谱 S(f) 的频带被划分为以虚线矩形表示的十七个子带BD11至BD17。例如，最低频率侧的两个频率窗口被捆绑在一起并且其成为。

38、子带 BD11。 0119 在划分为子带的方法中，每个子带可以以一致宽度来划分或者可以以对听觉滤波器进行模拟的非一致宽度来划分。在图 5 的示例中，子带 BD11 至 BD14 中的每个被配置成包括两个频率窗口，并且子带 BD15 至 BD17 中的每个被配置成包括三个频率窗口。 0120 此外，对于构成噪声抑制谱S(f)的每个子带，特征量计算单元25将子带中的谱值的最大值设置为子带的代表值，并且将通过组合每个子带的代表值而获得的向量设置为噪声抑制谱 S(f) 的特征量。说明书 CN 103886865 A 10 8/17 页 11 0121 例如，当子带 BD11。

39、至 BD17 的代表值分别为 55、 50、 40、 30、 20、 25 和 20 时，通过顺序布置这些值而获得的向量 b=55,50,40,30,20,25,20 被设置为特征量。 0122 这里，尽管描述了将子带中的谱值的最大值设置为代表值的示例，但是可将子带中的谱值的平均值设置为代表值。另外，作为用于检测辅音的开始的特征量，可使用噪声抑制谱 S(f) 的每个子带的代表值的时间差分值，即，时间方向上的相邻帧的同一子带的代表值的差分值。 0123 0124 接下来，将给出由辅音检测单元 26 执行的辅音帧的检测的描述。 0125 例如，辅音检测单元 26 通过。

40、基于从特征量计算单元 25 提供的特征量执行线性判别来确定输入信号的要处理的当前帧是否是辅音帧。 0126 具体地，例如，辅音检测单元 26 通过将特征量代入由以下等式（4）表示的线性判别式 Y 来执行判别。 0127 0128 在等式（4）中， an（其中， 1 n N）和 a0分别表示预先学习的常数和系数。辅音检测单元 26 保持由这些系数和常数构成的系数向量。另外， bn（其中， 1 n N）表示以下向量的每个元素，该向量是特征量计算单元 25 算出的特征量。 0129 如果从特征量计算单元25提供的特征量被代入由等式（4）表示的线性判别式Y中并且所得到的。

41、值是负的，即， Y=anbn+a0 0139 另外，将描述由辅音增强水平计算单元 27 执行的增强量计算和由辅音增强单元 28 执行的输入谱增强。 0140 例如，辅音增强水平计算单元 27 计算并保持输入信号的先前元音帧的功率的平均值作为元音部分功率。元音帧的功率被设置为例如元音帧的输入谱中的每个频率的功率的平均值等。 0141 如果要处理的当前帧是元音帧，则辅音增强水平计算单元 27 更新其中所保持的元音部分功率。 0142 具体地，如果基于从辅音检测单元 26 提供的辅音检测结果将当前帧指定为元音帧，则辅音增强水平计算单元 27 基于所保持的元音部分和从时间频率变换。

42、单元 21 提供的当前帧的输入谱而更新元音部分功率。 0143 如果基于从辅音检测单元 26 提供的辅音检测结果将当前帧指定为辅音帧，则辅音增强水平计算单元 27 使用所保持的元音部分功率来计算增强量。 0144 例如，辅音增强水平计算单元 27 获得从时间频率变换单元 21 提供的当前帧的输入谱中的每个频率的功率的平均值，并且将所获得的平均值设置为当前帧功率。当前帧功率是输入谱的整个功率。辅音增强水平计算单元 27 然后通过计算以下等式（5）来计算当前帧的增强量。 0145 增强量 = 元音部分功率 / 当前帧功率(5) 0146 在等式（5）中，先前元音帧的功率的。

43、平均值与当前帧的输入谱的功率之比（百分比）被计算作为增强量。这是由于如果辅音部分的功率被增强到与元音部分的功率基本上相同的程度，则变得足够容易听见辅音。 0147 输入谱的增强量可包括其它值（例如，预定常数）而不限于通过等式（5）获得的值。另外，增强量可以是通过等式（5）获得的值和预定常数中的较大值或较小值中的任意值。 0148 此外，可根据回放实际经辅音增强的声音的环境来改变增强量。例如，在难以提供高频带的环境中进行回放的情况下，增强量可被设置得较大。在原始回放稍微大的高频带的环境中，增强量可被设置得较小。 0149 在辅音增强单元 28 中，使用。

44、以上述方式算出的增强量并且执行输入谱的增强。 0150 例如，当执行输入信号的增强时，如果以相同增强量对输入信号的整个频带或特定固定频带执行谱增强，则将不仅增强了辅音分量而且增强了噪声分量。因此，增强后的声音将是具有高噪声灵敏度的不舒服声音。 0151 因此，辅音增强装置 11 被配置成不对背景噪声占主要的谱执行增强。 0152 具体地，例如，如图 6 所示，辅音增强水平计算单元 27 被配置成仅在噪声抑制谱 S(f) 的值比背景噪声谱 N(f) 的值大常数倍数时才执行增强。 0153 在图 6 中，折线 C11 至 C13 分别表示噪声抑制谱 S(f)、背景噪声谱。

45、N(f) 以及乘以常数的背景噪声谱 N(f)。另外，在图 6 中，横轴表示频率，并且纵轴表示功率或幅度。 0154 在图 6 的示例中，针对每个频率，对以折线 C13 指示的、乘以预定常数的背景噪声谱 N(f) 的值和以折线 C11 指示的噪声抑制谱 S(f) 的值进行比较。换言之，辅音增强水说明书 CN 103886865 A 12 10/17 页 13 平计算单元 27 将乘以常数的背景噪声谱 N(f) 的值与噪声抑制谱 S(f) 的值进行比较，并且将比较结果和增强量提供到辅音增强单元 28。 0155 在该示例中，在图6中，在以向上指的箭头指示的频率中。

46、，噪声抑制谱S(f)比背景噪声谱 N(f) 大常数倍，因此增强该部分的谱。向上指的箭头表示频率分量被增强的状态。 0156 以此方式，噪声抑制谱 S(f) 和背景噪声谱 N(f) 的比较使得确定辅音帧中的功率或幅度比背景噪声大的频带是包括辅音分量的频带，即，与辅音有关的频带。 0157 另外，噪声抑制谱 S(f) 小于或等于背景噪声谱 N(f) 的常数倍的频带是相比于其它声音（诸如辅音）背景噪声占主要的频带，因此不执行谱增强。 0158 辅音增强单元 28 基于来自辅音增强水平计算单元 27 的比较结果，仅对于噪声抑制谱 S(f) 的值大于乘以常数的背景噪声。

47、谱 N(f) 的值的频率，将输入谱乘以增强量。 0159 因此，对于背景噪声占主要的谱不执行增强，因此可以增强声音的辅音部分，以使得在仅辅音被增强的状态听见增强后的声音的质量。 0160 然而，如果执行了增强的谱部分丢失，则存在生成称为音乐噪声的刺耳噪声的可能性，因此期望在频率方向上执行增强量的内插。例如，可基于通过将噪声抑制谱 S(f) 的值与乘以常数的背景噪声谱 N(f) 的值进行比较而获得的结果来执行增强量的内插。 0161 在图 6 中，以上已描述了常数是大于 1 的值的示例，但是常数可小于 1。另外，常数的值可被设置为对于每个频率不同。 0162。

48、以此方式，在辅音帧中，如果仅对于背景噪声不占主要的频带执行谱增强，则从增强后的输入谱获得例如图 7 所示的输出信号。另外，在图 7 中，纵轴表示幅度，并且横轴表示时间。 0163 在图 7 中，箭头 A61 指示辅音部分增强之前的输入信号的时间波形，并且箭头 A62 指示辅音部分增强之后的输出信号的时间波形。 0164 在该示例中，如箭头 Q11 至 Q19 所指示的，可以看出，输入信号的辅音部分的水平被增强，并且在输出信号中，与这些辅音部分相同的部分的水平大于输入信号。 0165 在上述现有技术中，如果背景中存在噪声，则可能难以以高准确度检测辅音。另一方面，辅音增强装置 11 获得抑制了背景噪声的噪声抑制谱，并且基于通过使用至少噪声抑制谱所获得的特征量而检测频带中的辅音，从而使得可以以较高准确度检测辅音。 0166 此外，在现有技术中，在声音信号的时域中执行放大，因此，如果背景中存在噪声，则不仅辅音而且噪声将被放大。在该情况下，如果回放放大后的声音，则听见如同噪声被增强而不是辅音被增强的声音。因此，在现有技术中，没有执行将噪声纳入考虑的增强，因此将听见如同仅噪声灵敏度变强一样的、通过这样的放大所获得的声。

展开阅读全文