语音信号处理方法及装置.pdf

摘要
申请专利号：	CN201210236881.8	申请日：	2012.07.10
公开号：	CN103544961A	公开日：	2014.01.29
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G10L 25/51申请日:20120710\|\|\|公开
IPC分类号：	G10L25/51(2013.01)I	主分类号：	G10L25/51
申请人：	中兴通讯股份有限公司
发明人：	王进军; 孙焘; 刘冬梅; 薛涛; 王霞; 姚远
地址：	518057 广东省深圳市南山区科技南路55号
优先权：
专利代理机构：	北京康信知识产权代理有限责任公司 11240	代理人：	余刚;梁丽超
PDF下载：	PDF下载

内容摘要

本发明公开了一种语音信号处理方法及装置，其中，该方法包括：获取语音信号帧的能量分布特性；根据该能量分布特性判断该语音信号帧是否为噪声帧。通过本发明，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。

权利要求书

权利要求书
1.  一种语音信号处理方法，其特征在于，包括：
获取语音信号帧的能量分布特性；
根据所述能量分布特性判断所述语音信号帧是否为噪声帧。

2.  根据权利要求1所述的方法，其特征在于，根据所述能量分布特性判断所述语音信号帧是否为噪声帧包括：
判断所述语音信号帧的能量分布是否集中；
在判断结果为否的情况下，确定所述语音信号帧为噪声帧。

3.  根据权利要求2所述的方法，其特征在于，判断所述语音信号帧的能量分布是否集中包括：
计算所述语音信号帧的频域语音峰的个数；
在所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。

4.  根据权利要求2或3所述的方法，其特征在于，判断所述语音信号帧的能量分布是否集中包括：
计算所述语音信号帧的语音峰能量比VPER；
在所述VPER小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中；其中，SPE1为第一语音峰能量，SPE2为第二语音峰能量。

5.  根据权利要求4所述的方法，其特征在于，所述语音峰能量通过以下公式计算：其中ENGi为第i子带能量，a和b分别为所述语音峰所占频带两端的子带。

6.  根据权利要求1至5中任一项所述的方法，其特征在于，在根据所述能量分布特性判断所述语音信号帧是否为噪声帧之后，还包括：
根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；
根据所述子带信噪比对所述语音信号帧进行自动增益。

7.  根据权利要求6所述的方法，其特征在于，根据所述子带信噪比对所述语音信号帧进行自动增益包括：
调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。

8.  根据权利要求7所述的方法，其特征在于，调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大包括：
Ratio=0.03×eSNRs(i,j)·|Es(m,i)|,]]>且
Gain=GatioGatio+1,]]>其中，
Gain为信号幅度增益；Ratio为信号增益相关系数；Es(m,i)为第m帧信号第i个子带的能量；SNRs(i,j)为第i帧第j个子带的子带信噪比。

9.  一种语音信号处理装置，其特征在于，包括：
第一获取模块，用于获取语音信号帧的能量分布特性；
判断模块，用于根据所述能量分布特性判断所述语音信号帧是否为噪声帧。

10.  根据权利要求9所述的装置，其特征在于，所述判断模块包括：
判断单元，用于判断所述语音信号帧的能量分布是否集中；
第一确定单元，用于在所述判断单元的判断结果为否的情况下，确定所述语音信号帧为噪声帧。

11.  根据权利要求10所述的装置，其特征在于，所述判断单元包括：
第一计算单元，用于计算所述语音信号帧的频域语音峰的个数；
第二确定单元，用于在所述第一计算单元计算出的所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。

12.  根据权利要求10或11所述的装置，其特征在于，所述判断单元包括：
第二计算单元，用于计算所述语音信号帧的语音峰能量比VPER；
第三确定单元，用于在所述第二计算单元计算出的所述VPER小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中。

13.  根据权利要求9至12中任一项所述的装置，其特征在于，所述装置还包括：
第二获取模块，用于根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；
自动增益模块，用于根据所述第二获取模块获取的所述子带信噪比对所述语音信号帧进行自动增益。

14.  一种语音信号处理方法，其特征在于，包括：
根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；
根据所述子带信噪比对所述语音信号帧进行自动增益。

15.  根据权利要求14所述的方法，其特征在于，根据所述子带信噪比对所述语音信号帧进行自动增益包括：
调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。

16.  根据权利要求15所述的方法，其特征在于，调整所述语音信号帧的自动增益系数随着所
述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大包括：
Ratio=0.03×eSNRs(i,j)·|Es(m,i)|,]]>且
Gain=GatioGatio+1,]]>其中，
Gain为信号幅度增益；Ratio为信号增益相关系数；Es(m,i)为第m帧信号第i个子带的能量；SNRs(i,j)为第i帧第j个子带的子带信噪比。

17.  一种语音信号处理装置，其特征在于，包括：
第三获取模块，用于根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；
第二自动增益模块，用于根据所述子带信噪比对所述语音信号帧进行自动增益。

说明书

说明书语音信号处理方法及装置
技术领域
本发明涉及通信领域，具体而言，涉及一种语音信号处理方法及装置。
背景技术
目前在生活中，人们对移动终端的语音通话功能及通话质量的要求越来越高，然而现实生活中的通话过程往往会受到背景噪声的干扰，尤其是一些公共场合如车站、广场、街道等。这些非平稳的强噪声对通话质量和语音清晰度有很大的影响，而传统的语音增强算法通常只针对平稳的或者变化很慢的噪声具有较好的效果，但是对变化较快的非平稳噪声的抑制效果很不理想，而且还会在抑制噪声的同时损失语音的清晰度。为了加强对背景噪声的跟踪和估计，相关技术中存在如下几种方法：
第一种，Donoho提出了典型阈值法，Donoho通过分析高斯白噪声在小波域的特征，根据经验和统计特性在小波域人为的设定一个阈值来区分噪声和实际信号。但是实际中噪声和语音并没有一个明显的阈值界限。
第二种，基于语音活动检测的方法，研究人员发现一段语音的最开始阶段是完全由背景噪声组成的，可以用这一段信号作为噪声的估计样本，并且通过语音活动检测，提取出语音间隔处的信号进行噪声样本更新。但是这同样是一种粗略的提取，只能跟踪变化缓慢的噪声信号。
这些方法都会造成语音帧和噪声帧的误判，从而产生一定的语音失真。
此外，为了提高带噪语音的清晰度，现有的技术如下：
第一种，基于清浊音判定的语音增强算法，在去噪前首先进行清浊音判定，清音集中了大部分语音的高频信号，是影响语音清晰度的主要成分，所以设置一个较低的阈值，对浊音设置一个稍大的阈值去除大部分噪声成分。但是在背景噪声较大的时候，清音往往被噪声淹没。
第二种，基于人耳掩蔽效应的去噪算法，通过计算估计掩蔽模型的阈值，对语音进行阈值去噪。但是在计算掩蔽阈值时就存在偏差，并且计算量会增加很多，增加了手机的运算负担。
这些算法虽然都起到了一定的效果，但是都很难针对每一帧语音内的噪声进行精确处理。
针对相关技术中对变化较快的非平稳噪声的判别效果较差的问题，目前尚未提出有效的解决方案。
发明内容
针对相关技术中对变化较快的非平稳噪声的判别效果较差的问题，目前尚未提出有效的解决方案，本发明提供了一种语音信号处理方法及装置，以至少解决上述问题。
根据本发明的一个方面，提供了一种语音信号处理方法，包括：获取语音信号帧的能量分布特性；根据所述能量分布特性判断所述语音信号帧是否为噪声帧。
优选地，根据所述能量分布特性判断所述语音信号帧是否为噪声帧包括：判断所述语音信号帧的能量分布是否集中；在判断结果为否的情况下，确定所述语音信号帧为噪声帧。
优选地，判断所述语音信号帧的能量分布是否集中包括：计算所述语音信号帧的频域语音峰的个数；在所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。
优选地，判断所述语音信号帧的能量分布是否集中包括：计算所述语音信号帧的VPER；在所述VPER小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中；其中，SPE1为第一语音峰能量，SPE2为第二语音峰能量。
优选地，所述语音峰能量通过以下公式计算：其中ENGi为第i子带能量，a和b分别为所述语音峰所占频带两端的子带。
优选地，在根据所述能量分布特性判断所述语音信号帧是否为噪声帧之后，还包括：根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；根据所述子带信噪比对所述语音信号帧进行自动增益。
优选地，根据所述子带信噪比对所述语音信号帧进行自动增益包括：调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。
优选地，调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大包括：且其中，Gain为信号幅度增益；Ratio为信号增益相关系数；Es(m,i)为第m帧信号第i个子带的能量；SNRs(i,j)为第i帧第j个子带的子带信噪比。
根据本发明的另一方面，提供了一种语音信号处理装置，包括：第一获取模块，用于获取语音信号帧的能量分布特性；判断模块，用于根据所述能量分布特性判断所述语音信号帧是否为噪声帧。
优选地，所述判断模块包括：判断单元，用于判断所述语音信号帧的能量分布是否集中；第一确定单元，用于在所述判断单元的判断结果为否的情况下，确定所述语音信号帧为噪声帧。
优选地，所述判断单元包括：第一计算单元，用于计算所述语音信号帧的频域语音峰的个数；第二确定单元，用于在所述第一计算单元计算出的所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。
优选地，所述判断单元包括：第二计算单元，用于计算所述语音信号帧的VPER；第三确定单元，用于在所述第二计算单元计算出的所述VPER小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中。
优选地，所述装置还包括：第二获取模块，用于根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；自动增益模块，用于根据所述第二获取模块获取的所述子带信噪比对所述语音信号帧进行自动增益。
根据本发明的再一方面，提供了一种语音信号处理方法，包括：根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；根据所述子带信噪比对所述语音信号帧进行自动增益。
优选地，根据所述子带信噪比对所述语音信号帧进行自动增益包括：调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。
优选地，调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大包括：且其中，Gain为信号幅度增益；Ratio为信号增益相关系数；Es(m,i)为第m帧信号第i个子带的能量；SNRs(i,j)为第i帧第j个子带的子带信噪比。
根据本发明的还一方面，提供了一种语音信号处理装置，包括：第三获取模块，用于根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；第二自动增益模块，用于根据所述子带信噪比对所述语音信号帧进行自动增益。
通过本发明，采用获取语音信号帧的能量分布特性；根据该能量分布特性判断该语音信号帧是否为噪声帧的方式，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
图1是根据本发明实施例的语音信号处理方法的流程图；
图2是根据本发明实施例的语音信号处理装置的结构框图；
图3是根据本发明实施例的判断模块的优选结构框图；
图4是根据本发明实施例的判断单元的优选结构框图一；
图5是根据本发明实施例的判断单元的优选结构框图二；
图6是根据本发明实施例的语音信号处理装置的优选结构框图；
图7是根据本发明实施例二的频谱域语音帧参数示意图；
图8（a）是根据本发明实施例二的不同信号幅度下的增益因子曲线示意图；
图8（b）是根据本发明实施例二的不同信号幅度下的自动增益输出曲线示意图；
图9是根据本发明实施例二的语音增强方案的算法框图；
图10是根据本发明实施例二的语音增强方案的算法流程图；
图11是根据本发明实施例的另一种语音信号处理方法的流程图；
图12是根据本发明实施例的另一种语音信号处理装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
本实施例提供了一种语音信号处理方法，图1是根据本发明实施例的语音信号处理方法的流程图，如图1所示，该方法包括如下步骤：
步骤S102，获取语音信号帧的能量分布特性；
步骤S104，根据该能量分布特性判断该语音信号帧是否为噪声帧。
本实施例通过上述步骤，根据语音信号帧的能量分布特性判断该语音信号帧是否为噪声帧，从而能够快速准确地跟踪到每一个噪声帧，相比相关技术中采用典型阈值法或者基于语音活动检测的方法，由于本实施例的方式是应用每个语音信号帧的特性来判断该帧是否为噪声帧，因此对噪声帧的判断更加准确，在很大程度上减少了误判和漏判，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。
作为一种优选实施方式，在通过判断语音信号帧的能量分布特性是否集中来辨识该语音信号帧是否为噪声帧时，可以在语音信号帧的能量分布较为分散，并不集中的情况下，确定该语音信号帧为噪声帧。通过这种方式，能够快速准确地跟踪到非平稳噪声中的噪声帧，易于实现。
判断语音信号帧的能量分布是否集中的方式有多种，在本实施例中提供了两种优选实施方式：
方式一，可以通过计算语音信号帧的频域语音峰的个数来判断语音信号帧的能量分布是否集中。在频域语音峰的个数大于第一预定阈值的情况下，则可以确定语音信号帧的能量分布不集中。优选地，在实施过程中，可以设置该第一预定阈值为3以上的数。
方式二，还可以通过计算语音信号帧的语音峰能量比（Voice Peak Energy Ratio，简称为VPER）来判断语音信号帧的能量分布是否集中，该比值可以是指辅语音峰与主语音峰之间的能量比值。在VPER小于第二预定阈值的情况下，则可以确定语音信号帧的能量分布不集中。优选地，在实施过程中，可以设置该第二阈值为例如1.2的常数。其中，SPE1为第一语音峰能量，SPE2为第二语音峰能量。优选地，语音峰能量可以通过以下公式计算：其中ENGi为第i子带能量，a和b分别为所述语音峰所占频带两端的子带。
更优地，还可以将上述两种方式结合使用，也即结合二者来判断，先统计语音峰个数，然后利用VPER计算公式计算能量分部情况，从而在判断语音信号帧的能量分布是否集中时能够更加准确。通过上述方式，可以更为灵活地判断语音信号帧的能量分布是否集中，提高了方案的灵活性。
作为一种优选实施方式，在判断出语音信号帧为噪声帧之后，还可以根据该语音信号帧的Bark子带能量获取语音信号帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益。通过这种方式进行自动增益，相比相关技术中基于清浊音判定的语音增强算法，以及基于人耳掩蔽效应的去噪算法，通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方法，能够减小语音信号清晰度的损失。
优选地，根据该语音信号帧的Bark子带能量获取语音信号帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益的方式可以为：调整语音信号帧的自动增益系数随着子带信噪比的减小而减小，以及随着子带信噪比的增大而增大。
例如，可以按照如下公式得到信号幅度增益：
Ratio=0.03×eSNRs(i,j)·|Es(m,i)|,]]>且Gain=GatioGatio+1,]]>其中，
Gain为信号幅度增益；Es(m,i)为第m帧信号第i个子带的能量；SNRs(i,j)为第i帧第j个子带的子带信噪比。
对应于上述语音信号处理方法，在本实施例中还提供了一种语音信号处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的语音信号处理装置的结构框图，如图2所示，该装置包括：第一获取模块22和判断模块24，下面对各个模块进行详细说明。
第一获取模块22，用于获取语音信号帧的能量分布特性；判断模块24，与第一获取模块22相连，用于根据第一获取模块22获取到的能量分布特性判断该语音信号帧是否为噪声帧。
本实施例通过上述模块，判断模块24根据第一获取模块22获取到的语音信号帧的能量分布特性判断该语音信号帧是否为噪声帧，从而能够快速准确地跟踪到每一个噪声帧，相比相关技术中采用典型阈值法或者基于语音活动检测的方法，由于本实施例的方式是应用每个语音信号帧的特性来判断该帧是否为噪声帧，因此对噪声帧的判断更加准确，在很大程度上减少了误判和漏判，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。
图3是根据本发明实施例的判断模块24的优选结构框图，如图3所示，判断模块24可以包括：判断单元242，用于判断语音信号帧的能量分布是否集中；第一确定单元244，与判断单元242相连，用于在判断单元242的判断结果为否的情况下，确定该语音信号帧为噪声帧。
图4是根据本发明实施例的判断单元242的优选结构框图一，如图4所示，判断单元242可以包括：第一计算单元2422，用于计算语音信号帧的频域语音峰的个数；第二确定单元2424，与第一计算单元2422相连，用于在第一计算单元2422计算出的个数大于第一预定阈值的情况下，确定该语音信号帧的能量分布不集中。
图5是根据本发明实施例的判断单元242的优选结构框图二，如图5所示，判断单元242可以包括：第二计算单元2426，用于计算语音信号帧的语音峰能量比（VPER）；第三确定单元2428，与第二计算单元2426相连，用于在第二计算单元2426计算出的VPER小于第二预定阈值的情况下，确定该语音信号帧的能量分布不集中。
图6是根据本发明实施例的语音信号处理装置的优选结构框图，如图6所示，该装置还可以包括：第二获取模块62，与判断模块24相连，用于根据语音信号帧的子带能量获取该语音信号帧的子带信噪比；自动增益模块64，与第二获取模块62相连，用于根据第二获取模块62获取的子带信噪比对该语音信号帧进行自动增益。
在本实施例中还提供了另一种语音信号处理方法，图11是根据本发明实施例的另一种语音信号处理方法的流程图，如图11所示，该方法包括如下步骤：
步骤S1102，根据语音信号帧的子带能量获取语音信号帧的子带信噪比；
步骤S1104，根据该子带信噪比对语音信号帧进行自动增益。
本实施例通过上述步骤，根据语音信号帧的Bark子带能量获取语音信号帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益。通过这种方式进行自动增益，相比相关技术中基于清浊音判定的语音增强算法，以及基于人耳掩蔽效应的去噪算法，通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方法，能够减小语音信号清晰度的损失。
优选地，根据该语音信号帧的Bark子带能量获取语音信号帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益的方式可以为：调整语音信号帧的自动增益系数随着子带信噪比的减小而减小，以及随着子带信噪比的增大而增大。
例如，可以按照如下公式得到信号幅度增益：
Ratio=0.03×eSNRs(i,j)·|Es(m,i)|,]]>且Gain=GatioGatio+1,]]>其中，
Gain为信号幅度增益；Es(m,i)为第m帧信号第i个子带的能量；SNRs(i,j)为第i帧第j个子带的子带信噪比。
对应于上述另一种语音信号处理方法，在本实施例中还提供了另一种语音信号处理装置，图12是根据本发明实施例的另一种语音信号处理装置的结构框图，如图12所示，该装置包括：第三获取模块122和第二自动增益模块124，下面对各个模块进行详细说明。
第三获取模块122，用于根据语音信号帧的子带能量获取语音信号帧的子带信噪比；第二自动增益模块124，与第三获取模块122相连，用于根据第三获取模块122获取的子带信噪比对语音信号帧进行自动增益。
本实施例通过上述装置，第三获取模块122根据语音信号帧的Bark子带能量获取语音信号帧的子带信噪比，第二自动增益模块124根据该子带信噪比对语音信号帧进行自动增益。通过这种方式进行自动增益，相比相关技术中基于清浊音判定的语音增强算法，以及基于人耳掩蔽效应的去噪算法，通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方法，能够减小语音信号清晰度的损失。
下面结合优选实施例进行说明，以下优选实施例结合了上述实施例及其优选实施方式。
为了对公共场所的非平稳噪声进行跟踪和精确处理，并尽量减小语音信号清晰度的损失，并加以计算量的考虑，本优选实施例提出了一种新的非平稳噪声下的单通道（单麦克）手机语音增强方法。该方法采取一种新的噪声帧的判别算法，通过提取时变的噪声样本，快速跟踪非平稳噪声；并通过提取两个新的语音参数--频域语音峰带宽（Voice Peak Bandwidth，简称为VPB）和语音峰能量比（VPER）实现对语音帧的精确去噪。
本优选实施例中的非平稳噪声下的单麦克手机语音增强方法，包括如下步骤：
步骤S2，对语音信号进行分帧、加窗等预处理，并计算每帧信号短时能量；
步骤S4，对帧信号进行频域变换，按照人耳掩蔽效应进行Bark子带划分，并进行子带能量估计；
步骤S6，对当前帧进行判别，判断是否为噪声帧；
步骤S8，根据子带能量和噪声功率谱估计计算语音帧子带信噪比；
步骤S10，根据语音帧子带信噪比计算自动增益系数，对语音帧进行去噪处理，对噪声帧进行衰减处理；
步骤S12，根据噪声帧判别，对噪声样本进行更新；
步骤S14，将处理后的频谱信号变换到时间域，输出干净的语音信号。
其中，上述步骤S6中噪声帧的判别具体可以包括如下步骤：
步骤S62，根据S2中时域能量进行时域判断，如果时域能量过小则判断为噪声，超过设定值则判断为啸叫。
步骤S64，对帧信号频域特性进行分析。如果频域能量超过设定值，则进行噪声帧判定。
步骤S66，对信号帧频域进行语音峰参数--VPB和VPER的提取。
步骤S68，对信号帧频域进行语音峰个数统计，多于3个，说明频域峰值过多，不具备语音帧能量集中分布的特性，判断为噪声帧，否则进行步骤35。
步骤S70，如果参数VPER<cons(cons是一个设定的常数，可以依经验值选取，这里以该常数取1.2为例进行说明)，说明帧信号能量没有集中在语音信号通常所在的频带，此帧为高频噪声或者干扰信号。
上述步骤S8中计算语音帧子带信噪比具体包括如下步骤：
步骤S82，计算语音帧Bark子带能量。
步骤S84，对噪声样本进行子带功率谱估计。
步骤S86，计算语音帧子带信噪比。
本优选实施例由于采取以上技术方案，具有以下优点：
第一，通过两个参数的提取，能够准确的判断出噪声帧。
由于设定了两个语音信号参数--频域语音峰带宽（VPB）和语音峰能量比（VPER）用于非平稳噪声的判断。相比以往只是通过能量阈值和语音信号相关性进行噪声判断的方法，这两个参数更能够体现噪声在频谱域的特性。
第二，设计一个自动增益系数计算公式，能够在去除噪声的同时减少语音信号清晰度的损失。
本优选实施例提出的自动增益计算公式与信号子带信噪比有关。子带信噪比越低，说明噪声成分越多，则自动增益系数越小，反之则越大。通过信噪比的大小控制信号的增益。例如，本优选实施例提出的自动增益调控函数与输入信号频谱幅度有关，而信号频谱幅度较大则减小自动增益系数，防止产生信号啸叫；信号频谱幅度特别小说明语音成分很少，则使用更加小的自动增益系数；信号频谱幅度较弱时，则通过函数增强语音信号从而减少其丢失。
综上所述，本优选实施例中提出了一种语音增强方案，能够在一定程度上抑制非平稳噪声。本优选实施例提出的语音增强方案，包括信号预处理、频域变换、语音与噪声帧检测、噪声样本更新、自动增益系数计算和时域变换输出等几个部分。并通过两个语音参数的提取和自动增益系数公式，实现对非平稳噪声的跟踪与估计，在去除噪声的同时减少对语音清晰度的损伤。
实施例二
在本优选实施例中结合附图对语音增强方案进行进一步地详细描述。
一、语音参数的提取
图7是根据本发明实施例二的频谱域语音帧参数示意图，如图7所示，该图展现了一帧语音信号在频谱域的参数。其中，纵轴坐标为频谱幅度，横轴坐标为频域采样点，样点间隔以31.25Hz为例进行说明。图7中示出了一帧语音帧的频域语音峰带宽（VPB），在此图中有两个语音峰，其频带起始点和终止点组成的矩阵分别记为VPB1和VPB2，他们由语音信号的LPC模型求出。k个共振峰的频率Fk和带宽Bk分别为：
Fk＝θk/2πT,Bk＝-ln(rk)/πT （1）
这里，T为语音信号采样周期。
使用参数Fk记录共振峰频率，参数Bk记录每一帧信号的共振峰带宽。由于线性预测法的频率灵敏度和人耳模型并不匹配，所以可以借助Bark子带模型，将4000Hz的手机语音信号划分为18个子带。在本优选实施例中以一帧信号为256个样点为例进行说明，则记fl(i)为第i子带内的最低频谱点，fh(i)为第i子带内的最高频谱点，具体Bark子带划分如下：
fl={1,4,7,10,13,17,21,25,30,35,41,48,56,65,75,87,101,119}
fh={3,6,9,12,16,20,24,29,34,40,47,55,64,74,86,100,118,128}
括号内数字代表离散傅里叶变换频域采样点。
将参数Fk和参数Bk对应至Bark子带，得到第k个语音峰所在Bark域的频带序号。计算Bark子带1--18的能量，记为ENG1--ENG18，求得第一个和第二个语音峰能量SPE1和SPE2，并求其比值SPE1/SPE2即为参数VPER。
如图7中一帧信号在4000Hz内有两个语音峰，第一个语音峰所占频带为Bark子带5--11，第二个语音峰所占频带为Bark子带15--17，则记录VPB1=[5 11]，VPB2=[15 17]。则VPER可由下式得出：
VPER=SPE1SPE2=Σi=511ENGi/Σi=1517ENGi]]>
二、噪声帧判断
噪声帧判断将基于噪声帧和语音帧在频谱上的不同特性。由于语音是由声门激励，声道共振形成，在频域具有较明显的共振峰，对于一帧信号同样会有语音峰的特性；而噪声不会有如此特性，首先噪声的能量较小，其次噪声帧能量在频域分布的较为分散，不像语音帧那样能量主要集中在某些固定频段内，有可能分布在语音峰之间或者高频段。因此，可以将采用参数VPB和VPER对噪声帧进行判别。
第一步，计算每帧信号时域能量，如果能量过小直接判断为噪声，超过设定值则判断为啸叫。
第二步，对帧信号频域特性进行分析。如果频域能量超过设定值，则进行噪声帧判定。如果语音峰多于3个，说明频域峰值过多，不具备语音帧能量集中分布的特性，判断为噪声帧，否则进行第三步。
第三步，如果参数VPER<cons1(cons1是一个设定的常数，可以依经验值选取，这里以该常数取1.2为例进行说明)，说明帧信号能量没有集中在语音信号通常所在的频带，此帧为高频噪声或者干扰信号；如果VPER>cons1，则判断为语音帧信号。
三、语音帧信号去噪
通过对两个参数VPB和VPER的检测，可以确定语音帧中语音峰在频域的范围，通过计算自动增益系数对语音部分进行增强；而语音峰之外的频带分布的是极其微弱的语音能量和大部分噪声能量，可以将其衰减予以去除。
其中，自动增益系数的计算可以按照如下步骤：
步骤一，通过噪声帧判断算法提取噪声帧，对噪声样本进行更新。
步骤二，通过Bark子带划分，对信号帧子带进行能量估计，对噪声样本进行功率谱估计，并计算子带信噪比。
首先，采用离散傅里叶变换将时域帧信号变换到频域，离散傅里叶变换如下。
G(k)=1M·Σn=0M-1g(n)e-j2πnk/M,0≤k<M,]]>
其中，M=128，为离散傅里叶计算长度。
其次，对频域信号计算子带能量，并进行平滑处理，采用如下公式：
Es(m,i)=α·E(m-1,i)+(1-α)·Σk=fl(i)fh(i)|G(k)|2,1≤i≤N]]>
其中，Es(m,i)表示第m帧信号第i个子带的能量；G(k)为语音帧频谱分布，k为频谱中第k个样点；α为子带能量平滑因子，根据实际情况取值，其范围为0<α<1；N=18，为子带数目；fl(i)为第i子带内的最低频谱点，fh(i)为第i子带内的最高频谱点。
括号内数字代表离散傅里叶变换频域采样点。
然后，对噪声样本进行功率谱估计：
En(m,i)=max{En,min,Σk=fl(i)fh(i)|Gn(k)|2},]]>
其中，En,min为最小子带噪声能量，视情况取值，本算法中以取0.002为例进行说明；Gn(k)为噪声帧频谱。
最后，计算每帧语音帧的子带信噪比。
SNRs(m,i)=10·log10(Es(m,i)En(m,i))Es(m,i)&NotEqual;En(m,i)]]>
步骤三，根据语音帧子带信噪比计算自动增益系数。
计算自动增益系数的目的是为了对噪声频谱大幅度抑制，对语音频谱小幅度抑制，从而得到相对增强的语音信号，达到抑制噪声的效果。
Gain=RatioRatio+1]]>
Ratio=0.03×eSNRs(i,j)·|Es(m,i)|]]>
其中，Gain为信号幅度增益，Ratio是信号增益相关系数，是信号幅度增益（Gain）计算公式中的一个变量。图8（a）是根据本发明实施例二的不同信号幅度下的增益因子曲线示意图，图8（b）是根据本发明实施例二的不同信号幅度下的自动增益输出曲线示意图。
图8（a）和图8（b）展示了对信号幅度分别为1、0.8、0.6、0.4、0.2的信号的自动增益曲线。图8（a）中纵坐标表示信号帧增益因子，横坐标代表信号帧子带信噪比。图8（b）中纵坐标代表经过自动增益后的信号帧频域幅度，横坐标代表信号帧子带信噪比。由图可以看出，通过本优选实施例进行的自动增益曲线具有这样的特征：①该自动增益曲线是一个单调增函数，随着信噪比的增大增益因子也增大。②当信噪比很低时增益因子很小，主要对信号起到衰减的效果；当信噪比较高时增益因子趋近于1，能够较好的保留语音成分。③在一定的信噪比下，输入信号帧幅度越大被衰减的越小，也即信号被保留的越多。
因此，采用具有图8（a）和图8（b）性质的自动增益计算公式能够根据输入语音帧信号不同子带的幅值大小、不同子带的信噪比高低，得到不同情况下的增益因子，较好的抑制了背景噪声，保留了语音成分。
图9是根据本发明实施例二的语音增强方案的算法框图，如图9所示，该语音增强算法包括六个部分，分别为信号预处理、频域变化、信号与噪声帧检测、噪声样本更新、计算自动增益系数和时域变换输出等。图10是根据本发明实施例二的语音增强方案的算法流程图，如图10所示，设一段语音信号为x(n)，以手机信号为例，采样率为8KHz。，则上述算法过程描述如下：
首先将语音信号通过预处理模块，对其进行分帧，低频滤波，加窗，短时能量计算等。为了保证语音信号的短时平稳性，可以在一帧中选取256个点，这样一帧信号为32ms，帧间重叠128点。窗函数选取汉宁窗，低频滤波器的截止频率选为100Hz。
其次，通过频域变换模块，对其进行FFT变换，Bark子带划分，子带能量估计等。
然后，通过语音与噪声帧检测模块，对其进行信号帧与噪声帧判断，噪声样本更新，噪声功率谱估计，子带信噪比计算等。
接着，通过计算自动增益系数模块，对其进行自动增益系数计算。
最后，将进行过自动增益的频域信号通过FFT反变换，输出增强后的语音信号。
在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施例中描述的技术方案。
在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于光盘、软盘、硬盘、可擦写存储器等。
显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《语音信号处理方法及装置.pdf》由会员分享，可在线阅读，更多相关《语音信号处理方法及装置.pdf（19页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103544961 A (43)申请公布日 2014.01.29 CN 103544961 A (21)申请号 201210236881.8 (22)申请日 2012.07.10 G10L 25/51(2013.01) (71)申请人中兴通讯股份有限公司地址 518057 广东省深圳市南山区科技南路 55 号 (72)发明人王进军孙焘刘冬梅薛涛王霞姚远 (74)专利代理机构北京康信知识产权代理有限责任公司 11240 代理人余刚梁丽超 (54) 发明名称语音信号处理方法及装置 (57) 摘要本发明公开了一种语音信号处理方法及装置，其中，。

2、该方法包括：获取语音信号帧的能量分布特性；根据该能量分布特性判断该语音信号帧是否为噪声帧。通过本发明，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。 (51)Int.Cl. 权利要求书 2 页说明书 10 页附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书10页附图6页 (10)申请公布号 CN 103544961 A CN 103544961 A 1/2 页 2 1. 一种语音信号处理方法，其特征在于，包括：获取语音信号帧的能量分布特性；根据所述能量分布。

3、特性判断所述语音信号帧是否为噪声帧。 2. 根据权利要求 1 所述的方法，其特征在于，根据所述能量分布特性判断所述语音信号帧是否为噪声帧包括：判断所述语音信号帧的能量分布是否集中；在判断结果为否的情况下，确定所述语音信号帧为噪声帧。 3. 根据权利要求 2 所述的方法，其特征在于，判断所述语音信号帧的能量分布是否集中包括：计算所述语音信号帧的频域语音峰的个数；在所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。 4.根据权利要求2或3所述的方法，其特征在于，判断所述语音信号帧的能量分布是否集中包括：计算所述语音信号帧的语音峰能量比。

4、VPER ；在所述 VPER 小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中；其中，SPE1为第一语音峰能量， SPE2为第二语音峰能量。 5. 根据权利要求 4 所述的方法，其特征在于，所述语音峰能量通过以下公式计算：其中 ENGi为第 i 子带能量， a 和 b 分别为所述语音峰所占频带两端的子带。 6.根据权利要求1至5中任一项所述的方法，其特征在于，在根据所述能量分布特性判断所述语音信号帧是否为噪声帧之后，还包括：根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；根据所述子带信噪比对所述语音信号帧进行自动增益。 7. 根据权利要。

5、求 6 所述的方法，其特征在于，根据所述子带信噪比对所述语音信号帧进行自动增益包括：调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。 8. 根据权利要求 7 所述的方法，其特征在于，调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大包括：且其中， Gain 为信号幅度增益； Ratio 为信号增益相关系数； Es(m,i) 为第 m 帧信号第 i 个子带的能量； SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 9. 一种语音信号处理装置，其特征。

6、在于，包括：第一获取模块，用于获取语音信号帧的能量分布特性；判断模块，用于根据所述能量分布特性判断所述语音信号帧是否为噪声帧。权利要求书 CN 103544961 A 2 2/2 页 3 10. 根据权利要求 9 所述的装置，其特征在于，所述判断模块包括：判断单元，用于判断所述语音信号帧的能量分布是否集中；第一确定单元，用于在所述判断单元的判断结果为否的情况下，确定所述语音信号帧为噪声帧。 11. 根据权利要求 10 所述的装置，其特征在于，所述判断单元包括：第一计算单元，用于计算所述语音信号帧的频域语音峰的个数；第二确定单元，用于在。

7、所述第一计算单元计算出的所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。 12. 根据权利要求 10 或 11 所述的装置，其特征在于，所述判断单元包括：第二计算单元，用于计算所述语音信号帧的语音峰能量比 VPER ；第三确定单元，用于在所述第二计算单元计算出的所述 VPER 小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中。 13. 根据权利要求 9 至 12 中任一项所述的装置，其特征在于，所述装置还包括：第二获取模块，用于根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；自动增益模块，用于根据所述第二获取。

8、模块获取的所述子带信噪比对所述语音信号帧进行自动增益。 14. 一种语音信号处理方法，其特征在于，包括：根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；根据所述子带信噪比对所述语音信号帧进行自动增益。 15. 根据权利要求 14 所述的方法，其特征在于，根据所述子带信噪比对所述语音信号帧进行自动增益包括：调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。 16. 根据权利要求 15 所述的方法，其特征在于，调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而。

9、增大包括：且其中， Gain 为信号幅度增益； Ratio 为信号增益相关系数； Es(m,i) 为第 m 帧信号第 i 个子带的能量； SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 17. 一种语音信号处理装置，其特征在于，包括：第三获取模块，用于根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；第二自动增益模块，用于根据所述子带信噪比对所述语音信号帧进行自动增益。权利要求书 CN 103544961 A 3 1/10 页 4 语音信号处理方法及装置技术领域 0001 本发明涉及通信领域，具体而言，涉及一种语音信号处理方法及。

10、装置。背景技术 0002 目前在生活中，人们对移动终端的语音通话功能及通话质量的要求越来越高，然而现实生活中的通话过程往往会受到背景噪声的干扰，尤其是一些公共场合如车站、广场、街道等。这些非平稳的强噪声对通话质量和语音清晰度有很大的影响，而传统的语音增强算法通常只针对平稳的或者变化很慢的噪声具有较好的效果，但是对变化较快的非平稳噪声的抑制效果很不理想，而且还会在抑制噪声的同时损失语音的清晰度。为了加强对背景噪声的跟踪和估计，相关技术中存在如下几种方法： 0003 第一种， Donoho 提出了典型阈值法， Donoho 通过分析高斯白噪声在小波域的特征，根据经。

11、验和统计特性在小波域人为的设定一个阈值来区分噪声和实际信号。但是实际中噪声和语音并没有一个明显的阈值界限。 0004 第二种，基于语音活动检测的方法，研究人员发现一段语音的最开始阶段是完全由背景噪声组成的，可以用这一段信号作为噪声的估计样本，并且通过语音活动检测，提取出语音间隔处的信号进行噪声样本更新。但是这同样是一种粗略的提取，只能跟踪变化缓慢的噪声信号。 0005 这些方法都会造成语音帧和噪声帧的误判，从而产生一定的语音失真。 0006 此外，为了提高带噪语音的清晰度，现有的技术如下： 0007 第一种，基于清浊音判定的语音增强算法，在去噪前首先进行清浊音判。

12、定，清音集中了大部分语音的高频信号，是影响语音清晰度的主要成分，所以设置一个较低的阈值，对浊音设置一个稍大的阈值去除大部分噪声成分。但是在背景噪声较大的时候，清音往往被噪声淹没。 0008 第二种，基于人耳掩蔽效应的去噪算法，通过计算估计掩蔽模型的阈值，对语音进行阈值去噪。但是在计算掩蔽阈值时就存在偏差，并且计算量会增加很多，增加了手机的运算负担。 0009 这些算法虽然都起到了一定的效果，但是都很难针对每一帧语音内的噪声进行精确处理。 0010 针对相关技术中对变化较快的非平稳噪声的判别效果较差的问题，目前尚未提出有效的解决方案。发明内容 0011 。

13、针对相关技术中对变化较快的非平稳噪声的判别效果较差的问题，目前尚未提出有效的解决方案，本发明提供了一种语音信号处理方法及装置，以至少解决上述问题。 0012 根据本发明的一个方面，提供了一种语音信号处理方法，包括：获取语音信号帧的能量分布特性；根据所述能量分布特性判断所述语音信号帧是否为噪声帧。说明书 CN 103544961 A 4 2/10 页 5 0013 优选地，根据所述能量分布特性判断所述语音信号帧是否为噪声帧包括：判断所述语音信号帧的能量分布是否集中；在判断结果为否的情况下，确定所述语音信号帧为噪声帧。 0014 优选地，判断所述语音信。

14、号帧的能量分布是否集中包括：计算所述语音信号帧的频域语音峰的个数；在所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。 0015 优选地，判断所述语音信号帧的能量分布是否集中包括：计算所述语音信号帧的 VPER ；在所述 VPER 小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中；其中，SPE1为第一语音峰能量， SPE2为第二语音峰能量。 0016 优选地，所述语音峰能量通过以下公式计算：其中ENGi为第i子带能量， a 和 b 分别为所述语音峰所占频带两端的子带。 0017 优选地，在根据所述能量分布特性判断所述语音信号帧。

15、是否为噪声帧之后，还包括：根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；根据所述子带信噪比对所述语音信号帧进行自动增益。 0018 优选地，根据所述子带信噪比对所述语音信号帧进行自动增益包括：调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。 0019 优选地，调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大包括：且其中， Gain为信号幅度增益； Ratio为信号增益相关系数； Es(m,i)为第m帧信号第 i 个子带的能量； SNRs。

16、(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0020 根据本发明的另一方面，提供了一种语音信号处理装置，包括：第一获取模块，用于获取语音信号帧的能量分布特性；判断模块，用于根据所述能量分布特性判断所述语音信号帧是否为噪声帧。 0021 优选地，所述判断模块包括：判断单元，用于判断所述语音信号帧的能量分布是否集中；第一确定单元，用于在所述判断单元的判断结果为否的情况下，确定所述语音信号帧为噪声帧。 0022 优选地，所述判断单元包括：第一计算单元，用于计算所述语音信号帧的频域语音峰的个数；第二确定单元，用于在所述第一计算单元计算出。

17、的所述个数大于第一预定阈值的情况下，确定所述语音信号帧的能量分布不集中。 0023 优选地，所述判断单元包括：第二计算单元，用于计算所述语音信号帧的 VPER ；第三确定单元，用于在所述第二计算单元计算出的所述 VPER 小于第二预定阈值的情况下，确定所述语音信号帧的能量分布不集中。 0024 优选地，所述装置还包括：第二获取模块，用于根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比；自动增益模块，用于根据所述第二获取模块获取的所述子带信噪比对所述语音信号帧进行自动增益。说明书 CN 103544961 A 5 3/10 页 6 0025。

18、根据本发明的再一方面，提供了一种语音信号处理方法，包括：根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；根据所述子带信噪比对所述语音信号帧进行自动增益。 0026 优选地，根据所述子带信噪比对所述语音信号帧进行自动增益包括：调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大。 0027 优选地，调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小，以及随着所述子带信噪比的增大而增大包括：且其中， Gain为信号幅度增益； Ratio为信号增益相关系数； Es(m,i)为第m帧信号第。

19、i 个子带的能量； SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0028 根据本发明的还一方面，提供了一种语音信号处理装置，包括：第三获取模块，用于根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比；第二自动增益模块，用于根据所述子带信噪比对所述语音信号帧进行自动增益。 0029 通过本发明，采用获取语音信号帧的能量分布特性；根据该能量分布特性判断该语音信号帧是否为噪声帧的方式，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。附图说明 0030 此处所说明的附图用来提供对本发明的进一步。

20、理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中： 0031 图 1 是根据本发明实施例的语音信号处理方法的流程图； 0032 图 2 是根据本发明实施例的语音信号处理装置的结构框图； 0033 图 3 是根据本发明实施例的判断模块的优选结构框图； 0034 图 4 是根据本发明实施例的判断单元的优选结构框图一； 0035 图 5 是根据本发明实施例的判断单元的优选结构框图二； 0036 图 6 是根据本发明实施例的语音信号处理装置的优选结构框图； 0037 图 7 是根据本发明实施例二的频谱域语音帧参数示意图；。

21、 0038 图 8（a）是根据本发明实施例二的不同信号幅度下的增益因子曲线示意图； 0039 图 8（b）是根据本发明实施例二的不同信号幅度下的自动增益输出曲线示意图； 0040 图 9 是根据本发明实施例二的语音增强方案的算法框图； 0041 图 10 是根据本发明实施例二的语音增强方案的算法流程图； 0042 图 11 是根据本发明实施例的另一种语音信号处理方法的流程图； 0043 图 12 是根据本发明实施例的另一种语音信号处理装置的结构框图。具体实施方式 0044 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施。

22、例中的特征可以相互组合。 0045 本实施例提供了一种语音信号处理方法，图 1 是根据本发明实施例的语音信号处说明书 CN 103544961 A 6 4/10 页 7 理方法的流程图，如图 1 所示，该方法包括如下步骤： 0046 步骤 S102，获取语音信号帧的能量分布特性； 0047 步骤 S104，根据该能量分布特性判断该语音信号帧是否为噪声帧。 0048 本实施例通过上述步骤，根据语音信号帧的能量分布特性判断该语音信号帧是否为噪声帧，从而能够快速准确地跟踪到每一个噪声帧，相比相关技术中采用典型阈值法或者基于语音活动检测的方法，由于本实施例的方式是应用每。

23、个语音信号帧的特性来判断该帧是否为噪声帧，因此对噪声帧的判断更加准确，在很大程度上减少了误判和漏判，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。 0049 作为一种优选实施方式，在通过判断语音信号帧的能量分布特性是否集中来辨识该语音信号帧是否为噪声帧时，可以在语音信号帧的能量分布较为分散，并不集中的情况下，确定该语音信号帧为噪声帧。通过这种方式，能够快速准确地跟踪到非平稳噪声中的噪声帧，易于实现。 0050 判断语音信号帧的能量分布是否集中的方式有多种，在本实施例中提供了两种优选实施方式： 0051 。

24、方式一，可以通过计算语音信号帧的频域语音峰的个数来判断语音信号帧的能量分布是否集中。在频域语音峰的个数大于第一预定阈值的情况下，则可以确定语音信号帧的能量分布不集中。优选地，在实施过程中，可以设置该第一预定阈值为 3 以上的数。 0052 方式二，还可以通过计算语音信号帧的语音峰能量比（Voice Peak Energy Ratio，简称为 VPER）来判断语音信号帧的能量分布是否集中，该比值可以是指辅语音峰与主语音峰之间的能量比值。在 VPER 小于第二预定阈值的情况下，则可以确定语音信号帧的能量分布不集中。优选地，在实施过程中，可以设置该第二阈值为例如 1.。

25、2 的常数。其中， SPE1 为第一语音峰能量， SPE2 为第二语音峰能量。优选地，语音峰能量可以通过以下公式计算：其中ENGi为第i子带能量， a和b分别为所述语音峰所占频带两端的子带。 0053 更优地，还可以将上述两种方式结合使用，也即结合二者来判断，先统计语音峰个数，然后利用 VPER 计算公式计算能量分部情况，从而在判断语音信号帧的能量分布是否集中时能够更加准确。通过上述方式，可以更为灵活地判断语音信号帧的能量分布是否集中，提高了方案的灵活性。 0054 作为一种优选实施方式，在判断出语音信号帧为噪声帧之后，还可以根据该语音信号帧的 Bark 子带。

26、能量获取语音信号帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益。通过这种方式进行自动增益，相比相关技术中基于清浊音判定的语音增强算法，以及基于人耳掩蔽效应的去噪算法，通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方法，能够减小语音信号清晰度的损失。 0055 优选地，根据该语音信号帧的 Bark 子带能量获取语音信号帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益的方式可以为：调整语音信号帧的自动增益系数随着子带信噪比的减小而减小，以及随着子带信噪比的增大而增大。说明书 CN 103544961 A 7 5/10 页 8 0056 。

27、例如，可以按照如下公式得到信号幅度增益： 0057 且其中， 0058 Gain 为信号幅度增益； Es(m,i) 为第 m 帧信号第 i 个子带的能量； SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0059 对应于上述语音信号处理方法，在本实施例中还提供了一种语音信号处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语 “模块” 可以实现预定功能的软件和 / 或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。 0060 图2是根据本发明实施例。

28、的语音信号处理装置的结构框图，如图2所示，该装置包括：第一获取模块 22 和判断模块 24，下面对各个模块进行详细说明。 0061 第一获取模块 22，用于获取语音信号帧的能量分布特性；判断模块 24，与第一获取模块 22 相连，用于根据第一获取模块 22 获取到的能量分布特性判断该语音信号帧是否为噪声帧。 0062 本实施例通过上述模块，判断模块 24 根据第一获取模块 22 获取到的语音信号帧的能量分布特性判断该语音信号帧是否为噪声帧，从而能够快速准确地跟踪到每一个噪声帧，相比相关技术中采用典型阈值法或者基于语音活动检测的方法，由于本实施例的方式是应。

29、用每个语音信号帧的特性来判断该帧是否为噪声帧，因此对噪声帧的判断更加准确，在很大程度上减少了误判和漏判，解决了相关技术中对变化较快的非平稳噪声的判别效果较差的问题，提高了对语音信号中噪声帧的判断准确性。 0063 图 3 是根据本发明实施例的判断模块 24 的优选结构框图，如图 3 所示，判断模块 24可以包括：判断单元242，用于判断语音信号帧的能量分布是否集中；第一确定单元244，与判断单元242相连，用于在判断单元242的判断结果为否的情况下，确定该语音信号帧为噪声帧。 0064 图 4 是根据本发明实施例的判断单元 242 的优选结构框图一，如图 4 。

30、所示，判断单元242可以包括：第一计算单元2422，用于计算语音信号帧的频域语音峰的个数；第二确定单元2424，与第一计算单元2422相连，用于在第一计算单元2422计算出的个数大于第一预定阈值的情况下，确定该语音信号帧的能量分布不集中。 0065 图 5 是根据本发明实施例的判断单元 242 的优选结构框图二，如图 5 所示，判断单元 242 可以包括：第二计算单元 2426，用于计算语音信号帧的语音峰能量比（VPER）；第三确定单元 2428，与第二计算单元 2426 相连，用于在第二计算单元 2426 计算出的 VPER 小于第二预定阈值。

31、的情况下，确定该语音信号帧的能量分布不集中。 0066 图6是根据本发明实施例的语音信号处理装置的优选结构框图，如图6所示，该装置还可以包括：第二获取模块 62，与判断模块 24 相连，用于根据语音信号帧的子带能量获取该语音信号帧的子带信噪比；自动增益模块 64，与第二获取模块 62 相连，用于根据第二获取模块 62 获取的子带信噪比对该语音信号帧进行自动增益。 0067 在本实施例中还提供了另一种语音信号处理方法，图 11 是根据本发明实施例的另一种语音信号处理方法的流程图，如图 11 所示，该方法包括如下步骤： 0068 步骤 S1102，根据语音信。

32、号帧的子带能量获取语音信号帧的子带信噪比；说明书 CN 103544961 A 8 6/10 页 9 0069 步骤 S1104，根据该子带信噪比对语音信号帧进行自动增益。 0070 本实施例通过上述步骤，根据语音信号帧的 Bark 子带能量获取语音信号帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益。通过这种方式进行自动增益，相比相关技术中基于清浊音判定的语音增强算法，以及基于人耳掩蔽效应的去噪算法，通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方法，能够减小语音信号清晰度的损失。 0071 优选地，根据该语音信号帧的 Bark 子带能量获取语音信号。

33、帧的子带信噪比，然后根据该子带信噪比对语音信号帧进行自动增益的方式可以为：调整语音信号帧的自动增益系数随着子带信噪比的减小而减小，以及随着子带信噪比的增大而增大。 0072 例如，可以按照如下公式得到信号幅度增益： 0073 且其中， 0074 Gain 为信号幅度增益； Es(m,i) 为第 m 帧信号第 i 个子带的能量； SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0075 对应于上述另一种语音信号处理方法，在本实施例中还提供了另一种语音信号处理装置，图 12 是根据本发明实施例的另一种语音信号处理装置的结构框图，如图 12 所示，该装置包。

34、括：第三获取模块 122 和第二自动增益模块 124，下面对各个模块进行详细说明。 0076 第三获取模块 122，用于根据语音信号帧的子带能量获取语音信号帧的子带信噪比；第二自动增益模块 124，与第三获取模块 122 相连，用于根据第三获取模块 122 获取的子带信噪比对语音信号帧进行自动增益。 0077 本实施例通过上述装置，第三获取模块122根据语音信号帧的Bark子带能量获取语音信号帧的子带信噪比，第二自动增益模块 124 根据该子带信噪比对语音信号帧进行自动增益。通过这种方式进行自动增益，相比相关技术中基于清浊音判定的语音增强算法，以及基于人耳掩。

35、蔽效应的去噪算法，通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方法，能够减小语音信号清晰度的损失。 0078 下面结合优选实施例进行说明，以下优选实施例结合了上述实施例及其优选实施方式。 0079 为了对公共场所的非平稳噪声进行跟踪和精确处理，并尽量减小语音信号清晰度的损失，并加以计算量的考虑，本优选实施例提出了一种新的非平稳噪声下的单通道（单麦克）手机语音增强方法。该方法采取一种新的噪声帧的判别算法，通过提取时变的噪声样本，快速跟踪非平稳噪声；并通过提取两个新的语音参数 - 频域语音峰带宽（Voice Peak Bandwidth，简称为 VPB）和。

36、语音峰能量比（VPER）实现对语音帧的精确去噪。 0080 本优选实施例中的非平稳噪声下的单麦克手机语音增强方法，包括如下步骤： 0081 步骤 S2，对语音信号进行分帧、加窗等预处理，并计算每帧信号短时能量； 0082 步骤 S4，对帧信号进行频域变换，按照人耳掩蔽效应进行 Bark 子带划分，并进行子带能量估计； 0083 步骤 S6，对当前帧进行判别，判断是否为噪声帧； 0084 步骤 S8，根据子带能量和噪声功率谱估计计算语音帧子带信噪比； 0085 步骤 S10，根据语音帧子带信噪比计算自动增益系数，对语音帧进行去噪处理，对说明书 CN。

37、 103544961 A 9 7/10 页 10 噪声帧进行衰减处理； 0086 步骤 S12，根据噪声帧判别，对噪声样本进行更新； 0087 步骤 S14，将处理后的频谱信号变换到时间域，输出干净的语音信号。 0088 其中，上述步骤 S6 中噪声帧的判别具体可以包括如下步骤： 0089 步骤 S62，根据 S2 中时域能量进行时域判断，如果时域能量过小则判断为噪声，超过设定值则判断为啸叫。 0090 步骤 S64，对帧信号频域特性进行分析。如果频域能量超过设定值，则进行噪声帧判定。 0091 步骤 S66，对信号帧频域进行语音峰参数 -VPB 和 VPER 。

38、的提取。 0092 步骤 S68，对信号帧频域进行语音峰个数统计，多于 3 个，说明频域峰值过多，不具备语音帧能量集中分布的特性，判断为噪声帧，否则进行步骤 35。 0093 步骤 S70，如果参数 VPERcons1，则判断为语音帧信号。 0122 三、语音帧信号去噪 0123 通过对两个参数 VPB 和 VPER 的检测，可以确定语音帧中语音峰在频域的范围，通说明书 CN 103544961 A 11 9/10 页 12 过计算自动增益系数对语音部分进行增强；而语音峰之外的频带分布的是极其微弱的语音能量和大部分噪声能量，可以将其衰减予以去除。 0124。

39、其中，自动增益系数的计算可以按照如下步骤： 0125 步骤一，通过噪声帧判断算法提取噪声帧，对噪声样本进行更新。 0126 步骤二，通过 Bark 子带划分，对信号帧子带进行能量估计，对噪声样本进行功率谱估计，并计算子带信噪比。 0127 首先，采用离散傅里叶变换将时域帧信号变换到频域，离散傅里叶变换如下。 0128 0129 其中， M=128，为离散傅里叶计算长度。 0130 其次，对频域信号计算子带能量，并进行平滑处理，采用如下公式： 0131 0132 其中， Es(m,i) 表示第 m 帧信号第 i 个子带的能量； G(k) 为语音帧频谱分布， k。

40、为频谱中第 k 个样点；为子带能量平滑因子，根据实际情况取值，其范围为 01 ； N=18，为子带数目； fl(i) 为第 i 子带内的最低频谱点， fh(i) 为第 i 子带内的最高频谱点。 0133 括号内数字代表离散傅里叶变换频域采样点。 0134 然后，对噪声样本进行功率谱估计： 0135 0136 其中， En,min为最小子带噪声能量，视情况取值，本算法中以取 0.002 为例进行说明； Gn(k) 为噪声帧频谱。 0137 最后，计算每帧语音帧的子带信噪比。 0138 0139 步骤三，根据语音帧子带信噪比计算自动增益系数。 0140 计算自动增益。

41、系数的目的是为了对噪声频谱大幅度抑制，对语音频谱小幅度抑制，从而得到相对增强的语音信号，达到抑制噪声的效果。 0141 0142 0143 其中， Gain 为信号幅度增益， Ratio 是信号增益相关系数，是信号幅度增益（Gain）计算公式中的一个变量。图 8（a）是根据本发明实施例二的不同信号幅度下的增益因子曲线示意图，图 8（b）是根据本发明实施例二的不同信号幅度下的自动增益输出曲线示意图。 0144 图 8（a）和图 8（b）展示了对信号幅度分别为 1、 0.8、 0.6、 0.4、 0.2 的信号的自动增益曲线。图 8（a）中纵坐标表示信号帧增益因子，。

42、横坐标代表信号帧子带信噪比。图 8 （b）中纵坐标代表经过自动增益后的信号帧频域幅度，横坐标代表信号帧子带信噪比。由图可以看出，通过本优选实施例进行的自动增益曲线具有这样的特征：该自动增益曲线是说明书 CN 103544961 A 12 10/10 页 13 一个单调增函数，随着信噪比的增大增益因子也增大。当信噪比很低时增益因子很小，主要对信号起到衰减的效果；当信噪比较高时增益因子趋近于 1，能够较好的保留语音成分。在一定的信噪比下，输入信号帧幅度越大被衰减的越小，也即信号被保留的越多。 0145 因此，采用具有图 8（a）和图 8（b）性质的自动。

43、增益计算公式能够根据输入语音帧信号不同子带的幅值大小、不同子带的信噪比高低，得到不同情况下的增益因子，较好的抑制了背景噪声，保留了语音成分。 0146 图9是根据本发明实施例二的语音增强方案的算法框图，如图9所示，该语音增强算法包括六个部分，分别为信号预处理、频域变化、信号与噪声帧检测、噪声样本更新、计算自动增益系数和时域变换输出等。图 10 是根据本发明实施例二的语音增强方案的算法流程图，如图10所示，设一段语音信号为x(n)，以手机信号为例，采样率为8KHz。，则上述算法过程描述如下： 0147 首先将语音信号通过预处理模块，对其进行分帧，。

44、低频滤波，加窗，短时能量计算等。为了保证语音信号的短时平稳性，可以在一帧中选取 256 个点，这样一帧信号为 32ms，帧间重叠 128 点。窗函数选取汉宁窗，低频滤波器的截止频率选为 100Hz。 0148 其次，通过频域变换模块，对其进行 FFT 变换， Bark 子带划分，子带能量估计等。 0149 然后，通过语音与噪声帧检测模块，对其进行信号帧与噪声帧判断，噪声样本更新，噪声功率谱估计，子带信噪比计算等。 0150 接着，通过计算自动增益系数模块，对其进行自动增益系数计算。 0151 最后，将进行过自动增益的频域信号通过 FFT 反变换，输出增。

45、强后的语音信号。 0152 在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施例中描述的技术方案。 0153 在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于光盘、软盘、硬盘、可擦写存储器等。 0154 显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不。

46、同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。 0155 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书 CN 103544961 A 13 1/6 页 14 图 1 图 2 图 3 图 4 说明书附图 CN 103544961 A 14 2/6 页 15 图 5 图 6 图 7 说明书附图 CN 103544961 A 15 3/6 页 16 图 8(a) 图 8(b) 说明书附图 CN 103544961 A 16 4/6 页 17 图 9 说明书附图 CN 103544961 A 17 5/6 页 18 图 10 图 11 说明书附图 CN 103544961 A 18 6/6 页 19 图 12 说明书附图 CN 103544961 A 19 。

展开阅读全文