《语音信号处理方法及装置.pdf》由会员分享,可在线阅读,更多相关《语音信号处理方法及装置.pdf(19页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103544961 A (43)申请公布日 2014.01.29 CN 103544961 A (21)申请号 201210236881.8 (22)申请日 2012.07.10 G10L 25/51(2013.01) (71)申请人 中兴通讯股份有限公司 地址 518057 广东省深圳市南山区科技南路 55 号 (72)发明人 王进军 孙焘 刘冬梅 薛涛 王霞 姚远 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 代理人 余刚 梁丽超 (54) 发明名称 语音信号处理方法及装置 (57) 摘要 本发明公开了一种语音信号处理方法及装 置, 其中,。
2、 该方法包括 : 获取语音信号帧的能量分 布特性 ; 根据该能量分布特性判断该语音信号帧 是否为噪声帧。 通过本发明, 解决了相关技术中对 变化较快的非平稳噪声的判别效果较差的问题, 提高了对语音信号中噪声帧的判断准确性。 (51)Int.Cl. 权利要求书 2 页 说明书 10 页 附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书10页 附图6页 (10)申请公布号 CN 103544961 A CN 103544961 A 1/2 页 2 1. 一种语音信号处理方法, 其特征在于, 包括 : 获取语音信号帧的能量分布特性 ; 根据所述能量分布。
3、特性判断所述语音信号帧是否为噪声帧。 2. 根据权利要求 1 所述的方法, 其特征在于, 根据所述能量分布特性判断所述语音信 号帧是否为噪声帧包括 : 判断所述语音信号帧的能量分布是否集中 ; 在判断结果为否的情况下, 确定所述语音信号帧为噪声帧。 3. 根据权利要求 2 所述的方法, 其特征在于, 判断所述语音信号帧的能量分布是否集 中包括 : 计算所述语音信号帧的频域语音峰的个数 ; 在所述个数大于第一预定阈值的情况下, 确定所述语音信号帧的能量分布不集中。 4.根据权利要求2或3所述的方法, 其特征在于, 判断所述语音信号帧的能量分布是否 集中包括 : 计算所述语音信号帧的语音峰能量比 。
4、VPER ; 在所述 VPER 小于第二预定阈值的情况下, 确定所述语音信号帧的能量分布不集中 ; 其 中,SPE1为第一语音峰能量, SPE2为第二语音峰能量。 5. 根据权利要求 4 所述的方法, 其特征在于, 所述语音峰能量通过以下公式计算 : 其中 ENGi为第 i 子带能量, a 和 b 分别为所述语音峰所占频带两端的子带。 6.根据权利要求1至5中任一项所述的方法, 其特征在于, 在根据所述能量分布特性判 断所述语音信号帧是否为噪声帧之后, 还包括 : 根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比 ; 根据所述子带信噪比对所述语音信号帧进行自动增益。 7. 根据权利要。
5、求 6 所述的方法, 其特征在于, 根据所述子带信噪比对所述语音信号帧 进行自动增益包括 : 调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小, 以及随着所 述子带信噪比的增大而增大。 8. 根据权利要求 7 所述的方法, 其特征在于, 调整所述语音信号帧的自动增益系数随 着所述子带信噪比的减小而减小, 以及随着所述子带信噪比的增大而增大包括 : 且 其中, Gain 为信号幅度增益 ; Ratio 为信号增益相关系数 ; Es(m,i) 为第 m 帧信号第 i 个子带 的能量 ; SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 9. 一种语音信号处理装置, 其特征。
6、在于, 包括 : 第一获取模块, 用于获取语音信号帧的能量分布特性 ; 判断模块, 用于根据所述能量分布特性判断所述语音信号帧是否为噪声帧。 权 利 要 求 书 CN 103544961 A 2 2/2 页 3 10. 根据权利要求 9 所述的装置, 其特征在于, 所述判断模块包括 : 判断单元, 用于判断所述语音信号帧的能量分布是否集中 ; 第一确定单元, 用于在所述判断单元的判断结果为否的情况下, 确定所述语音信号帧 为噪声帧。 11. 根据权利要求 10 所述的装置, 其特征在于, 所述判断单元包括 : 第一计算单元, 用于计算所述语音信号帧的频域语音峰的个数 ; 第二确定单元, 用于在。
7、所述第一计算单元计算出的所述个数大于第一预定阈值的情况 下, 确定所述语音信号帧的能量分布不集中。 12. 根据权利要求 10 或 11 所述的装置, 其特征在于, 所述判断单元包括 : 第二计算单元, 用于计算所述语音信号帧的语音峰能量比 VPER ; 第三确定单元, 用于在所述第二计算单元计算出的所述 VPER 小于第二预定阈值的情 况下, 确定所述语音信号帧的能量分布不集中。 13. 根据权利要求 9 至 12 中任一项所述的装置, 其特征在于, 所述装置还包括 : 第二获取模块, 用于根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪 比 ; 自动增益模块, 用于根据所述第二获取。
8、模块获取的所述子带信噪比对所述语音信号帧 进行自动增益。 14. 一种语音信号处理方法, 其特征在于, 包括 : 根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比 ; 根据所述子带信噪比对所述语音信号帧进行自动增益。 15. 根据权利要求 14 所述的方法, 其特征在于, 根据所述子带信噪比对所述语音信号 帧进行自动增益包括 : 调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而减小, 以及随着所 述子带信噪比的增大而增大。 16. 根据权利要求 15 所述的方法, 其特征在于, 调整所述语音信号帧的自动增益系数 随着所 述子带信噪比的减小而减小, 以及随着所述子带信噪比的增大而。
9、增大包括 : 且 其中, Gain 为信号幅度增益 ; Ratio 为信号增益相关系数 ; Es(m,i) 为第 m 帧信号第 i 个子带 的能量 ; SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 17. 一种语音信号处理装置, 其特征在于, 包括 : 第三获取模块, 用于根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比 ; 第二自动增益模块, 用于根据所述子带信噪比对所述语音信号帧进行自动增益。 权 利 要 求 书 CN 103544961 A 3 1/10 页 4 语音信号处理方法及装置 技术领域 0001 本发明涉及通信领域, 具体而言, 涉及一种语音信号处理方法及。
10、装置。 背景技术 0002 目前在生活中, 人们对移动终端的语音通话功能及通话质量的要求越来越高, 然 而现实生活中的通话过程往往会受到背景噪声的干扰, 尤其是一些公共场合如车站、 广场、 街道等。这些非平稳的强噪声对通话质量和语音清晰度有很大的影响, 而传统的语音增强 算法通常只针对平稳的或者变化很慢的噪声具有较好的效果, 但是对变化较快的非平稳噪 声的抑制效果很不理想, 而且还会在抑制噪声的同时损失语音的清晰度。为了加强对背景 噪声的跟踪和估计, 相关技术中存在如下几种方法 : 0003 第一种, Donoho 提出了典型阈值法, Donoho 通过分析高斯白噪声在小波域的特 征, 根据经。
11、验和统计特性在小波域人为的设定一个阈值来区分噪声和实际信号。但是实际 中噪声和语音并没有一个明显的阈值界限。 0004 第二种, 基于语音活动检测的方法, 研究人员发现一段语音的最开始阶段是完全 由背景噪声组成的, 可以用这一段信号作为噪声的估计样本, 并且通过语音活动检测, 提取 出语音间隔处的信号进行噪声样本更新。但是这同样是一种粗略的提取, 只能跟踪变化缓 慢的噪声信号。 0005 这些方法都会造成语音帧和噪声帧的误判, 从而产生一定的语音失真。 0006 此外, 为了提高带噪语音的清晰度, 现有的技术如下 : 0007 第一种, 基于清浊音判定的语音增强算法, 在去噪前首先进行清浊音判。
12、定, 清音集 中了大部分语音的高频信号, 是影响语音清晰度的主要成分, 所以设置一个较低的阈值, 对 浊音设置一个稍大的阈值去除大部分噪声成分。但是在背景噪声较大的时候, 清音往往被 噪声淹没。 0008 第二种, 基于人耳掩蔽效应的去噪算法, 通过计算估计掩蔽模型的阈值, 对语音进 行阈值去噪。 但是在计算掩蔽阈值时就存在偏差, 并且计算量会增加很多, 增加了手机的运 算负担。 0009 这些算法虽然都起到了一定的效果, 但是都很难针对每一帧语音内的噪声进行精 确处理。 0010 针对相关技术中对变化较快的非平稳噪声的判别效果较差的问题, 目前尚未提出 有效的解决方案。 发明内容 0011 。
13、针对相关技术中对变化较快的非平稳噪声的判别效果较差的问题, 目前尚未提出 有效的解决方案, 本发明提供了一种语音信号处理方法及装置, 以至少解决上述问题。 0012 根据本发明的一个方面, 提供了一种语音信号处理方法, 包括 : 获取语音信号帧的 能量分布特性 ; 根据所述能量分布特性判断所述语音信号帧是否为噪声帧。 说 明 书 CN 103544961 A 4 2/10 页 5 0013 优选地, 根据所述能量分布特性判断所述语音信号帧是否为噪声帧包括 : 判断所 述语音信号帧的能量分布是否集中 ; 在判断结果为否的情况下, 确定所述语音信号帧为噪 声帧。 0014 优选地, 判断所述语音信。
14、号帧的能量分布是否集中包括 : 计算所述语音信号帧的 频域语音峰的个数 ; 在所述个数大于第一预定阈值的情况下, 确定所述语音信号帧的能量 分布不集中。 0015 优选地, 判断所述语音信号帧的能量分布是否集中包括 : 计算所述语音信号帧的 VPER ; 在所述 VPER 小于第二预定阈值的情况下, 确定所述语音信号帧的能量分布不集中 ; 其中,SPE1为第一语音峰能量, SPE2为第二语音峰能量。 0016 优选地, 所述语音峰能量通过以下公式计算 :其中ENGi为第i子带 能量, a 和 b 分别为所述语音峰所占频带两端的子带。 0017 优选地, 在根据所述能量分布特性判断所述语音信号帧。
15、是否为噪声帧之后, 还包 括 : 根据所述语音信号帧的子带能量获取所述语音信号帧的子带信噪比 ; 根据所述子带信 噪比对所述语音信号帧进行自动增益。 0018 优选地, 根据所述子带信噪比对所述语音信号帧进行自动增益包括 : 调整所述语 音信号帧的自动增益系数随着所述子带信噪比的减小而减小, 以及随着所述子带信噪比的 增大而增大。 0019 优选地, 调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而 减小, 以及随着所述子带信噪比的增大而增大包括 :且 其中, Gain为信号幅度增益 ; Ratio为信号增益相关系数 ; Es(m,i)为第m帧 信号第 i 个子带的能量 ; SNRs。
16、(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0020 根据本发明的另一方面, 提供了一种语音信号处理装置, 包括 : 第一获取模块, 用 于获取语音信号帧的能量分布特性 ; 判断模块, 用于根据所述能量分布特性判断所述语音 信号帧是否为噪声帧。 0021 优选地, 所述判断模块包括 : 判断单元, 用于判断所述语音信号帧的能量分布是否 集中 ; 第一确定单元, 用于在所述判断单元的判断结果为否的情况下, 确定所述语音信号帧 为噪声帧。 0022 优选地, 所述判断单元包括 : 第一计算单元, 用于计算所述语音信号帧的频域语音 峰的个数 ; 第二确定单元, 用于在所述第一计算单元计算出。
17、的所述个数大于第一预定阈值 的情况下, 确定所述语音信号帧的能量分布不集中。 0023 优选地, 所述判断单元包括 : 第二计算单元, 用于计算所述语音信号帧的 VPER ; 第 三确定单元, 用于在所述第二计算单元计算出的所述 VPER 小于第二预定阈值的情况下, 确 定所述语音信号帧的能量分布不集中。 0024 优选地, 所述装置还包括 : 第二获取模块, 用于根据所述语音信号帧的子带能量获 取所述语音信号帧的子带信噪比 ; 自动增益模块, 用于根据所述第二获取模块获取的所述 子带信噪比对所述语音信号帧进行自动增益。 说 明 书 CN 103544961 A 5 3/10 页 6 0025。
18、 根据本发明的再一方面, 提供了一种语音信号处理方法, 包括 : 根据语音信号帧的 子带能量获取所述语音信号帧的子带信噪比 ; 根据所述子带信噪比对所述语音信号帧进行 自动增益。 0026 优选地, 根据所述子带信噪比对所述语音信号帧进行自动增益包括 : 调整所述语 音信号帧的自动增益系数随着所述子带信噪比的减小而减小, 以及随着所述子带信噪比的 增大而增大。 0027 优选地, 调整所述语音信号帧的自动增益系数随着所述子带信噪比的减小而 减小, 以及随着所述子带信噪比的增大而增大包括 :且 其中, Gain为信号幅度增益 ; Ratio为信号增益相关系数 ; Es(m,i)为第m帧 信号第 。
19、i 个子带的能量 ; SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0028 根据本发明的还一方面, 提供了一种语音信号处理装置, 包括 : 第三获取模块, 用 于根据语音信号帧的子带能量获取所述语音信号帧的子带信噪比 ; 第二自动增益模块, 用 于根据所述子带信噪比对所述语音信号帧进行自动增益。 0029 通过本发明, 采用获取语音信号帧的能量分布特性 ; 根据该能量分布特性判断该 语音信号帧是否为噪声帧的方式, 解决了相关技术中对变化较快的非平稳噪声的判别效果 较差的问题, 提高了对语音信号中噪声帧的判断准确性。 附图说明 0030 此处所说明的附图用来提供对本发明的进一步。
20、理解, 构成本申请的一部分, 本发 明的示意性实施例及其说明用于解释本发明, 并不构成对本发明的不当限定。在附图中 : 0031 图 1 是根据本发明实施例的语音信号处理方法的流程图 ; 0032 图 2 是根据本发明实施例的语音信号处理装置的结构框图 ; 0033 图 3 是根据本发明实施例的判断模块的优选结构框图 ; 0034 图 4 是根据本发明实施例的判断单元的优选结构框图一 ; 0035 图 5 是根据本发明实施例的判断单元的优选结构框图二 ; 0036 图 6 是根据本发明实施例的语音信号处理装置的优选结构框图 ; 0037 图 7 是根据本发明实施例二的频谱域语音帧参数示意图 ;。
21、 0038 图 8(a) 是根据本发明实施例二的不同信号幅度下的增益因子曲线示意图 ; 0039 图 8(b) 是根据本发明实施例二的不同信号幅度下的自动增益输出曲线示意图 ; 0040 图 9 是根据本发明实施例二的语音增强方案的算法框图 ; 0041 图 10 是根据本发明实施例二的语音增强方案的算法流程图 ; 0042 图 11 是根据本发明实施例的另一种语音信号处理方法的流程图 ; 0043 图 12 是根据本发明实施例的另一种语音信号处理装置的结构框图。 具体实施方式 0044 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是, 在不冲突的 情况下, 本申请中的实施例及实施。
22、例中的特征可以相互组合。 0045 本实施例提供了一种语音信号处理方法, 图 1 是根据本发明实施例的语音信号处 说 明 书 CN 103544961 A 6 4/10 页 7 理方法的流程图, 如图 1 所示, 该方法包括如下步骤 : 0046 步骤 S102, 获取语音信号帧的能量分布特性 ; 0047 步骤 S104, 根据该能量分布特性判断该语音信号帧是否为噪声帧。 0048 本实施例通过上述步骤, 根据语音信号帧的能量分布特性判断该语音信号帧是否 为噪声帧, 从而能够快速准确地跟踪到每一个噪声帧, 相比相关技术中采用典型阈值法或 者基于语音活动检测的方法, 由于本实施例的方式是应用每。
23、个语音信号帧的特性来判断该 帧是否为噪声帧, 因此对噪声帧的判断更加准确, 在很大程度上减少了误判和漏判, 解决了 相关技术中对变化较快的非平稳噪声的判别效果较差的问题, 提高了对语音信号中噪声帧 的判断准确性。 0049 作为一种优选实施方式, 在通过判断语音信号帧的能量分布特性是否集中来辨识 该语音信号帧是否为噪声帧时, 可以在语音信号帧的能量分布较为分散, 并不集中的情况 下, 确定该语音信号帧为噪声帧。 通过这种方式, 能够快速准确地跟踪到非平稳噪声中的噪 声帧, 易于实现。 0050 判断语音信号帧的能量分布是否集中的方式有多种, 在本实施例中提供了两种优 选实施方式 : 0051 。
24、方式一, 可以通过计算语音信号帧的频域语音峰的个数来判断语音信号帧的能量 分布是否集中。在频域语音峰的个数大于第一预定阈值的情况下, 则可以确定语音信号帧 的能量分布不集中。优选地, 在实施过程中, 可以设置该第一预定阈值为 3 以上的数。 0052 方式二, 还可以通过计算语音信号帧的语音峰能量比 (Voice Peak Energy Ratio, 简称为 VPER) 来判断语音信号帧的能量分布是否集中, 该比值可以是指辅语音峰与 主语音峰之间的能量比值。在 VPER 小于第二预定阈值的情况下, 则可以确定语音信号帧的 能量分布不集中。优选地, 在实施过程中, 可以设置该第二阈值为例如 1.。
25、2 的常数。其中, SPE1 为第一语音峰能量, SPE2 为第二语音峰能量。优选地, 语音峰能量可以 通过以下公式计算 :其中ENGi为第i子带能量, a和b分别为所述语音峰所 占频带两端的子带。 0053 更优地, 还可以将上述两种方式结合使用, 也即结合二者来判断, 先统计语音峰个 数, 然后利用 VPER 计算公式计算能量分部情况, 从而在判断语音信号帧的能量分布是否集 中时能够更加准确。 通过上述方式, 可以更为灵活地判断语音信号帧的能量分布是否集中, 提高了方案的灵活性。 0054 作为一种优选实施方式, 在判断出语音信号帧为噪声帧之后, 还可以根据该语音 信号帧的 Bark 子带。
26、能量获取语音信号帧的子带信噪比, 然后根据该子带信噪比对语音信 号帧进行自动增益。通过这种方式进行自动增益, 相比相关技术中基于清浊音判定的语音 增强算法, 以及基于人耳掩蔽效应的去噪算法, 通过计算估计掩蔽模型的阈值对语音进行 阈值去噪的方法, 能够减小语音信号清晰度的损失。 0055 优选地, 根据该语音信号帧的 Bark 子带能量获取语音信号帧的子带信噪比, 然后 根据该子带信噪比对语音信号帧进行自动增益的方式可以为 : 调整语音信号帧的自动增益 系数随着子带信噪比的减小而减小, 以及随着子带信噪比的增大而增大。 说 明 书 CN 103544961 A 7 5/10 页 8 0056 。
27、例如, 可以按照如下公式得到信号幅度增益 : 0057 且其中, 0058 Gain 为信号幅度增益 ; Es(m,i) 为第 m 帧信号第 i 个子带的能量 ; SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0059 对应于上述语音信号处理方法, 在本实施例中还提供了一种语音信号处理装置, 该装置用于实现上述实施例及优选实施方式, 已经进行过说明的不再赘述。如以下所使用 的, 术语 “模块” 可以实现预定功能的软件和 / 或硬件的组合。尽管以下实施例所描述的装 置较佳地以软件来实现, 但是硬件, 或者软件和硬件的组合的实现也是可能并被构想的。 0060 图2是根据本发明实施例。
28、的语音信号处理装置的结构框图, 如图2所示, 该装置包 括 : 第一获取模块 22 和判断模块 24, 下面对各个模块进行详细说明。 0061 第一获取模块 22, 用于获取语音信号帧的能量分布特性 ; 判断模块 24, 与第一获 取模块 22 相连, 用于根据第一获取模块 22 获取到的能量分布特性判断该语音信号帧是否 为噪声帧。 0062 本实施例通过上述模块, 判断模块 24 根据第一获取模块 22 获取到的语音信号帧 的能量分布特性判断该语音信号帧是否为噪声帧, 从而能够快速准确地跟踪到每一个噪声 帧, 相比相关技术中采用典型阈值法或者基于语音活动检测的方法, 由于本实施例的方式 是应。
29、用每个语音信号帧的特性来判断该帧是否为噪声帧, 因此对噪声帧的判断更加准确, 在很大程度上减少了误判和漏判, 解决了相关技术中对变化较快的非平稳噪声的判别效果 较差的问题, 提高了对语音信号中噪声帧的判断准确性。 0063 图 3 是根据本发明实施例的判断模块 24 的优选结构框图, 如图 3 所示, 判断模块 24可以包括 : 判断单元242, 用于判断语音信号帧的能量分布是否集中 ; 第一确定单元244, 与判断单元242相连, 用于在判断单元242的判断结果为否的情况下, 确定该语音信号帧为 噪声帧。 0064 图 4 是根据本发明实施例的判断单元 242 的优选结构框图一, 如图 4 。
30、所示, 判断单 元242可以包括 : 第一计算单元2422, 用于计算语音信号帧的频域语音峰的个数 ; 第二确定 单元2424, 与第一计算单元2422相连, 用于在第一计算单元2422计算出的个数大于第一预 定阈值的情况下, 确定该语音信号帧的能量分布不集中。 0065 图 5 是根据本发明实施例的判断单元 242 的优选结构框图二, 如图 5 所示, 判断单 元 242 可以包括 : 第二计算单元 2426, 用于计算语音信号帧的语音峰能量比 (VPER) ; 第三确 定单元 2428, 与第二计算单元 2426 相连, 用于在第二计算单元 2426 计算出的 VPER 小于第 二预定阈值。
31、的情况下, 确定该语音信号帧的能量分布不集中。 0066 图6是根据本发明实施例的语音信号处理装置的优选结构框图, 如图6所示, 该装 置还可以包括 : 第二获取模块 62, 与判断模块 24 相连, 用于根据语音信号帧的子带能量获 取该语音信号帧的子带信噪比 ; 自动增益模块 64, 与第二获取模块 62 相连, 用于根据第二 获取模块 62 获取的子带信噪比对该语音信号帧进行自动增益。 0067 在本实施例中还提供了另一种语音信号处理方法, 图 11 是根据本发明实施例的 另一种语音信号处理方法的流程图, 如图 11 所示, 该方法包括如下步骤 : 0068 步骤 S1102, 根据语音信。
32、号帧的子带能量获取语音信号帧的子带信噪比 ; 说 明 书 CN 103544961 A 8 6/10 页 9 0069 步骤 S1104, 根据该子带信噪比对语音信号帧进行自动增益。 0070 本实施例通过上述步骤, 根据语音信号帧的 Bark 子带能量获取语音信号帧的子 带信噪比, 然后根据该子带信噪比对语音信号帧进行自动增益。通过这种方式进行自动增 益, 相比相关技术中基于清浊音判定的语音增强算法, 以及基于人耳掩蔽效应的去噪算法, 通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方法, 能够减小语音信号清晰度的损 失。 0071 优选地, 根据该语音信号帧的 Bark 子带能量获取语音信号。
33、帧的子带信噪比, 然后 根据该子带信噪比对语音信号帧进行自动增益的方式可以为 : 调整语音信号帧的自动增益 系数随着子带信噪比的减小而减小, 以及随着子带信噪比的增大而增大。 0072 例如, 可以按照如下公式得到信号幅度增益 : 0073 且其中, 0074 Gain 为信号幅度增益 ; Es(m,i) 为第 m 帧信号第 i 个子带的能量 ; SNRs(i,j) 为第 i 帧第 j 个子带的子带信噪比。 0075 对应于上述另一种语音信号处理方法, 在本实施例中还提供了另一种语音信号处 理装置, 图 12 是根据本发明实施例的另一种语音信号处理装置的结构框图, 如图 12 所示, 该装置包。
34、括 : 第三获取模块 122 和第二自动增益模块 124, 下面对各个模块进行详细说明。 0076 第三获取模块 122, 用于根据语音信号帧的子带能量获取语音信号帧的子带信噪 比 ; 第二自动增益模块 124, 与第三获取模块 122 相连, 用于根据第三获取模块 122 获取的 子带信噪比对语音信号帧进行自动增益。 0077 本实施例通过上述装置, 第三获取模块122根据语音信号帧的Bark子带能量获取 语音信号帧的子带信噪比, 第二自动增益模块 124 根据该子带信噪比对语音信号帧进行自 动增益。 通过这种方式进行自动增益, 相比相关技术中基于清浊音判定的语音增强算法, 以 及基于人耳掩。
35、蔽效应的去噪算法, 通过计算估计掩蔽模型的阈值对语音进行阈值去噪的方 法, 能够减小语音信号清晰度的损失。 0078 下面结合优选实施例进行说明, 以下优选实施例结合了上述实施例及其优选实施 方式。 0079 为了对公共场所的非平稳噪声进行跟踪和精确处理, 并尽量减小语音信号清晰度 的损失, 并加以计算量的考虑, 本优选实施例提出了一种新的非平稳噪声下的单通道 (单麦 克) 手机语音增强方法。该方法采取一种新的噪声帧的判别算法, 通过提取时变的噪声样 本, 快速跟踪非平稳噪声 ; 并通过提取两个新的语音参数 - 频域语音峰带宽 (Voice Peak Bandwidth, 简称为 VPB) 和。
36、语音峰能量比 (VPER) 实现对语音帧的精确去噪。 0080 本优选实施例中的非平稳噪声下的单麦克手机语音增强方法, 包括如下步骤 : 0081 步骤 S2, 对语音信号进行分帧、 加窗等预处理, 并计算每帧信号短时能量 ; 0082 步骤 S4, 对帧信号进行频域变换, 按照人耳掩蔽效应进行 Bark 子带划分, 并进行 子带能量估计 ; 0083 步骤 S6, 对当前帧进行判别, 判断是否为噪声帧 ; 0084 步骤 S8, 根据子带能量和噪声功率谱估计计算语音帧子带信噪比 ; 0085 步骤 S10, 根据语音帧子带信噪比计算自动增益系数, 对语音帧进行去噪处理, 对 说 明 书 CN。
37、 103544961 A 9 7/10 页 10 噪声帧进行衰减处理 ; 0086 步骤 S12, 根据噪声帧判别, 对噪声样本进行更新 ; 0087 步骤 S14, 将处理后的频谱信号变换到时间域, 输出干净的语音信号。 0088 其中, 上述步骤 S6 中噪声帧的判别具体可以包括如下步骤 : 0089 步骤 S62, 根据 S2 中时域能量进行时域判断, 如果时域能量过小则判断为噪声, 超 过设定值则判断为啸叫。 0090 步骤 S64, 对帧信号频域特性进行分析。如果频域能量超过设定值, 则进行噪声帧 判定。 0091 步骤 S66, 对信号帧频域进行语音峰参数 -VPB 和 VPER 。
38、的提取。 0092 步骤 S68, 对信号帧频域进行语音峰个数统计, 多于 3 个, 说明频域峰值过多, 不具 备语音帧能量集中分布的特性, 判断为噪声帧, 否则进行步骤 35。 0093 步骤 S70, 如果参数 VPERcons1, 则判断为语音帧信号。 0122 三、 语音帧信号去噪 0123 通过对两个参数 VPB 和 VPER 的检测, 可以确定语音帧中语音峰在频域的范围, 通 说 明 书 CN 103544961 A 11 9/10 页 12 过计算自动增益系数对语音部分进行增强 ; 而语音峰之外的频带分布的是极其微弱的语音 能量和大部分噪声能量, 可以将其衰减予以去除。 0124。
39、 其中, 自动增益系数的计算可以按照如下步骤 : 0125 步骤一, 通过噪声帧判断算法提取噪声帧, 对噪声样本进行更新。 0126 步骤二, 通过 Bark 子带划分, 对信号帧子带进行能量估计, 对噪声样本进行功率 谱估计, 并计算子带信噪比。 0127 首先, 采用离散傅里叶变换将时域帧信号变换到频域, 离散傅里叶变换如下。 0128 0129 其中, M=128, 为离散傅里叶计算长度。 0130 其次, 对频域信号计算子带能量, 并进行平滑处理, 采用如下公式 : 0131 0132 其中, Es(m,i) 表示第 m 帧信号第 i 个子带的能量 ; G(k) 为语音帧频谱分布, k。
40、 为 频谱中第 k 个样点 ; 为子带能量平滑因子, 根据实际情况取值, 其范围为 01 ; N=18, 为子带数目 ; fl(i) 为第 i 子带内的最低频谱点, fh(i) 为第 i 子带内的最高频谱点。 0133 括号内数字代表离散傅里叶变换频域采样点。 0134 然后, 对噪声样本进行功率谱估计 : 0135 0136 其中, En,min为最小子带噪声能量, 视情况取值, 本算法中以取 0.002 为例进行说 明 ; Gn(k) 为噪声帧频谱。 0137 最后, 计算每帧语音帧的子带信噪比。 0138 0139 步骤三, 根据语音帧子带信噪比计算自动增益系数。 0140 计算自动增益。
41、系数的目的是为了对噪声频谱大幅度抑制, 对语音频谱小幅度抑 制, 从而得到相对增强的语音信号, 达到抑制噪声的效果。 0141 0142 0143 其中, Gain 为信号幅度增益, Ratio 是信号增益相关系数, 是信号幅度增益 (Gain) 计算公式中的一个变量。图 8(a) 是根据本发明实施例二的不同信号幅度下的增益因子曲 线示意图, 图 8(b) 是根据本发明实施例二的不同信号幅度下的自动增益输出曲线示意图。 0144 图 8(a) 和图 8(b) 展示了对信号幅度分别为 1、 0.8、 0.6、 0.4、 0.2 的信号的自动 增益曲线。图 8(a) 中纵坐标表示信号帧增益因子, 。
42、横坐标代表信号帧子带信噪比。图 8 (b) 中纵坐标代表经过自动增益后的信号帧频域幅度, 横坐标代表信号帧子带信噪比。 由图 可以看出, 通过本优选实施例进行的自动增益曲线具有这样的特征 : 该自动增益曲线是 说 明 书 CN 103544961 A 12 10/10 页 13 一个单调增函数, 随着信噪比的增大增益因子也增大。 当信噪比很低时增益因子很小, 主 要对信号起到衰减的效果 ; 当信噪比较高时增益因子趋近于 1, 能够较好的保留语音成分。 在一定的信噪比下, 输入信号帧幅度越大被衰减的越小, 也即信号被保留的越多。 0145 因此, 采用具有图 8(a) 和图 8(b) 性质的自动。
43、增益计算公式能够根据输入语音 帧信号不同子带的幅值大小、 不同子带的信噪比高低, 得到不同情况下的增益因子, 较好的 抑制了背景噪声, 保留了语音成分。 0146 图9是根据本发明实施例二的语音增强方案的算法框图, 如图9所示, 该语音增强 算法包括六个部分, 分别为信号预处理、 频域变化、 信号与噪声帧检测、 噪声样本更新、 计算 自动增益系数和时域变换输出等。图 10 是根据本发明实施例二的语音增强方案的算法流 程图, 如图10所示, 设一段语音信号为x(n), 以手机信号为例, 采样率为8KHz。 , 则上述算法 过程描述如下 : 0147 首先将语音信号通过预处理模块, 对其进行分帧,。
44、 低频滤波, 加窗, 短时能量计算 等。为了保证语音信号的短时平稳性, 可以在一帧中选取 256 个点, 这样一帧信号为 32ms, 帧间重叠 128 点。窗函数选取汉宁窗, 低频滤波器的截止频率选为 100Hz。 0148 其次, 通过频域变换模块, 对其进行 FFT 变换, Bark 子带划分, 子带能量估计等。 0149 然后, 通过语音与噪声帧检测模块, 对其进行信号帧与噪声帧判断, 噪声样本更 新, 噪声功率谱估计, 子带信噪比计算等。 0150 接着, 通过计算自动增益系数模块, 对其进行自动增益系数计算。 0151 最后, 将进行过自动增益的频域信号通过 FFT 反变换, 输出增。
45、强后的语音信号。 0152 在另外一个实施例中, 还提供了一种软件, 该软件用于执行上述实施例及优选实 施例中描述的技术方案。 0153 在另外一个实施例中, 还提供了一种存储介质, 该存储介质中存储有上述软件, 该 存储介质包括但不限于光盘、 软盘、 硬盘、 可擦写存储器等。 0154 显然, 本领域的技术人员应该明白, 上述的本发明的各模块或各步骤可以用通用 的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布在多个计算装置所组成 的网络上, 可选地, 它们可以用计算装置可执行的程序代码来实现, 从而, 可以将它们存储 在存储装置中由计算装置来执行, 并且在某些情况下, 可以以不。
46、同于此处的顺序执行所示 出或描述的步骤, 或者将它们分别制作成各个集成电路模块, 或者将它们中的多个模块或 步骤制作成单个集成电路模块来实现。 这样, 本发明不限制于任何特定的硬件和软件结合。 0155 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的任何修 改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 103544961 A 13 1/6 页 14 图 1 图 2 图 3 图 4 说 明 书 附 图 CN 103544961 A 14 2/6 页 15 图 5 图 6 图 7 说 明 书 附 图 CN 103544961 A 15 3/6 页 16 图 8(a) 图 8(b) 说 明 书 附 图 CN 103544961 A 16 4/6 页 17 图 9 说 明 书 附 图 CN 103544961 A 17 5/6 页 18 图 10 图 11 说 明 书 附 图 CN 103544961 A 18 6/6 页 19 图 12 说 明 书 附 图 CN 103544961 A 19 。