一种语音识别场景中回音消除的方法.pdf

摘要
申请专利号：	CN201610598402.5	申请日：	2016.07.27
公开号：	CN106297815A	公开日：	2017.01.04
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G10L 21/02申请日:20160727\|\|\|公开
IPC分类号：	G10L21/02(2013.01)I; G10L21/0208(2013.01)I; G10L15/22	主分类号：	G10L21/02
申请人：	武汉诚迈科技有限公司
发明人：	赵成义; 何川
地址：	430074 湖北省武汉市东湖新技术开发区关山大道一号光谷软件园A2栋4楼
优先权：
专利代理机构：	武汉天力专利事务所 42208	代理人：	吴晓颖
PDF下载：	PDF下载

内容摘要

本发明属于语音识别领域，提供一种语音识别场景中回音消除的实施方法，该方法使用双数字麦克风通道，在音频数字信号处理模块中同时获得麦克输入和扬声器输出音频数据，将其中的扬声器输出右声道数据复制到麦克输入音频数据的右声道中，形成合成的麦克输入音频数据，将合成的麦克输入音频数据提供给上层的回音消除模块，通过回音消除模块AEC对合成的麦克输入音频数据的左右声道进行算法处理，输出可供语音识别模块使用的语音输入音频数据，让设备能够识别外界语音指令。本发明方法能够有效减低设备自身播放的音频对设备语音识别功能的干扰，从而让设备更加准确地识别外界语音指令，增强人机语音交互的操作体验。

权利要求书

1.一种语音识别场景中回音消除的方法，其特征在于：
该方法在硬件方面的预置条件为：音频输入为两个数字麦克，在物理电路上，连接数字
麦克1，不连接数字麦克2，即数字麦克2虚焊，不连接真实的数字麦克；音频输出为一个扬声
器；
在软件方面的预置条件为：AEC算法需要使用两种音频数据，分别是从麦克录制的麦克
输入音频数据和从扬声器播放的扬声器输出音频数据，要求录制音频必须使用双声道的录
制方法；
具体的该方法步骤如下：
（1）将双声道合成算法加载到音频数字信号处理模块中，该算法将数字麦克1输入的录
制音频和将多媒体应用程序输出到扬声器的播放音频合成一种双声道音频，将其中的扬声
器输出音频数据复制到麦克输入音频数据的右声道中，在这种合成的音频中左声道为麦克
输入的音频，右声道为扬声器输出的音频；
（2）在麦克输入音频处理软件模块中，将根据其上层回音消除AEC软件模块中AEC算法
的需求对合成的麦克输入音频进行调整，特别需要调整右声道中的扬声器输出的音频数据
的音量；
（3）在回音消除AEC软件模块获得了合成的双声道音频以后，使用音频分解算法，分解
出左声道音频麦克输入音频和右声道音频扬声器输出音频，作为两路独立的单声道音频传
入到AEC算法中，通过AEC算法处理以后，输出清晰的语音音频，并将其提供给语音识别软件
模块进行语音识别处理。
2.根据权利要求1所述的语音识别场景中回音消除的方法，其特征在于：该方法包括音
频数字信号处理模块、回音消除AEC软件模块、麦克输入音频处理软件模块、扬声器输出音
频处理软件模块、语音识别软件模块，
音频数字信号处理模块，对输入输出的音频数据进行编解码以及各种音频调节处理；
回音消除AEC软件模块，对合成的麦克输入音频数据的左右声道进行算法处理，从麦克
录制的输入音频中消除掉所包含的扬声器输出的音频；
麦克输入音频处理软件模块，对麦克输入音频进行音量的调节；
扬声器输出音频处理软件模块，对扬声器输出音频进行音量的调节；
语音识别软件模块，通过智能分析输入的语音，驱动系统作出相应的操作。

说明书

一种语音识别场景中回音消除的方法

技术领域

本发明属于语音识别领域，特别涉及一种语音识别场景中回音消除的方法。

背景技术

随着人工智能技术的发展，语音作为一种很好的人机交互模式，逐渐被应用到很
多智能设备中。语音输入是通过语音识别将人说话的内容转换为文本的一种输入方式。

在很多领域，用户可以通过语音输入的方式代替手动输入来执行相应命令，例如，
用户可以通过对手机说“请打开音乐”来打开音乐播放器应用程序，然后在播放过程中说
“播放下一首”来进行歌曲的切换。手机对用户输入的语音信号进行识别后，执行相应操作。

但是，在很多语音识别的使用场景中，如果用于识别输入语音的设备自身可能正
在播放音频（例如播放音视频，语音播报等），那么从设备麦克风的输入音频中混合了该设
备扬声器的播放音频，也即是扬声器的声音反馈到麦克风中去了，这种存在于设备麦克风
输入音频中的扬声器播放音频通常被称为回音（Acoustic Echo），回音的存在往往会干扰
设备对外界语音的识别。

图1是回音消除AEC的简化原理图：其中信号1，是从麦克风输入的语音和回音混合
而成的语音音频；另一个虚线的信号2，是原始的引起回音的音频。回音消除AEC，就是利用
信号1和信号2，从信号1中把回音消除掉，输出清晰的语音。通常把信号1称为近端音频信号
ne(near end)，信号2称为远端参考音频信号fe(far end)，现有的回音消除的实施方案普
遍通过网络或者使用硬件电路的方法获取用于回音消除的参考音频信号fe，并且大部分应
用于特定的语音通信领域，或者应用于消除环境噪音等。

因此，现有回音消除的实施方案获取用于回音消除的参考音频信号的方法，以及
实施方案不具备消除设备自身播放的多种音频（例如播放音视频，语音播报等）的功能，不
适用于语音识别的场景。

发明内容

本发明的目的在于克服上述现有技术中的不足，而提出的一种语音识别场景中回
音消除的方法，该方法能够有效减低设备自身播放的音频对设备语音识别功能的干扰，从
而让设备更加准确地识别外界语音指令，增强人机语音交互的操作体验。

本发明的目的是通过以下技术方案实现的。

一种语音识别场景中回音消除的方法，

该方法在硬件方面的预置条件为：音频输入为两个数字1和数字麦克2，在物理电路上，
连接数字麦克1，不连接数字麦克2，即数字麦克2虚焊，不连接真实的数字麦克；音频输出为
一个扬声器；

在软件方面的预置条件为：AEC算法需要使用两种音频数据，分别是从麦克录制的音频
数据和从扬声器播放的音频数据speaker_output，要求录制音频必须使用双声道的录制方
法；

该方法包括音频数字信号处理模块Audio DSP、回音消除AEC软件模块、麦克输入音频
处理软件模块、扬声器输出音频处理软件模块、语音识别软件模块，

音频数字信号处理模块，对输入输出的音频数据进行编解码以及各种音频调节处理；

回音消除AEC软件模块，对合成的麦克输入音频数据的左右声道进行算法处理，从麦克
录制的输入音频中消除掉所包含的扬声器输出的音频；

麦克输入音频处理软件模块，对麦克输入音频进行音量的调节；

扬声器输出音频处理软件模块，对扬声器输出音频进行音量的调节；

语音识别软件模块，通过智能分析输入的语音，驱动系统作出相应的操作。

具体的语音识别场景中回音消除的方法步骤如下：

（1）将双声道合成算法加载到音频数字信号处理模块Audio DSP中，该算法将数字麦克
1输入的录制音频和将多媒体应用程序输出到扬声器的播放音频合成一种双声道音频，将
其中的扬声器输出音频数据复制到麦克输入音频数据的右声道中，在这种合成的音频中左
声道为麦克输入的音频，右声道为扬声器输出的音频；

（2）在麦克输入音频处理软件模块中，将根据其上层回音消除AEC软件模块中AEC算法
的需求对合成的麦克输入音频进行调整，特别需要调整右声道中的扬声器输出的音频数据
的音量，适当的音量会改善通过AEC算法处理后输出音频的效果；

（3）在回音消除AEC软件模块获得了合成的双声道音频以后，使用音频分解算法，分解
出左声道音频麦克输入音频和右声道音频扬声器输出音频，作为两路独立的单声道音频传
入到AEC算法中，通过AEC算法处理以后，输出清晰的语音音频，并将其提供给语音识别软件
模块进行语音识别处理。

本发明与传统的回音消除方式相比其优点在于:本发明提供了一种新的语音识别
场景中回音消除的实施方法，该方法使用双数字麦克风通道，通过软件复制播放音频数据
的方法获取用于回音消除的参考音频信号，能够有效减低设备自身播放的音频对设备语音
识别功能的干扰，从而让设备更加准确地识别外界语音指令，增强人机语音交互的操作体
验。

附图说明

图1是回音消除AEC的简化原理图。

图2是本发明回音消除方法的实施例示意图。

具体实施方式

下面结合附图和实施案例，对本发明专利的技术方案进行具体说明。

参考图2，实施回音消除，需要得到两种音频数据，分别是从麦克录制的输入音频
数据mic_input和从扬声器输出的音频数据speaker_output，因为麦克输入音频数据mic_
input是对所有外界声音的录制，其中包含了部分扬声器输出音频数据speaker_output的
内容，这里所说的回音消除就是消除麦克输入音频数据mic_input中所包含的扬声器输出
音频数据speaker_output的内容，然后输出清晰的speech_input语音，最终的目的是让设
备能够识别外界语音指令，用一个简单的数学公式表示为：

speech_input = mic_input – F(speaker_output)。

在移动操作系统的音频子系统中，通常会有一个音频数字信号处理模块Audio
DSP，一般的输入输出音频数据都会经过该模块做某些算法处理，前面所提到的麦克输入音
频和扬声器输出音频数据同样也会经过音频数字信号处理模块，本技术方案的核心就是在
音频数字信号处理模块中同时获得麦克输入音频和扬声器输出音频数据，将其中的扬声器
输出音频数据复制到麦克输入音频数据的右声道中，形成一种新的音频数据，即合成的麦
克输入音频数据，其左声道为麦克输入音频，右声道为扬声器输出音频，将合成的麦克输入
音频数据提供给上层的回音消除AEC软件模块，通过回音消除AEC软件模块对合成的麦克输
入音频数据的左右声道进行算法处理，输出可供语音识别模块使用的语音输入音频数据，
让设备能够识别外界语音指令。

本实施例提供一种语音识别场景中回音消除的方法，

该方法在硬件方面的预置条件为：音频输入为两个数字麦克，在物理电路上，连接数字
麦克1，不连接数字麦克2，即数字麦克2虚焊，不连接真实的数字麦克；音频输出为一个扬声
器；

在软件方面的预置条件为：AEC算法需要使用两种音频数据，分别是从麦克录制的音频
数据和从扬声器输出的音频数据，要求录制音频必须使用双声道的录制方法；