声音处理设备、 声音处理方法及声音处理程序 【技术领域】
本发明涉及声音处理设备、 声音处理方法及声音处理程序, 更具体地说, 涉及一种 能够高准确度地抑制啸声的声音处理设备、 声音处理方法及声音处理程序。背景技术
当由麦克风收集的声音经放大器放大然后从诸如扬声器的扩音系统输出时, 所输 出的声音通过空气传播, 并被反馈给麦克风以形成闭环。取决于诸如音量或每个部件的位 置的条件, 音频信号的特定频率的振幅逐渐增大, 导致称为啸声的振荡。
自动抑制啸声的方法是, 通过频率分析来检测发生啸声的频率 ( 以下称为啸声频 率 ), 并通过建立多个与啸声频率相对应的陷波滤波器来减小啸声频率的增益 ( 例如, 参见 日本未经审查的专利申请公报 2009-49921 号 )。 发明内容
然而, 由于使用阈值来检测啸声频率, 因此如果阈值低, 则对啸声的响应快, 但是 有可能发生对啸声频率的检测错误, 并且声音质量可能下降。
如果阈值高, 则啸声频率的检测错误减少并且声音质量改善, 但是因为对啸声的 响应慢, 所以在啸声发生之后才将其抑制。
对于误检测的啸声频率或不再发生啸声的啸声频率, 可以释放陷波滤波器以抑制 声音质量的下降, 但是为此目的的控制是困难的。
如上所述, 现有技术的方法难以高准确度地抑制啸声。
期望高准确度地抑制啸声。
根据本发明的实施例, 提供了一种声音处理设备, 包括 : 功率谱运算装置, 用于获 得音频信号的功率谱 ; 包络分量去除装置, 用于去除所述功率谱的包络分量并生成表示所 述功率谱的峰的信号特征 ; 滤波器特征计算装置, 用于通过使用所述信号特征来计算抑制 所述信号特征的滤波器特征 ; 以及抑制滤波器, 用于通过使用所述滤波器特征对所述音频 信号进行滤波。
根据本发明实施例的声音处理方法和声音处理程序与根据本发明实施例的声音 处理设备相对应。
在本发明的实施例中, 获得音频信号的功率谱, 去除功率谱的包络分量, 生成表示 功率谱的峰的信号特征, 利用信号特征来计算用于抑制该信号特征的滤波器特征, 并利用 滤波器特征对声音特性进行滤波。
根据本发明的实施例, 可以高准确度地抑制啸声。 附图说明
图 1 是示出根据本发明实施例的声音处理设备的结构示例的框图。 图 2 是示出图 1 中的特性计算单元的详细结构示例的框图。图 3A 至图 3C 示出了图 2 中的特性计算单元中的信号。 图 4A 至图 4C 示出了图 2 中的特性计算单元中的信号。 图 5 是示出由图 2 中的特性计算单元进行的滤波器特征计算的流程图。 图 6 是示出图 1 中的特性计算单元的另一个详细结构示例的框图。 图 7A 至图 7C 示出了图 6 中的特性计算单元中的信号。 图 8 是示出由图 6 中的特性计算单元进行的滤波器特征计算的流程图。 图 9 是示出计算机的实施例的结构示例的框图。具体实施方式
< 实施例 >
[ 声音处理设备的实施例的结构示例 ]
图 1 是示出根据本发明实施例的声音处理设备的结构示例的框图。
图 1 中的声音处理设备 10 包括麦克风 11、 信号处理单元 12、 放大器 13 和扬声器 14 ; 输入到麦克风 11 的声音通过抑制啸声而被放大, 然后从扬声器 14 输出。
具体来说, 声音处理设备 10 的麦克风 11 收集环境声音, 并将该声音的音频信号提 供给信号处理单元 12。 信号处理单元 12 包括抑制滤波器 21 和特性计算单元 22。抑制滤波器 21 使用从 特性计算单元 22 提供的滤波器特征对从麦克风 11 提供的音频信号进行滤波, 并将该音频 信号提供给放大器 13。
特性计算单元 22 使用从麦克风 11 提供的音频信号来计算抑制滤波器 21 的滤波 器特征, 并将该滤波器特征提供给抑制滤波器 21。这更新抑制滤波器 21。将参照后面示出 的图 2 对特性计算单元 22 的细节进行描述。
放大器 13 对从抑制滤波器 21 提供的音频信号进行放大, 并将该音频信号提供给 扬声器 14。扬声器 14 输出与从放大器 13 提供的音频信号相对应的声音。
[ 特性计算单元的详细结构示例 ]
图 2 是示出图 1 中的特性计算单元 22 的详细结构示例的框图。
图 2 中的特性计算单元 22 包括 FFT( 快速傅里叶变换 ) 运算单元 31、 功率谱运算 单元 32、 包络分量去除单元 33 以及滤波器特征计算单元 34。特性计算单元 22 逐帧地处理 从麦克风 11 提供的音频信号。
FFT 运算单元 31 通过对从麦克风 11 提供的作为时域信号的音频信号进行 FFT 运 算将该音频信号转换为频域信号。FFT 运算单元 31 将该频域信号提供给功率谱运算单元 32。
功率谱运算单元 32 计算从 FFT 运算单元 31 提供的频域信号的绝对平方值以获得 功率谱。功率谱运算单元 32 将该功率谱提供给包络分量去除单元 33。
包络分量去除单元 33 从由功率谱运算单元 32 提供的功率谱中去除包络分量以生 成表示该功率谱的峰的信号特征。包络分量去除单元 33 将该信号特征提供给滤波器特征 计算单元 34。
滤波器特征计算单元 34 通过使用从包络分量去除单元 33 提供的信号特征来计算 用于抑制该信号特征的滤波器特征。具体来说, 滤波器特征计算单元 34 使用以下公式 (1)
至 (3) 中的任一个来计算滤波器特征。
I(f) = -α·p(f) ...(1)
在公式 (1) 至 (3) 中, p(f) 表示信号特征, I(f) 表示滤波器特征, α 是确定抑制 滤波器 21 的增益的系数。
[ 对特性计算单元中的信号的说明 ]
图 3A 至图 4C 示出了图 2 中的特性计算单元 22 中的信号。
在图 3A 至图 4C 中, 横轴表示频率 (f), 纵轴表示音频信号的电平 (dB)。
在图 2 中的特性计算单元 22 的包络分量去除单元 33 中, 从在图 3A 中用实线指示 的功率谱中去除在图 3A 中用虚线指示的包络分量以生成图 3B 中的信号特征。
然后, 滤波器特征计算单元 34 例如使用图 3B 中的信号特征来进行公式 (1) 的运 算 (α = 1), 以计算图 3C 中的滤波器特征。
去除包络分量的方法例如使用倒频谱。
在该方法中, 首先对在图 4A 中用实线指示的功率谱 S(f) 的对数 (logS(f)) 进行 IFFT( 快速傅里叶逆变换 ), 并将该功率谱转换成图 4B 中的倒频谱。
接下来, 在图 4B 中的倒频谱中, 虚线框内的低阶分量 ( 包络分量 ) 被设定为 0dB, 而实线框内的高阶分量不变。然后, 对所得到的倒频谱进行 FFT 运算。这生成作为信号特 征的功率谱, 从该功率谱中去除了图 4C 中的包络分量。
[ 对由特性计算单元进行的处理的说明 ]
图 5 是示出由图 2 中的特性计算单元 22 进行的滤波器特征计算的流程图。对例 如从麦克风 11 提供的音频信号逐帧地进行滤波器特征计算。
在图 5 中的步骤 S11 中, FFT 运算单元 31 通过对从麦克风 11 提供的作为时域信 号的音频信号进行 FFT 运算将该音频信号转换成频域信号。 FFT 运算单元 31 将该频域信号 提供给功率谱运算单元 32。
在步骤 S12 中, 功率谱运算单元 32 计算从 FFT 运算单元 31 提供的频域信号的绝 对平方值以获得功率谱。功率谱运算单元 32 将该功率谱提供给包络分量去除单元 33。
在步骤 S13 中, 包络分量去除单元 33 从由功率谱运算单元 32 提供的功率谱中去 除包络分量以生成信号特征。包络分量去除单元 33 将该信号特征提供给滤波器特征计算 单元 34。
在步骤 S14 中, 滤波器特征计算单元 34 通过利用从包络分量去除单元 33 提供的 信号特征进行公式 (1) 至 (3) 中的任一个来计算滤波器特征。然后, 处理结束。
如上所述, 声音处理单元 10 获得音频信号的功率谱, 通过去除功率谱的包络分量 来生成信号特征, 通过使用信号特征来计算用于抑制和平坦化信号特征的滤波器特征, 并 使用滤波器特征对音频信号进行滤波。
因此, 可以在发生啸声之前响应于发生的征兆逐渐地防止啸声发生。 另外, 利用音 频信号的信号特征自适应地更新抑制滤波器 21, 因此可以抑制必须抑制的频率的音频信号 的增益。如上所述, 可以高准确度地抑制啸声。
[ 特性计算单元的另一个详细结构示例 ]
图 6 是示出图 1 中的特性计算单元 22 的另一个详细结构示例的框图。
在图 6 中的结构中, 与图 2 中相同的部件具有相同的附图标记。适当省略对其的 赘述。
与图 2 中的结构不同的是, 图 6 中的特性计算单元 22 具有音调检测单元 51、 谐波 结构去除单元 52 和时间平均化单元 53。图 6 中的特性计算单元 22 计算滤波器特征, 用于 对从中去除了频率是声音音调的正整数倍的分量的信号特征进行时间平均化, 并用于抑制 所得到的信号特征。
音调检测单元 51 对从功率谱运算单元 32 输出的功率谱的对数进行 IFFT 运算, 以 将该功率谱转换成倒频谱。音调检测单元 51 在与倒频谱的声音音调可以存在的频率相对 应的范围 ( 例如, 3.3ms 至 15ms) 中检测最高峰, 并采用该峰的频率作为声音音调的候选。 音调检测单元 51 获得音调的候选与处理对象帧的零阶倒频谱之间的比率, 并且如果该比 率等于或大于阈值, 则采用音调的候选作为音调。音调检测单元 51 将该音调提供给谐波结 构去除单元 52。 谐波结构去除单元 52 确定由包络分量去除单元 33 输出的信号特征是否具有这样 的谐波结构, 其中在是从音调检测单元 51 提供的音调的正整数倍的频率处存在峰。
如果谐波结构去除单元 52 检测到信号特征具有该谐波结构, 则谐波结构去除单 元 52 将频率是信号特征音调的正整数倍的信号特征的分量确定为声音分量, 并将该分量 设定为 0dB。即, 信号特征的音调的分量和该音调的更高的谐波分量被设定为 0dB。然后, 谐波结构去除单元 52 将所得到的信号特征提供给时间平均化单元 53。要被谐波结构去除 单元 52 设定为 0dB 的分量除了音调的更高的谐波分量之外还可以包括边带频率的分量。
时间平均化单元 53 保持从谐波结构去除单元 52 提供的信号特征。时间平均化单 元 53 使用从谐波结构去除单元 52 提供的处理对象帧的信号特征以及先前帧的信号特征对 信号特征进行时间平均化。
例如, 时间平均化单元 53 使用以下公式 (4) 连同处理对象帧的信号特征 In(f) 和 处理对象帧的前一帧的信号特征 In-1(f) 一起对信号特征 In(f) 进行时间平均化。在公式 (4) 中, β 表示系数。
In(f) = In-1(f)×β+In(f)×(1-β) ...(4)
0≤β≤1
根据公式 (4), 时间平均化之后的处理对象帧的信号特征 In(f) 由处理对象帧的信 号特征 In(f) 与处理对象帧的前一帧的信号特征 In-1(f) 的加权和来表示。
公式 (4) 用于低阶 IIR 型时间平均化, 但是时间平均化单元 53 除了低阶 IIR 型时 间平均化之外还可以进行高阶 IIR 或 FIR 型时间平均化或非线性时间平均化。
时间平均化单元 53 将经时间平均化的信号特征提供给滤波器特征计算单元 34。 其计算滤波器特征, 用于抑制经时间平均化的信号特征。
[ 对特性计算单元中的信号的说明 ]
图 7A 至图 7C 示出了图 6 中的特性计算单元 22 中的信号。
在图 6 中的特性计算单元 22 的音调检测单元 51 中, 对功率谱的对数进行 IFFT 运 算, 以将该功率谱转换成图 7A 中的倒频谱。在倒频谱的声音音调可以存在的频率范围中检 测最高峰 P, 在图 7A 中该范围由实线框指示, 峰 P 的频率 fP 被用作声音音调的候选。然后, 获得声音音调的候选与零阶倒频谱之间的比率。在图 7A 至图 7C 的示例中, 该比率等于或 大于阈值, 从而作为音调的候选的频率 fP 被用作声音音调。
谐波结构去除单元 52 检测图 7B 中的信号特征中频率是声音音调的正整数倍的分 量 fP、 2fP、 3fP、 4fP......。当分量具有如图 7B 中所示的峰时, 检测到信号特征具有音调谐 波结构, 并且所述分量被设定为 0dB。结果, 获得图 7C 中所示的信号特征。
[ 对特性计算单元中的处理的说明 ]
图 8 是示出由图 6 中的特性计算单元 22 进行的滤波器特征计算的流程图。对例 如从麦克风 11 提供的音频信号逐帧地进行该滤波器特征计算。
在图 8 中的步骤 S31 中, FFT 运算单元 31 通过对从麦克风 11 提供的作为时域信 号的音频信号进行 FFT 运算将该音频信号转换成频域信号。然后, FFT 运算单元 31 将该频 域信号提供给功率谱运算单元 32。 在步骤 S32 中, 功率谱运算单元 32 计算从 FFT 运算单元 31 提供的频域信号的绝 对平方值以获得功率谱。功率谱运算单元 32 将该功率谱提供给包络分量去除单元 33 和音 调检测单元 51。
在步骤 S33 中, 音调检测单元 51 使用从功率谱运算单元 32 提供的功率谱来检测 音调的候选。具体来说, 音调检测单元 51 对功率谱的对数进行 IFFT 运算以将该功率谱转 换成倒频谱。音调检测单元 51 在与倒频谱的声音音调可以存在的频率相对应的范围中检 测最高峰, 并采用峰的频率作为声音音调的候选。
在步骤 S34 中, 包络分量去除单元 33 从由功率谱运算单元 32 提供的功率谱中去 除包络分量, 以生成信号特征。包络分量去除单元 33 将该信号特征提供给滤波器特征计算 单元 34。
在步骤 S35 中, 音调检测单元 51 确定音调的候选与处理对象帧的零阶倒频谱之间 的比率是否等于或大于阈值。在步骤 S35 中如果该比率等于或大于阈值, 则音调检测单元 51 采用该候选作为音调并将其提供给谐波结构去除单元 52。
在步骤 S36 中, 谐波结构去除单元 52 确定由包络分量去除单元 33 提供的信号特 征是否具有这样的谐波结构, 其中在是从音调检测单元 51 提供的音调的正整数倍的频率 处存在峰。
在步骤 S36 中如果确定信号特征具有音调的谐波结构, 则在步骤 S37 中谐波结构 去除单元 52 将信号特征中频率是音调的正整数倍的分量设定为 0dB。然后, 谐波结构去除 单元 52 将所得到的信号特征提供给时间平均化单元 53, 并且处理进行到步骤 S38。
如果在步骤 S35 中确定音调的候选与处理对象帧的零阶倒频谱之间的比率小于 阈值, 或者如果在步骤 S36 中信号特征不具有音调的谐波结构, 则谐波结构去除单元 52 将 由包络分量去除单元 33 生成的信号特征照原样提供给时间平均化单元 53。处理进行到步 骤 S38。
在步骤 S38 中, 时间平均化单元 53 使用以上公式 (4) 连同处理对象帧的信号特征
和处理对象帧的前一帧的信号特征一起对从谐波结构去除单元 52 提供的处理对象帧的信 号特征进行时间平均化。
在步骤 S39 中, 滤波器特征计算单元 34 使用从时间平均化单元 53 提供的经时间 平均化的特性信号来计算滤波器特征, 并将结果提供给抑制滤波器 21( 图 1)。 然后, 处理结 束。
如上所述, 在具有图 6 中的特性计算单元 22 的声音处理单元 10 中, 抑制滤波器 21 使用与经时间平均化的信号特征相对应的滤波器特征来进行滤波, 因此急剧地改变的其它 信号及音频信号未被抑制, 并且改善了从扬声器 14 输出的声音的质量。
另外, 具有图 6 中的特性计算单元 22 的声音处理单元 10 检测声音音调并通过使 用其中频率是音调的正整数倍的分量被设定为 0dB 的信号特征来计算滤波器特征, 因此在 抑制滤波器 21 中, 声音音调的谐波结构未丢失。结果, 改善了从扬声器 14 输出的声音的质 量。
[ 对根据本发明实施例的计算机的说明 ]
可以通过硬件或软件来实现上述一系列处理。当通过软件来实现这一系列处理 时, 构成软件的程序安装在通用计算机等中。
图 9 示出了其中安装有用于进行这一系列处理的程序的计算机的实施例的结构示例。 程序可以预先存储在作为计算机中的内置存储介质的存储单元 208 或 ROM( 只读 存储器 )202 中。
程序还可以存储 ( 记录 ) 在可移动介质 211 上。这种类型的可移动介质 211 可 以被提供为所谓的套装软件。可移动介质 211 的示例是软盘、 CD-ROM( 只读光盘存储器 )、 MO( 磁光 ) 盘、 DVD( 数字多用途盘 )、 磁盘和半导体存储器。
可以通过驱动器 210 从可移动介质 211 将程序安装在计算机中, 或者可以通过 通信网或广播网将程序下载到计算机来将程序安装在存储单元 208 中。即, 可以将程序 通过用于数字卫星广播的人造卫星从下载站点以无线方式传送到计算机, 或者通过诸如 LAN( 局域网 ) 或因特网的网络传送到计算机。
计算机包括 CPU( 中央处理单元 )201, 输入 / 输出接口 205 通过总线 204 连接到 CPU 201。
当用户通过操作输入单元 206 经由输入 / 输出接口 205 输入指令时, CPU 201 根 据该指令执行存储在 ROM 202 中的程序。可替选的是, CPU201 通过将程序加载到 RAM( 随 机存取存储器 )203 来执行存储在存储单元 208 中的程序。
这使得 CPU 201 执行根据以上流程图的处理或者由以上框图中的结构进行的处 理。然后, 如果需要的话, CPU 201 通过输入 / 输出接口 205 将处理结果输出到输出单元 207, 从通信单元 209 发送处理结果, 或者将处理结果存储在存储单元 208 中。
输入单元 206 包括键盘、 鼠标和麦克风。输出单元 207 包括 LCD( 液晶显示器 ) 和 扬声器。
在本说明书中, 计算机在根据程序的处理过程中不必在时间顺序上遵循流程图的 顺序。即, 计算机根据程序进行的处理包括并行地或单独地进行的处理 ( 例如, 并行处理或 目标处理 )。
程序可以通过一个计算机 ( 处理器 ) 来处理, 或者通过多个计算机分布式地处理。 程序可以被传送到远程计算机来执行。
本申请包含与 2009 年 10 月 15 日提交日本专利局的日本优先权专利申请 JP 2009-238366 中所公开的主题相关的主题, 通过引用将其全部内容合并于此。
本领域技术人员应当理解, 根据设计要求及其它因素可以想到各种修改、 组合、 子 组合和变更, 只要它们在所附权利要求书或其等同物的范围内即可。