声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf

上传人:r5 文档编号:468233 上传时间:2018-02-18 格式:PDF 页数:41 大小:6.68MB
返回 下载 相关 举报
摘要
申请专利号:

CN201380019489.0

申请日:

2013.04.16

公开号:

CN104221018A

公开日:

2014.12.17

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20141217|||公开

IPC分类号:

G06F17/30; G10L25/48; G10L25/18

主分类号:

G06F17/30

申请人:

索尼公司

发明人:

安部素嗣; 西口正之; 仓田宜典

地址:

日本东京

优先权:

2012.04.18 JP 2012-094395

专利代理机构:

中国国际贸易促进委员会专利商标事务所 11038

代理人:

杜文树

PDF下载: PDF下载
内容摘要

提供了一种声音检测装置,包括:特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时,分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括时频变换单元和似然分布检测单元,在频率方向和时间方向上使获得的似然分布平滑并且提取按照预定时间的特征值。

权利要求书

1.  一种声音检测装置,包括:
特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;
特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及
比较单元,其每当所述特征值提取单元新提取出特征值时,分别将由所述特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,
其中,所述特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并获取时频分布的时频变换单元,以及从所述时频分布获取音调似然分布的似然分布检测单元,所述特征值提取单元在频率方向和时间方向上使获取的似然分布平滑并且提取所述每隔预定时间的特征值。

2.
  根据权利要求1所述的装置,其中,所述似然分布检测单元包括在所述时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的评分单元。

3.
  根据权利要求1所述的装置,其中,所述特征值提取单元还包括在所述频率方向和/或所述时间方向上使经平滑的似然分布稀疏的稀疏单元。

4.
  根据权利要求1所述的装置,其中,所述特征值提取单元还包括将经平滑的似然分布量化的量化单元。

5.
  根据权利要求1所述的装置,其中,所述比较单元基于所述保持的检测目标声音项的特征值序列和由所述特征值提取单元针对所述预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取所述检测目标声音项的检测结果。

6.
  根据权利要求1所述的装置,还包括:
记录控制单元,其将所述预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。

7.
  一种声音检测方法,包括:
从输入时间信号中提取每隔预定时间的特征值;以及
每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,
其中,在所述特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取所述每隔预定时间的特征值。

8.
  一种程序,其使计算机执行以下操作:
从输入时间信号中提取每隔预定时间的特征值;以及
每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,
其中,在所述特征值的提取中,对每个时间帧的输入时间信号执 行时频变换,获取时频分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取所述每隔预定时间的特征值。

9.
  一种声音特征值提取装置,包括:
时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布;
似然分布检测单元,其从所述时频分布获取音调似然分布;以及
特征值提取单元,其在频率方向和时间方向上使所述似然分布平滑并且提取每隔预定时间的特征值。

10.
  根据权利要求9所述的装置,其中,所述似然分布检测单元包括在所述时频分布的每个时间帧中检测所述频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的评分单元。

11.
  根据权利要求9所述的装置,还包括:
稀疏单元,其在所述频率方向和/或所述时间方向上使经平滑的似然分布稀疏。

12.
  根据权利要求9所述的装置,还包括:
量化单元,其将经平滑的似然分布量化。

13.
  根据权利要求9所述的装置,还包括:
声音区间检测单元,其基于所述输入时间信号检测声音区间,
其中,所述似然分布检测单元在检测到的声音区间的范围内从所述时频分布获取音调似然分布。

14.
  根据权利要求13所述的装置,其中,所述声音区间检测单元包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈值确定单元。

15.
  一种声音特征值提取方法,包括:
通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;
从所述时频分布获取音调似然分布;以及
在频率方向和时间方向上使所述似然分布平滑。

16.
  一种声音区间检测装置,包括:
时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;
特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及
评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。

17.
  根据权利要求16所述的装置,还包括:
时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及
阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。

18.
  一种声音区间检测方法,包括:
通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;
基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及
基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。

说明书

声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序
技术领域
本技术涉及声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序。
背景技术
近年来,家用电器(家庭用途的电气设备)根据运行状态生成诸如控制声、通知声、操作声和警报声之类的各种声音(在下文中被称作“运行状态声”)。如果可以通过安装在家中某处的麦克风等观察这种运行状态声并且检测何时以及哪个家用电器执行哪种操作,则可以实现各种应用功能,诸如对作为所谓生活记录的自主行动历史的自动采集、针对具有听力困难的人将通知声可视化以及针对独自居住的老年人的行动监视。
运行状态声可能是简单的蜂鸣声、嘟嘟声、音乐、语音声等,并且持续时间长度在短持续时间长度的情况下大约为300ms并且在长持续时间长度的情况下大约为几十秒。这种运行状态声被诸如安装在每个家用电器上的压电式蜂鸣器或者薄型扬声器之类的来自其的声音不足够令人满意的再现设备再现,并且被使得在周围传播。
例如,PTL1公开了一种技术,其中音乐作曲的部分碎片数据被转换为时频分布,特征值被提取并且随后被与已经登记的音乐作曲的特征值相比较,并且音乐作品的名称被识别出。
引用列表
专利文献
PTL 1:日本专利第4788810号
发明内容
技术问题
还可考虑将与PTL1中公开的技术相同的技术应用于对前述运行状态声音的检测。然而,关于家用电器生成的运行状态声,存在妨碍这种检测的以下事实:
(1)有必要认出短至几百毫秒的运行状态声。
(2)由于再现设备的不佳质量,声音变得失真,或者发生共鸣并且在一些情况下频率特性极度失真。
(3)由于在周围的传播,幅度和相频特性较之实际家用电器生成的声音进一步失真。
例如,图17A示出了在靠近家用电器的位置记录的运行状态声的波形示例。另一方面,图17B示出了在远离家用电器的位置记录的运行状态声的波形示例,并且波形是失真的。
(4)诸如来自电视的输出声和交谈声之类的相对大的噪声和非恒定噪声在一些情况下由于周围的传播而被叠加。例如,图17C示出了在靠近作为噪声源的电视的位置记录的运行状态声的波形示例,并且运行状态声被淹没在噪声中。
(5)因为来自每个家用电器的声音级别和距麦克风的距离取决于每个家用电器,因此所记录的声音的音量发生变化。
希望满意地检测诸如从家用电器生成的运行状态声之类的检测目标声音。
问题的解决方案
本技术的一个实施例涉及一种声音检测装置,包括:特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并且获 取时频分布的时频变换单元、从该时频分布获取音调似然分布的似然分布检测单元以及在频率方向和时间方向上使似然分布平滑的平滑单元,并且该特征值提取单元从经平滑的似然分布中提取每隔预定时间的特征值。
根据本技术,特征值提取单元从输入时间信号中提取按照预定时间的特征值。在这种情况下,特征值提取单元对每个时间帧的输入信号执行时频变换、获取时频分布、从该时频分布获取音调似然分布、在频率方向和时间方向上使似然分布平滑并且从经平滑的似然分布中提取按照预定时间的特征值。
例如,似然分布检测单元可包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。
特征值保持单元保持预定数目的检测目标声音项的特征值序列。检测目标声音可包括人或动物的语音声等以及从家用电器生成的运行状态声(控制声、通知声、操作声、警报声等)。每当特征值提取单元新提取出特征值时,比较单元分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果。
例如,比较单元可基于保持的检测目标声音项的特征值序列和由特征值提取单元针对预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取检测目标声音项的检测结果。
根据本技术,音调似然被从输入时间信号的时频分布获得,每隔预定时间的特征值被从在频率方向和时间方向上已被平滑的似然分布中提取并使用,并且可以在不依赖于麦克风的安装位置的情况下精确地检测检测目标声音(从家用电器生成的运行状态声等)。
根据本技术,例如,特征值提取单元还可包括在频率方向和/或时间方向上使经平滑的似然分布稀疏的稀疏单元。根据本技术,例如, 特征值提取单元还可包括使经平滑的似然分布量化的量化单元。在这种情况下,可以减少特征值序列的数据量并因而减少比较计算的负担。
根据本技术,例如,该装置还可包括记录控制单元,其将预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。在这种情况下,例如,可以获得诸如家用电器的操作历史之类的在家的用户动作历史。
本技术的另一概念涉及一种声音特征值提取装置,包括:时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布;似然分布检测单元,其从该时频分布获取音调似然分布;以及特征值提取单元,其在频率方向和时间方向上使似然分布平滑并且提取每隔预定时间的特征值。
根据本技术,时频变换单元对每个时间帧的输入时间信号执行时频变换并且获取时频分布。似然分布检测单元从该时频分布获取音调似然分布。例如,似然分布检测单元可包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。此外,特征值提取单元在频率方向和时间方向上使似然分布平滑并且提取按照预定时间的特征值。
如上所述,根据本技术,音调似然性被从输入时间信号的时频分布获得,每隔预定时间的特征值被从在频率方向和时间方向上已被平滑的似然分布中提取,并且可以令人满意地提取输入时间信号中包括的声音的特征值。
根据本技术,例如,特征值提取单元还可包括稀疏单元,其在频率方向和/或时间方向上使经平滑的似然分布稀疏。根据本技术,例如,特征值提取单元还可包括量化单元,其使经平滑的似然分布量化。在这样做时,可以减少提取的特征值的数据量。
根据本技术,例如,该装置还可包括:声音区间检测单元,其基于输入时间信号检测声音区间,并且似然分布检测单元可在检测到的 声音区间的范围内从时频分布获取音调似然分布。在这样做时,可以提取对应于声音区间的特征值。
在这种情况下,声音区间检测单元可包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈值确定单元。
此外,本技术的另一实施例涉及一种声音区间检测装置,包括:时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。
根据本技术,时频变换单元对每个时间帧的输入时间信号执行时频变换并且获取时频分布。特征值提取单元基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值。此外,评分单元基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。根据本技术,例如,该装置还可包括:时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。
如上所述,根据本技术,每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值被从输入时间信号的时频分布中提取,表示每个时间帧的声音区间似然性的分数被从特征值获得,并且可以精确地获取声音区间信息。
本发明的有利效果
根据本技术,可以满意地检测诸如由家用电器生成的运行状态声等检测目标声音。
附图说明
[图1]图1是示出根据一个实施例的声音检测装置的配置示例的框图。
[图2]图2是示出特征值登记装置的配置示例的框图。
[图3]图3是示出声音区间和存在于该声音区间之前和之后的噪声区间的一个示例的示图。
[图4]图4是示出构成特征值登记装置的声音区间检测单元的配置示例的框图。
[图5A]图5A是例示出音调强度特征值计算单元的示图。
[图5B]图5B是例示出音调强度特征值计算单元的示图。
[图5C]图5C是例示出音调强度特征值计算单元的示图。
[图5D]图5D是例示出音调强度特征值计算单元的示图。
[图6]图6是示出音调强度特征值计算单元中包括的、用于获取音调特性似然性的分数S(n,k)的分布的音调似然性分布检测单元的配置示例的框图。
[图7A]图7A是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。
[图7B]图7B是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。
[图8A]图8A是示意性地示出音调特性的峰在时间方向上的变化的示图。
[图8B]图8B是示意性地示出在频谱图上的小区域伽马(Γ)中拟合的示图。
[图9]图9是示出音调似然分布检测单元检测音调似然分布的处理过程的示例的流程图。
[图10]图10是示出音调成分检测结果的一个示例的示图。
[图11]图11是示出语音声的频谱图的一个示例的示图。
[图12]图12是示出特征值提取单元的一个配置示例的框图。
[图13]图13是示出声音检测单元的一个配置示例的框图。
[图14]图14是例示出声音检测单元中的每个部件的操作的示图。
[图15]图15是示出通过软件执行声音检测处理的计算装置的配置示例的框图。
[图16]图16是示出由CPU执行的检测目标声音检测处理的过程示例的流程图。
[图17A]图17A是例示出由实际家用电器生成的声音的记录状态的示图。
[图17B]图17B是例示出由实际家用电器生成的声音的记录状态的示图。
[图17C]图17C是例示出由实际家用电器生成的声音的记录状态的示图。
具体实施方式
在下文中,将给出对用于实现本技术的实施例(在下文中被称作“实施例”)的描述。此外,将按照以下次序给出描述。
1.实施例
2.修改示例
<1.实施例>
“声音检测装置”
图1示出了根据一个实施例的声音检测装置100的配置示例。声音检测装置100包括麦克风101、声音检测单元102、特征值数据库103和记录和显示单元104。
声音检测装置100执行用于检测由家用电器生成的运行状态声(控制声、通知声、操作声、警报声等)的声音检测处理并且记录和显示检测结果。就是说,在声音检测处理中,每隔预定时间的特征值被从通过由麦克风101采集声音而获得的时间信号f(t)中提取,并且该特征值被与特征值数据库中登记的预定数目的检测目标声音项 相比较。然后,如果特征值与预定检测目标声音的特征值序列大体符合的比较结果在声音检测处理中被获得,则该预定检测目标声音的时间和名称被记录和显示。
麦克风101采集房间中的声音并且输出时间信号f(t)。房间中的声音也包括由家用电器1至N生成的运行状态声(控制声、通知声、操作声、警报声等)。声音检测单元102获取从麦克风101输出的时间信号f(t)作为输入并且从该时间信号中提取每隔预定时间的特征值。在这点上,声音检测单元102构成特征值提取单元。
在构成特征值保持单元的特征值数据库103中,包括预定数目的检测目标声音项的特征值序列被与检测目标声音名称相关联地登记和保持。在该实施例中,预定数目的检测目标声音项例如意味着由家用电器1至N生成的运行状态声的全部或者一部分。声音检测单元102每当新特征值被提取时将所提取的特征值序列与特征值数据库103中保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音的检测结果。在这点上,声音检测单元102构成比较单元。
记录和显示单元104将声音检测单元102的检测目标声音检测结果与时间一起记录在记录介质中并且将检测结果显示在显示器上。例如,当声音检测单元102的检测目标声音检测结果表明来自家用电器1的通知声A已被检测到时,记录和显示单元104将来自家用电器1的通知声A被产生的事实及其时间记录在记录介质上并且显示在显示器上。
图1所示的声音检测装置100的操作将被描述。麦克风101采集房间中的声音。来自麦克风101的时间信号输出被提供给声音检测单元102。声音检测单元102从时间信号中提取每隔预定时间的特征值。然后,声音检测单元102每当新特征值被提取时将所提取的特征值序列与特征值数据库103中保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果。检测结果被提供给记录和显示单元104。记录和显示单元104将检测结果与 时间一起记录在记录介质上并且显示在显示器上。
“特征值登记装置”
图2示出了将检测目标声音的特征值序列登记在特征值数据库103中的特征值登记装置200的配置示例。特征值登记装置200包括麦克风201、声音区间检测单元202、特征值提取单元203和特征值登记单元204。
特征值登记装置200执行声音登记处理(声音区间检测处理和声音特征提取处理)并且将检测目标声音(家用电器生成的运行状态声)的特征值序列登记在特征值数据库103中。一般而言,噪声区间存在于由麦克风201记录的、将被登记的检测目标声音之前和之后。因此,实际将被登记的包括有意义声音(检测目标声音)的声音区间在声音区间检测处理中被检测到。图3示出了声音区间和存在于该声音区间之前和之后的噪声区间的一个示例。在声音特征提取处理中,对检测检测目标声音有用的特征值被从由麦克风201获取的声音区间的时间信号f(t)中提取并且与检测目标声音名称一起被登记在特征值数据库103中。
麦克风201采集将被登记为检测目标声音的家用电器的运行状态声。声音区间检测单元202获取从麦克风201输出的时间信号f(t)作为输入并且从时间信号f(t)中检测声音区间,即由家用电器生成的运行状态声的区间。特征值提取单元203获取从麦克风201输出的时间信号f(t)作为输入并且从时间信号f(t)中提取每隔预定时间的特征值。
特征值提取单元203对每个时间帧的输入时间信号f(t)执行时频变换,获取时频分布,从时频分布获取音调似然分布,在频率方向和时间方向上使似然分布平滑,并且提取每隔预定时间的特征值。在这种情况下,特征值提取单元203在基于从声音区间检测单元202提供的声音区间信息的声音区间范围内提取特征值并且获取与家用电器生成的操作情况声的区间相对应的特征值序列。
特征值登记单元204将与已经由特征值提取单元203获取的、作 为检测目标声音的、由家用电器生成的运行状态声相对应的特征值序列与特征值数据库103中的检测目标声音名称(关于运行状态声的信息)相关联并且登记。在附图中示出的示例中,其中包括I个检测目标声音项Z1(m)、Z2(m),…,Zi(m),…,ZI(m)的特征值序列被登记在特征值数据库103中的状态被例示出。
“声音区间检测单元”
图4示出声音区间检测单元202的配置示例。声音区间检测单元202的输入是由记录将被登记的检测目标声音(由家用电器生成的运行状态声)的麦克风201获取的时间信号f(t),并且噪声区间如图3所示也被包括在检测目标信号之前和之后。此外,来自声音区间检测单元202的输出是指示包括实际将被登记的有意义声音(检测目标声音)的声音区间的声音区间信息。
声音区间检测单元202包括时频变换单元221、幅度特征值计算单元222、音调强度特征值计算单元223、频谱大概轮廓特征值计算单元224、分数计算单元225、时间平滑单元226和阈值确定单元227。
时频变换单元221对输入时间信号f(t)执行时频变换并且获得时频信号F(n,k)。这里,t表示离散时间,n表示时间帧的数目,并且k表示离散频率。时频变换单元221通过短时间傅立叶变换对输入时间信号f(t)执行时频变换并且获得如在以下式(1)中示出的时频信号F(n,k)。
[数学1]
F(n,k)=log|Σt=0M-1W(t)f(t-nR)ej2πkn|...(1)]]>
这里,W(t)表示窗口函数,M表示窗口函数的大小,并且R表示帧时间间隔(=跳大小(hop size))。时频信号F(n,k)表示时间帧n中的、位于频率k的频率成分的对数幅度值并且是所谓的频谱图(时频分布)。
幅度特征值计算单元222根据时频信号F(n,k)计算幅度特征值x0(n)和x1(n)。具体而言,幅度特征值计算单元222获取由以下式(2)表示的、预定频率范围(具有下限KL和上限KH)的目 标帧n附近的时间区间(具有目标帧n之前和之后的长度L)的平均幅度Aave(n)。
[数学2]
Aave(n)=12L+1Σn=-LLΣk=KLKLexp(F(n,k))...(2)]]>
此外,幅度特征值计算单元222获取由以下式(3)表示的、预定频率范围(具有下限KL和上限KH)的目标帧n中的绝对幅度Aabs(n)。
[数学3]
Aabs(n)=Σk=KLKLexp(F(n,k))...(3)]]>
另外,幅度特征值计算单元222获取由以下式(4)表示的、预定频率范围(具有下限KL和上限KH)的目标帧n中的相对幅度Arel(n)。
[数学4]
Arel=Aabs(n)Aave(n)...(4)]]>
此外,幅度特征值计算单元222如以下式(5)所示将绝对幅度Aabs(n)看作幅度特征值x0(n)并且将相对幅度Arel(n)看作幅度特征值x1(n)。
[数学5]
x0(n)=Aabs(n),x1(n)=Arel(n)...(5)
音调强度特征值计算单元223根据时频信号F(n,k)计算音调强度特征值x2(n)。音调强度特征值计算单元223首先将时频信号F(n,k)的分布(见图5A)变换为音调特性似然性的分数S(n,k)的分布(见图5B)。每个分数S(n,k)是从0到1的分数,其表示时频成分多么可能是每个频率k处的F(n,k)的相应时间n中的“音 调成分”。具体而言,分数S(n,k)在F(n,k)构成频率方向上的音调特性的峰的位置处接近1并且在其他位置处接近0。
图6示出了音调强度特征值计算单元223中包括的、用于获取音调特性似然性的分数S(n,k)的分布的音调似然性分布检测单元230的配置示例。音调似然性分布检测单元230包括峰检测单元231、拟合单元232、特征值提取单元233和评分单元234。
峰检测单元231在频谱图(时频信号F(n,k)的分布)的每个时间帧中检测频率方向上的峰。就是说,峰检测单元231检测某一位置是否对应于频谱图的所有频率的所有帧中的频率方向上的峰(最大值)。
例如通过检查以下式(6)是否得到满足来执行关于F(n,k)是否对应于峰的检测。尽管使用三个点的方法被例示为峰检测方法,但是使用五个点的方法也是适用的。
F(n,k-1)<F(n,k)并且F(n,k)>F(n,k+1)...(6)
拟合单元232在已经由峰检测单元231检测到的每个峰附近的区域中拟合音调模型,如下所述。首先,拟合单元232执行变换为包括目标峰作为原点的坐标的坐标变换并且如以下式(7)所示设置邻近的时频区域。这里,德尔塔(Δ)N表示时间方向上的临近区域(例如为三个点),并且德尔塔k表示频率方向上的临近区域(例如为两个点)。
[数学6]
Γ=[-ΔN≤n≤ΔN]×[-ΔK≤k≤ΔK]...(7)
接下来,拟合单元232使例如如以下式(8)所示的二次多项式函数的音调模型拟合临近区域中的时频信号。在这种情况下,拟合单元232例如在峰附近的时频分布与音调模型之间基于均方误差最小准则执行拟合。
[数学7]
Y(k,n)=ak2+bk+cnk+dn2+en+g...(8)
就是说,拟合单元232通过获取使时频信号的临近区域中的、如以下式(9)所示的均方误差和如以下式(10)所示的多项式函数最小化的系数来执行拟合。
[数学8]
J(a,b,c,d,e,g)=ΣΓ(Y(k,n)-F(k,n))2...(9)]]>
(a^,b^,c^,d^,e^,g^)=argminJ(a,b,c,d,e,g)...(10)]]>
二次多项式函数具有二次多项式函数在音调特性的频谱峰附近拟合良好(误差小)并且在噪声特性的频谱峰附近拟合不佳(误差大)的特性。图7A和图7B是示意性地示出该状态的示图。图7A示意性地例示出通过前述式(1)获得的、第n个帧中的音调特性的峰附近的频谱。
图7B示出了一种状态,其中由以下式(11)示出的二次函数f0(k)被应用于图7A中的频谱。这里,a表示峰曲率,k0表示实际峰的频率,并且g0表示实际峰的位置处的对数幅度值。二次函数在音调特性成分的频谱峰周围拟合良好然而二次函数倾向于在噪声特性的峰附近极大偏离。
[数学9]
f0(k)=a(k-k0)2+g0...(11)
图8A示意性地示出音调特性的峰在时间方向上的变化。音调特性的峰的幅度和频率在其大概轮廓被保持的同时在先前和后续的时间帧中改变。尽管实际获得的频谱是离散点,但是频谱为了便利而被表示为曲线。点划线示出了前一帧,实线示出了当前帧,并且虚线示出了下一帧。
在许多情况下,音调特性成分在时间上在一定程度上是连续的并且可被表示为尽管频率和时间稍微改变但是形状大体相同的二次函数的移动。变化Y(k,n)由以下式(12)表示。因为频谱被表示为对数幅度,因此幅度的变化对应于频谱在垂直方向上的位移。这是幅 度变化项f1(n)被添加的原因。这里,贝塔(β)是频率的变化率,并且f1(n)是表示峰位置处的幅度变化的时间函数。
[数学10]
Y(k,n)=f0(k-βn)+f1(n)...(12)
如果f1(n)被时间方向上的二次函数近似,则变化Y(k,n)可由以下式(13)表示。因为a、k0、贝塔、d1、e1和g0是恒定的,因此式(13)通过适当变换变量等价于前述式(8)。
[数学11]
Y(k,n)=a(k-k0-βn)2+g0+d1n2+e1n=ak2-2ak0k-2ak0kn+2n2+d1n2+2ak0βn+e1n+ak02+g0...(13)]]>
图8B示意性地示出在频谱图上的小区域伽马(Γ)中进行拟合的示图。因为类似的形状在音调特性的峰周围随着时间过去而逐渐改变,因此式(8)倾向于适用良好。然而,关于噪声特性的峰的附近,峰的形状和频率发生变化,并且式(8)因而适用不良,就是说,即使最优地将式(8)拟合,也会发生大误差。
前述式(10)示出了针对关于所有系数a、b、c、d、e和g进行拟合的计算。然而,可在一些系数被预先固定为常数之后执行拟合。此外,可利用二维或者更多维的多项式函数来执行拟合。
返回图6,特征值提取单元233基于拟合单元232在每个峰处获得的拟合结果(见前述式(10))如以下式(14)所示提取特征值(x0、x1、x2、x3、x4和x5)。每个特征值是表示每个峰处的频率成分的特性的特征值,并且特征值本身可被用于分析语音声或者音乐声。
[数学12]

评分单元234通过使用特征值提取单元233针对每个峰提取的特征值来获取表示每个峰的音调成分似然性的分数S(n,k),以使每个峰的音调成分似然性量化。评分单元234通过使用特征值(x0、x1、x2、x3、x4和x5)当中的一个或多个特征值来如以下式(15)所示获取分数S(n,k)。在这种情况下,至少拟合的归一化误差x5或者峰在频率方向上的曲率x0被使用。
[数学13]
S(n,k)=Sigm(Σi=05wiHi(xi)+w6)...(15)]]>
这里,Sigm(x)是S型函数,wi是预定负载系数,并且Hi(Xi)是第i个特征值xi的预定非线性函数。可以使用例如如以下式(16)所示的函数作为非线性函数Hi(Xi)。这里,ui和vi是预定负载系数。适当的常数可被预先确定为wi、ui和vi,其例如可使用多个数据项通过最速下降学习来自动选择。
[数学14]
Hi(xi)=Sigm(uixi+vi)...(16)
评分单元234如上所述通过式(15)获取表示每个峰的音调成分似然性的分数S(n,k)。此外,评分单元234将除峰之外位置(n,k)处的分数S(n,k)设置为0。评分单元234在时频信号f(n,k)的每个时间和每个频率处获取作为从0到1的值的音调成分似然性的分数S(n,k)。
图9中的流程图示出了音调似然分布检测单元230执行的音调似然分布检测的处理过程的示例。音调似然性分布检测单元230在步骤ST1中开始处理然后转移到步骤ST2中的处理。在步骤ST2中,音调似然性分布检测单元230将帧(时间帧)的数目n设置为0。
接下来,音调似然性分布检测单元230在步骤ST3中确定“n<N”是否得到满足。此外,频谱图(时频分布)的帧当前是从0到“N–1”。如果“n<N”未得到满足,则音调似然性分布检测单元230确定所有帧的处理已经完成,并且在步骤ST4中完成处理。
如果“n<N”得到满足,则音调似然性分布检测单元230在步骤ST5中将离散频率k设置为0。然后,音调似然性分布检测单元230在步骤ST6中确定“k<K”是否得到满足。此外,频谱图(时频分布)的离散频率k当前是从0到“k–1”。如果“k<K”未得到满足,则音调似然性分布检测单元230确定所有离散频率的处理已经完成,在步骤ST7中使n增加,然后返回到步骤ST3,并且转移到对下一帧的处理。
如果在步骤ST6中“k<K”得到满足,则音调似然性分布检测单元230在步骤ST8中判定F(n,k)是否对应于峰。如果F(n,k)不对应于峰,则音调似然性分布检测单元230在步骤ST9中将分数S(n,k)设置为0,在步骤ST10中使k增加,然后返回到步骤ST6,并且转移到对下一离散频率的处理。
如果在步骤ST8中F(n,k)对应于峰,则音调似然性分布检测单元230转移到步骤ST11中的处理。在步骤ST11中,音调似然性分布检测单元230在峰附近的区域中拟合音调模型。然后,音调似然性分布检测单元230在步骤ST12中基于拟合结果提取各种特征值 (x0、x1、x2、x3、x4和x5)。
接下来,在步骤ST13中,音调似然性分布检测单元230通过使用在步骤ST12中提取的特征值来获取表示峰的音调成分似然性的、作为从0到1的值的分数S(n,k)。音调似然性分布检测单元230在步骤ST14中的处理之后在步骤ST10中使k增加,并且转移到对下一离散频率的处理。
图10示出了根据如在图11中示出的时频分布(频谱图)F(n,k)的、由在图6中示出的音调似然性分布检测单元230获得的音调成分似然性的分数S(n,k)的一个分布示例为。分数S(n,k)的更大值由更深的黑色示出,并且可观察到当音调特性成分(构成图11中的黑粗水平线的成分)的峰被大概检测到时噪声特性的峰未被大概检测到。
返回到图4,音调强度特征值计算单元223接下来创建音调成分提取滤波器H(n,k)(见图5C),其仅提取分数S(n,k)大于预定阈值Sthsd(见图5B)的位置附近的频率位置处的成分。以下式(17)表示音调成分提取滤波器H(n,k)。
[数学15]

然而,kT表示音调成分被检测到之处的频率,并且德尔塔k表示预定频率宽度。这里,当如上所述为了获得时频信号F(n,k)的短时间傅立叶变换(见式(1))中的窗口函数W(t)的大小是M时德尔塔k优选是2/M。
音调强度特征值计算单元223接下来将原始时频信号F(n,k)乘以音调成分提取滤波器H(n,k)并且获得通过如图5D所示仅使音调成分留下而获得的频谱(音调成分频谱)FT(n,k)。以下式(18)表示音调成分频谱FT(n,k)。
[数学16]
FT(n,k)=H(n,k)F(n,k)...(18)
音调强度特征值计算单元223最终在预定频率区域(具有下限KL和上限KH)求和并且获取由以下式(19)表示的、目标帧n中的音调成分强度Atone(n)。
[数学17]
Atone(n)=Σk=KLKHexp(FT(n,k))...(19)]]>
然后,音调强度特征值计算单元223如以下式(20)所示将音调成分强度Atone(n)看作音调强度特征值x2(n)。
[数学18]
x2(n)=Atone(n)...(20)
频谱大概轮廓特征值计算单元224如以下式(21)所示获取频谱大概轮廓特征值x3(n)、x4(n)、x5(n)和x6(n)。这里,L表示特征值的维数,并且“L=7”的情况在这里被示出。
[数学19]
x3(n)=Σk=0N/2-1F(k,n)cos(2πk/N)x4(n)=Σk=0N/2-1F(k,n)cos(4πk/N)x5(n)=Σk=0N/2-1F(k,n)cos(6πk/N)x6(n)=Σk=0N/2-1F(k,n)cos(8πk/N)...(21)]]>
频谱大概轮廓特征值是通过离散余弦变换形成对数频谱而获得 的低维倒频谱(cepstrum)。对四维或者更少维的系数的以上描述被给出,并且更高维的系数也可被使用。另外,诸如所谓的MFCC(美尔频率倒谱系数(Mel-Frequency Cepstral Coefficient))之类的通过扭曲频率轴并对其执行离散余弦变换而获得的系数也可被使用。
前述幅度特征值x0(n)和x1(n)、音调强度特征值x2(n)和频谱大概轮廓特征值x3(n)、x4(n)、x5(n)和x6(n)构成帧n中的L维(在该情况下为七维)特征值向量x(n)。此外,“声音的音量、声音的音高和声音的音调”是三个声音因素,其是指示声音的特性的基本属性。因为特征值向量x(n)由幅度(与声音的音量有关)、音调成分强度(与声音的音高有关)和频谱大概轮廓(与声音的音调有关)构成,因此特征值向量x(n)构成与所有三种声音因素有关的特征值。
分数计算单元225综合特征值向量x(n)的因素并且通过从0到1的分数S(n)来表示帧n是否为包括实际将被登记的有意义声音(检测目标声音)的声音区间。这例如可以通过以下式(22)来获得。这里,sigm()是S型函数,ui、vi和wi(i=0,...,L-1)是基于经验从样本数据中选择的常数。
[数学20]
S(n)=Sigm(Σi=0L-1wiξi(xi(n))+wL)]]>
ξi(xi)=Sigm(uixi(n)+vi)   ...(22)
时间平滑单元226在时间方向上使已经由分数计算单元225获得的分数S(n)平滑。在平滑处理中,移动平均数可被简单获得,或者诸如中值滤波器之类的用于获取中间值的滤波器可被使用。以下式(23)示出了其中通过求平均处理获得经平滑分数Sa(n)的示例。这里,德尔塔n表示滤波器的大小,其是基于经验确定的常数。
[数学21]
Sa(n)=12Δn+1Στ=n-Δnn+ΔnS(n)...(23)]]>
阈值确定单元227将已经由时间平滑单元226获得的每个帧n中的经平滑分数Sa(n)与阈值相比较,将包括等于或者大于阈值的经平滑分数Sa(n)的帧区间确定为声音区间,并且输出指示该帧区间的声音区间信息。
对图4中示出的声音区间检测单元202的操作的描述将被给出。通过由麦克风201采集将被登记的检测目标声音(由家用电器生成的运行状态声)而获得的时间信号f(t)被提供给时频变换单元221。时频变换单元221对输入时间信号f(t)执行时频变换并且获得时频信号F(n,k)。时频信号F(n,k)被提供给幅度特征值计算单元222、音调强度特征值计算单元223和频谱大概轮廓特征值计算单元224。
幅度特征值计算单元222根据时频信号F(n,k)计算幅度特征值x0(n)和x1(n)(见式(5))。此外,音调强度特征值计算单元223根据时频信号F(n,k)计算音调强度特征值x2(n)(见式(20))。另外,频谱大概轮廓特征值计算单元224计算频谱大概轮廓特征值x3(n)、x4(n)、x5(n)和x6(n)(见式(21))。
幅度特征值x0(n)和x1(n)、音调强度特征值x2(n)以及频谱大概轮廓特征值x3(n)、x4(n)、x5(n)和x6(n)被作为帧n中的L维(在该情况下为七维)特征值向量x(n)提供给分数计算单元225。分数计算单元225综合特征值向量x(n)的因素并且计算从0到1的分数S(n),分数S(n)表示帧n是否为包括实际将被登记的有意义声音(检测目标声音)的声音区间(见式(22))。分数S(n)被提供给时间平滑单元226。
时间平滑单元226在时间方向上使分数S(n)平滑(见式(23)),并且经平滑的分数Sa(n)被提供给阈值确定单元227。阈值确定单元227将每个帧n中的经平滑分数Sa(n)与阈值相比较,将包括等于或者大于阈值的经平滑分数Sa的帧区间确定为声音区间,并且输 出指示该帧区间的声音区间信息。
在图4中示出的声音区间检测单元202从输入时间信号f(t)的时频分布F(n,k)中提取每个时间帧中的幅度、音调成分强度和频谱大概轮廓的特征值并且从这些特征值获取表示每个时间帧的声音区间似然性的分数S(n)。因此,即使检测到的将被登记的声音是在噪声环境下记录的也可以精确地获得指示检测到的声音的区间的声音区间信息。
“特征值提取单元”
图12示出了特征值提取单元203的一个配置示例。特征值提取单元203将通过由麦克风201记录将被登记的检测目标声音(由家用电器生成的运行状态声)而获得的时间信号f(t)获取作为输入,并且时间信号f(t)如图3所示还包括检测目标声音之前和之后的噪声区间。此外,特征值提取单元203输出在将被登记的检测目标声音的区间中按照每隔预定时间提取的特征值序列。
特征值提取单元203包括时频变换单元241、音调似然分布检测单元242、时频平滑单元243以及稀疏和量化单元244。时频变换单元241以与前面提到的声音区间检测单元202的时频变换单元221相同的方式对输入时间信号f(t)执行时频变换并且获得时频信号F(n,k)。此外,特征值提取单元203可使用声音区间检测单元202的时频变换单元221获得的时频信号F(n,k),并且在这种情况下,提供时频变换单元241不是必需的。
音调似然分布检测单元242基于来自声音区间检测单元202的声音区间信息来检测声音区间中的音调似然分布。就是说,音调似然分布检测单元242首先以与前面提到的声音区间检测单元202的音调强度特征值计算单元223相同的方式将时频信号F(n,k)的分布(见图5A)变换为音调特性似然性的分数S(n,k)的分布(见图5B)。
音调似然分布检测单元242接下来如以下式(24)所示通过使用声音区间信息来获取包括将被登记的有意义声音(检测目标声音)的声音区间中的音调似然分布Y(n,k)。
[数学22]

时频平滑单元243在时间方向和频率方向上使已经由音调似然分布检测单元242获得的声音区间中的音调似然分布Y(n,k)平滑并且如以下式(25)所示获取经平滑的音调似然分布Ya(n,k)。
[数学23]
Ya(n,k)=Στ=-ΔnΔnΣλ=-ΔkΔkY(n-τ,k-λ)H(τ,λ)...(25)]]>
这里,德尔塔k表示平滑滤波器在频率方向的一侧上的大小,德尔塔n表示其在时间方向的一侧上的大小,并且H(n,k)表示平滑滤波器的二次脉冲响应。此外,为了简化而对在频率方向上没有失真的滤波器的情况给出上面的描述。然而,可使用诸如美尔(Mel)频率之类的使频率轴失真的滤波器来执行平滑。
稀疏和量化单元344使由时频平滑单元243获得的经平滑的音调似然分布Ya(n,k)稀疏,进一步量化音调似然分布Ya(n,k),并且如以下式(26)所示创建将被登记的有意义声音(检测目标声音)的特征值Z(m,l)。
[数学24]
z(m,l)=Quant[Ya(mT,lK)]  (0≤m≤M-1,0≤l≤L-1)
...(26)
这里,T表示时间方向上的离散化步长,K表示频率方向上的离散化步长,m表示经稀疏的离散时间,并且l表示经稀疏的离散频率。此外,M表示时间方向上的帧的数目(对应于将被登记的有意义声音(检测目标声音)的时间长度),L表示频率方向上的维数,并且Quant[]表示量化的函数。
前述特征值z(m,l)通过如以下式(27)所示的频率方向上的集合向量符号可被表示为Z(m)。
[数学25]
Z(m)=[z(m,0),...,z(m,L-1)](0≤m≤M-1)...(27)
在这种情况下,前述特征值Z(m,l)由已经在时间方向上每隔T提取的M个向量Z(0),...,Z(M-1)、Z(M)构成。因此,稀疏和量化单元244可以获得在包括将被登记的检测目标声音的区间中按照每隔预定时间提取的特征值(向量)的序列Z(m)。
此外,还可以考虑将已经由时频平滑单元243获得的经平滑音调似然分布Ya(n,k)原样用作来自特征值提取单元203的输出,即特征值序列。然而,因为音调似然分布Ya(n,k)已经被平滑,因此没有必要准备所有的时间和频率数据。通过在时间方向和频率方向上进行稀疏可以减少信息量。此外,通过量化可以将8位或者16位的数据变换为2位或者3位的数据。因为稀疏和量化被如上所述执行,因此可以减少特征值(向量)序列Z(m)上的信息量并因而可以减小稍后将描述的声音检测装置100的匹配计算的处理负担。
将给出对图12中示出的特征值提取单元203的操作的描述。通过由麦克风201采集将被登记的检测目标声音(家用电器生成的运行状态声)而获得的时间信号f(t)被提供给时频变换单元241。时频变换单元241对输入时间信号f(t)执行时频变换并且获得时频信号F(n,k)。时频信号F(n,k)被提供给音调似然分布检测单元242。此外,由声音区间检测单元202获得的声音区间信息也被提供给音调似然分布检测单元242。
音调似然分布检测单元242将时频信号F(n,k)的分布变换为音调特性似然性的分数S(n,k)的分布,并且通过使用声音区间信息进一步获取包括将被登记的有意义声音(检测目标声音)的声音区间中的音调似然分布Y(n,k)(见式(24))。音调似然分布Y(n,k)被提供给时频平滑单元243。
时频平滑单元243在时间方向和频率方向上使音调似然分布Y (n,k)平滑并且获得经平滑的音调似然分布Ya(n,k)(见式(25))。音调似然分布Ya(n,k)被提供给稀疏和量化单元244。稀疏和量化单元244使音调似然分布Ya(n,k)稀疏,进一步量化经稀疏的音调似然分布Ya(n,k),并且获得将被登记的有意义声音(检测目标声音)的特征值z(m,l),即特征值序列Z(m)(见式(26)和(27))。
返回到图2,特征值登记单元204将已经由特征值登记单元204创建的、将被登记的检测目标声音的特征值序列Z(m)与特征值数据库103中的检测目标声音名称(关于操作情况声的信息)相关联并且登记。
将给出对图2中示出的特征值登记装置200的操作的描述。麦克风201采集将被登记为检测目标声音的家用电器的运行状态声。从麦克风201输出的时间信号f(t)被提供给声音区间检测单元202和特征值提取单元203。声音区间检测单元202检测从输入时间信号f(t)中检测声音区间,即包括由家用电器生成的运行状态声的区间,并且输出声音区间信息。声音区间信息被提供给特征值提取单元203。
特征值提取单元203对每个时间帧的输入时间信号f(t)执行时频变换,获取时频信号F(n,k)的分布,并且进一步从时频分布获取音调似然分布,即分数S(n,k)的分布。然后,特征值提取单元203基于声音区间信息从分数S(n,k)的分布获取声音区间的音调似然分布Y(n,k),在时间方向和频率方向上使音调似然分布Y(n,k)平滑,并且进一步对其执行稀疏和量化处理以创建特征值序列Z(m)。
已经由特征值提取单元203创建的将被登记的检测目标声音(家用电器的运行状态声)的特征值序列Z(m)被提供给特征值登记单元204。特征值登记单元204将特征值序列Z(m)与特征值数据库103中的检测目标声音名称(关于运行状态声的信息)相关联并且登记。在以下描述中,假定I个检测目标声音项被登记,其特征值序列将被表示为Z1(m)、Z2(m),…,Zi(m),…,ZI(m),并且特征 值序列中的时间帧的数目(时间方向上排列的向量的数目)将被表示为M1、M2,…,Mi,…,MI。
“声音检测单元”
图13示出了声音检测单元102的一个配置示例。声音检测单元102包括信号缓冲单元121、特征值提取单元122、特征值缓冲单元123和比较单元124。信号缓冲单元121缓冲通过由麦克风101采集声音而获得的时间信号f(t)的预定数目的信号样本。预定数目意味着特征值提取单元122可用来新计算与一个帧相对应的特征值序列的样本的数目。
特征值提取单元122基于已经由信号缓冲单元121缓冲的时间信号f(t)的信号样本提取每隔预定时间的特征值。尽管未被详细描述,但是特征值提取单元203被以与前面提到的特征值登记装置200的特征值提取单元203(见图12)相同的方式配置。
然而,特征值提取单元122中的音调似然检测单元242获取所有区间中的音调似然分布Y(n,k)。就是说,音调似然分布检测单元242原样输出已经从时频信号F(n,k)的分布获得的分数S(n,k)的分布。然后,稀疏和量化单元244针对输入时间信号f(t)的所有区间输出按照T新提取的特征值(向量)X(n)(时间方向上的离散步长)。这里,n表示当前正被提取的特征值的帧的数目(对应于当前离散时间)。
特征值缓冲单元123如图14所示保存从特征值提取单元122输出的最新N个特征值(向量)X(n)。这里,N至少是等于或者大于特征值数据库103中登记的特征值序列Z1(m)、Z2(m),…,Zi(m),…,ZI(m)当中的最长特征值序列的帧的数目(在时间方向上对齐的向量的数目)的数目。
比较单元124每当特征值提取单元122提取新特征值X(n)时顺序地将信号缓冲单元123中保存的特征值序列与特征值数据库103中登记的I个检测目标声音项的特征值序列相比较,并且获取I个检测目标声音项的检测结果。这里,如果i表示检测目标声音数目的数 目,则每个检测目标声音项的长度(帧数目Mi)各不相同。
如图14所示,比较单元124将特征值缓冲单元123中的最新帧n与检测目标声音的特征值序列的最新帧Zi(Mi-1)相结合并且通过使用具有特征值缓冲单元123中保存的N个特征值之中的检测目标声音的特征值序列的长度的帧来计算相似性。例如如以下式(28)所示可通过特征值之间的关联来计算相似性Sim(n,i)。这里,Sim(n,i)意味着与第n个帧中的第i个检测目标声音的特征值序列的相似性。比较单元124确定“第i个检测目标声音是在时间n生成的”并且当相似性大于预定阈值时输出确定结果。
[数学26]
Sim(n,i)=Σm=0Mi-1X(n-Mi-1+m)Zi(m)Σm=0Mi-1X2(n-Mi-1+m)Σm=0Mi-1Zi2(m)...(28)]]>
将给出对在图13中示出的声音检测单元102的操作的描述。通过由麦克风101采集声音而获得的时间信号f(t)被提供给信号缓冲单元121,并且预定数目的信号样本被缓冲。特征值提取单元122基于由信号缓冲单元121缓冲的时间信号f(t)的信号样本提取每隔预定时间的特征值。然后,特征值提取单元122顺序地输出新提取的、每隔T(时间方向上的离散步长)的特征值(向量)X(n)。
已经由特征值提取单元122提取的特征值X(n)被提供给特征值缓冲单元123,并且最新的N个特征值X(n)被保存在其中。每当新的特征值X(n)被特征值提取单元122提取时,比较单元124顺序地将特征值缓冲单元123中保存的特征值序列与特征值数据库103中登记的I个检测目标声音项的特征值序列相比较,并且获取I个检测目标声音项的检测结果。
在这种情况下,比较单元124将特征值缓冲单元123中的最新帧n与检测目标声音的特征值序列的最新帧Zi(Mi-1)相结合并且通过 使用具有检测目标声音的特征值序列的长度的帧来计算相似性(见图14)。然后,比较单元124确定“第i个检测目标声音是在时间n生成的”并且当相似性大于预定阈值时输出确定结果。
此外,图1中示出的声音检测装置100可被配置为硬件或者软件。例如,可以使图15中示出的计算机装置300包括图1中示出的声音检测装置100的部分或者所有功能并且执行与上述者相同的检测检测目标声音的处理。
计算机装置300包括CPU(中央处理单元)301、ROM(只读存储器)302、RAM(随机访问存储器)303、数据输入和输出单元(数据I/O)304和HDD(硬盘驱动器)305。ROM 302存储CPU 301的处理程序等。RAM 303起CPU 301的工作区域的作用。CPU 301按需读取ROM 302上存储的处理程序,将所读取的处理程序传送到RAM 303并且在RAM 303中开发所读取的处理程序,读取所开发的处理程序,并且执行音调成分检测处理。
输入时间信号f(t)被经由数据I/O 304输入到计算机装置300并且在HDD 305中累积。CPU 301如上所述对HDD 305中累积的输入时间信号f(t)执行检测检测目标声音的处理。然后,检测结果被经由数据I/O 304输出到外部。此外,I个检测目标声音项的特征值序列被预先登记并保存在HDD 305中。
图16中的流程图示出了由CPU 301检测检测目标声音的处理过程的一个示例。在步骤ST21中,CPU 301开始处理然后转移到步骤ST22中的处理。在步骤ST22中,CPU 301例如将输入时间信号f(t)输入到HDD 305中配置的信号缓冲单元。然后,CPU 301在步骤ST23中判定是否已累积可用来计算对应于一个帧的特征值序列的数目的样本。
如果已累积对应于一个帧的数目的样本,则CPU 301在步骤ST24中执行提取特征值X(n)的处理。CPU 301在步骤ST25中例如将所提取的特征值X(n)输入到HDD 305中配置的特征值缓冲单元。然后,CPU 301在步骤ST26中将检测目标声音的数目i设置为 零。
接下来,CPU 301在步骤ST27中判定“i<I”是否得到满足。如果“i<I”得到满足,则CPU 301在步骤ST28中计算信号缓冲单元中保存的特征值序列与HDD 305中登记的第i个检测目标声音的特征值序列Zi(m)之间的相似性。然后,CPU 301在步骤ST29中确定“相似性>阈值”是否得到满足。
如果“相似性>阈值”得到满足,则CPU 301在步骤ST30中输出指示符合的结果。就是说,“第i个检测目标声音在时间n被生成”的判定结果被输出为检测输出。此后,CPU 301在步骤ST31中使i增加并且返回步骤ST27中的处理。此外,如果“相似性>阈值”在步骤ST29中未得到满足,则CPU 301紧接着在步骤ST31中使i增加并且返回到步骤ST27中的处理。如果“i>I”在步骤ST27中未得到满足,则CPU 301判定对当前帧的处理已经完成,返回到步骤ST22中的处理,并且转移到对下一帧的处理。
接下来,CPU 301在步骤ST3中将帧(时间帧)的数目n设置为0。然后,CPU 301在步骤ST4中判定“n<N”是否得到满足。此外,假定频谱图(时频分布)的帧存在于从0到“N-1”。如果“n<N”未得到满足,则CPU 301判定所有帧的处理已经完成并且随后在步骤ST5中完成处理。
如果“n<N”得到满足,则CPU 301在步骤ST6中将离散频率k设置为0。然后,CPU 301在步骤ST7中判定“k<K”是否得到满足。此外,假定频谱图(时频分布)的离散频率k存在于从0到“k-1”。如果“k<K”未得到满足,则CPU 301判定对所有离散频率的处理已经完成,在步骤ST8中使n增加,然后返回到步骤ST4,并且转移到对下一帧的处理。
如果“k<K”在步骤ST7中得到满足,则CPU 301在步骤ST9中判定F(n,k)是否对应于峰。如果F(n,k)不对应于峰,则CPU301在步骤ST10中将分数S(n,k)设置为0,在步骤ST11中使k增加,然后返回到步骤ST7,并且转移到对下一离散频率的处理。
如果F(n,k)在步骤ST9中对应于峰,则CPU 301转移到步骤ST12中的处理。在步骤ST12中,CPU 301在峰附近的区域中拟合音调模型。然后,CPU 301在步骤ST13中基于拟合结果提取各种特征值(x0、x1、x2、x3、x4和x5)。
接下来,在步骤ST14中,CPU 301通过使用在步骤ST13中提取的特征值来获取分数S(n,k),分数S(n,k)表示具有从0到1的值的峰的音调成分似然性。CPU 301在步骤ST14中的处理之后在步骤ST11中使k增加,然后返回到步骤ST7,并且转移到对下一离散频率的处理。
如上所述,图1中示出的声音检测装置100根据通过由麦克风101采集声音而获得的输入时间信号f(t)的时频分布获取音调似然分布并且从在频率方向和时间方向上已被平滑的似然分布中提取并使用每隔预定时间的特征值。相应地,可以在不依赖于麦克风101的安装位置的情况下精确地检测检测目标声音(从家用电器生成的运行状态声等)。
此外,图1中示出的声音检测装置100将已经由声音检测单元102获得的检测目标声音的检测结果与时间一起记录在记录介质上并显示在显示器上。因此,可以在家自动地记录家用电器等的运行状态并且获得自身行动历史(所谓的生活记录)。此外,可以为具有听觉困难的人自动地将声音通知可视化。
<2.修改示例>
上面的实施例示出了一个示例,其中从在家的家用电器生成的运行状态声(控制声、通知声、操作声、警报声等)被检测到。然而,本技术可被应用于与在制造厂中装配的产品的声音功能有关的自动检测中的用途以及家庭用途。此外,事实上本技术不仅可被应用于对运行状态声的检测而且可被应用于对特定人或者特定动物的语音声或者其他环境声的检测。
尽管以上描述是对其中基于短时间傅立叶变换执行时频变换的实施例给出的,但是也可考虑通过使用诸如小波变换之类的另一变换 方法来使输入时间信号经受时频变换。此外,尽管以上描述是对其中基于每个检测到的峰附近的时频分布与音调模型之间的均方误差最小准则来执行拟合的实施例给出的,但是也可考虑基于四次方误差最小准则、最小熵准则等来执行拟合。
此外,本技术可被配置如下。
(1)一种声音检测装置,包括:特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并获取时频分布的时频变换单元以及从该时频分布获取音调似然分布的似然分布检测单元,该特征值提取单元在频率方向和时间方向上使获取的似然分布平滑并且提取每隔预定时间的特征值。
(2)根据(1)所述的装置,其中似然分布检测单元包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。
(3)根据(1)或(2)所述的装置,其中特征值提取单元还包括在频率方向和/或时间方向上使经平滑的似然分布稀疏的稀疏单元。
(4)根据(1)或(2)所述的装置,其中特征值提取单元还包括将经平滑的似然分布量化的量化单元。
(5)根据(1)至(4)中任一个所述的装置,其中比较单元基于保持的检测目标声音项的特征值序列和由特征值提取单元针对预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取检测目标声音项的检测结果。
(6)根据(1)至(5)中任一个所述的装置,还包括:
记录控制单元,其将预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。
(7)一种声音检测方法,包括:从输入时间信号中提取每隔预定时间的特征值;以及每当在特征值的提取中新提取出特征值时分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中在特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频分布,从时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取每隔预定时间的特征值。
(8)一种程序,其使计算机执行以下操作:从输入时间信号中提取每隔预定时间的特征值;以及每当在特征值的提取中新提取出特征值时分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中在特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频分布,从时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取每隔预定时间的特征值。
(9)一种声音特征值提取装置,包括:时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布;似然分布检测单元,其从该时频分布获取音调似然分布;以及特征值提取单元,其在频率方向和时间方向上使似然分布平滑并且提取每隔预定时间的特征值。
(10)根据(9)所述的装置,其中似然分布检测单元包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。
(11)根据(9)或(10)所述的装置,还包括:稀疏单元,其在频率方向和/或时间方向上使经平滑的似然分布稀疏。
(12)根据(9)或(10)所述的装置,还包括:量化单元,其将经平滑的似然分布量化。
(13)根据(9)至(12)中任一个所述的装置,还包括:声音区间检测单元,其基于输入时间信号检测声音区间,其中似然分布检测单元在检测到的声音区间的范围内从时频分布获取音调似然分布。
(14)根据(13)所述的装置,其中声音区间检测单元包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈值确定单元。
(15)一种声音特征值提取方法,包括:通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;从该时频分布获取音调似然分布;以及在频率方向和时间方向上使该似然分布平滑。
(16)一种声音区间检测装置,包括:时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。
(17)根据(16)所述的装置,还包括:时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。
(18)一种声音区间检测方法,包括:通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。
本公开包含与在2012年4月18日在日本专利局提交的日本优先权专利申请JP 2012-094395中公开的主题有关的主题,该申请的全部 内容通过引用而结合于此。
本领域技术人员应当明白取决于设计要求和其他因素可发生各种修改、组合、子组合和变更,如果它们在所附权利要求或其等价物的范围内的话。
标号列表
100:声音检测装置
101:麦克风
102:声音检测单元
103:特征值数据库
104:记录和显示单元
121:信号缓冲单元
122:特征值提取单元
123:特征值缓冲单元
124:比较单元
200:特征值登记装置
201:麦克风
202:声音区间检测单元
203:特征值提取单元
204:特征值登记单元
221:时频变换单元
222:幅度特征值计算单元
223:音调强度特征值计算单元
224:频谱大概轮廓特征值计算单元
225:分数计算单元
226:时间平滑单元
227:阈值确定单元
230:音调似然分布检测单元
231:峰检测单元
232:拟合单元
233:特征值提取单元
234:评分单元
241:时频变换单元
242:音调似然分布检测单元
243:时频变换单元
244:稀疏和量化单元

声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf_第1页
第1页 / 共41页
声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf_第2页
第2页 / 共41页
声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf_第3页
第3页 / 共41页
点击查看更多>>
资源描述

《声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf》由会员分享,可在线阅读,更多相关《声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf(41页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104221018A43申请公布日20141217CN104221018A21申请号201380019489022申请日20130416201209439520120418JPG06F17/30200601G10L25/48200601G10L25/1820060171申请人索尼公司地址日本东京72发明人安部素嗣西口正之仓田宜典74专利代理机构中国国际贸易促进委员会专利商标事务所11038代理人杜文树54发明名称声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序57摘要提供了一种声音检测装置,包括特征值提取单元,其从输。

2、入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时,分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括时频变换单元和似然分布检测单元,在频率方向和时间方向上使获得的似然分布平滑并且提取按照预定时间的特征值。30优先权数据85PCT国际申请进入国家阶段日2014101186PCT国际申请的申请数据PCT/JP2013/0025812013041687PCT国际申请的公布数据WO2013/15725。

3、4EN2013102451INTCL权利要求书3页说明书21页附图16页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书21页附图16页10申请公布号CN104221018ACN104221018A1/3页21一种声音检测装置,包括特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当所述特征值提取单元新提取出特征值时,分别将由所述特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,其中,所述特征值提取单元包括对。

4、每个时间帧的输入时间信号执行时频变换并获取时频分布的时频变换单元,以及从所述时频分布获取音调似然分布的似然分布检测单元,所述特征值提取单元在频率方向和时间方向上使获取的似然分布平滑并且提取所述每隔预定时间的特征值。2根据权利要求1所述的装置,其中,所述似然分布检测单元包括在所述时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的评分单元。3根据权利要求1所述的装置,其中,所述特征值提取单元还包括在所述频率方向和/或所述时间方向上使经平滑的似然分布稀疏的稀疏单元。4根据权利要求1所述的装。

5、置,其中,所述特征值提取单元还包括将经平滑的似然分布量化的量化单元。5根据权利要求1所述的装置,其中,所述比较单元基于所述保持的检测目标声音项的特征值序列和由所述特征值提取单元针对所述预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取所述检测目标声音项的检测结果。6根据权利要求1所述的装置,还包括记录控制单元,其将所述预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。7一种声音检测方法,包括从输入时间信号中提取每隔预定时间的特征值;以及每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征值序。

6、列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,其中,在所述特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取所述每隔预定时间的特征值。8一种程序,其使计算机执行以下操作从输入时间信号中提取每隔预定时间的特征值;以及每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,其中,在所述特征值的提取中,对每个时间帧的输入。

7、时间信号执行时频变换,获取时频权利要求书CN104221018A2/3页3分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取所述每隔预定时间的特征值。9一种声音特征值提取装置,包括时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布;似然分布检测单元,其从所述时频分布获取音调似然分布;以及特征值提取单元,其在频率方向和时间方向上使所述似然分布平滑并且提取每隔预定时间的特征值。10根据权利要求9所述的装置,其中,所述似然分布检测单元包括在所述时频分布的每个时间帧中检测所述频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以。

8、及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的评分单元。11根据权利要求9所述的装置,还包括稀疏单元,其在所述频率方向和/或所述时间方向上使经平滑的似然分布稀疏。12根据权利要求9所述的装置,还包括量化单元,其将经平滑的似然分布量化。13根据权利要求9所述的装置,还包括声音区间检测单元,其基于所述输入时间信号检测声音区间,其中,所述似然分布检测单元在检测到的声音区间的范围内从所述时频分布获取音调似然分布。14根据权利要求13所述的装置,其中,所述声音区间检测单元包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成。

9、分强度和频谱大概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈值确定单元。15一种声音特征值提取方法,包括通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;从所述时频分布获取音调似然分布;以及在频率方向和时间方向上使所述似然分布平滑。16一种声音区间检测装置,包括时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的。

10、特征值;以及评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。17根据权利要求16所述的装置,还包括时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。18一种声音区间检测方法,包括通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;权利要求书CN104221018A3/3页4基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。权利要求书CN104221018A1/21页5声音检测装置、声音检测方法、声音特征。

11、值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序技术领域0001本技术涉及声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序。背景技术0002近年来,家用电器家庭用途的电气设备根据运行状态生成诸如控制声、通知声、操作声和警报声之类的各种声音在下文中被称作“运行状态声”。如果可以通过安装在家中某处的麦克风等观察这种运行状态声并且检测何时以及哪个家用电器执行哪种操作,则可以实现各种应用功能,诸如对作为所谓生活记录的自主行动历史的自动采集、针对具有听力困难的人将通知声可视化以及针对独自居住的老年人的行动监视。0003运。

12、行状态声可能是简单的蜂鸣声、嘟嘟声、音乐、语音声等,并且持续时间长度在短持续时间长度的情况下大约为300MS并且在长持续时间长度的情况下大约为几十秒。这种运行状态声被诸如安装在每个家用电器上的压电式蜂鸣器或者薄型扬声器之类的来自其的声音不足够令人满意的再现设备再现,并且被使得在周围传播。0004例如,PTL1公开了一种技术,其中音乐作曲的部分碎片数据被转换为时频分布,特征值被提取并且随后被与已经登记的音乐作曲的特征值相比较,并且音乐作品的名称被识别出。0005引用列表0006专利文献0007PTL1日本专利第4788810号发明内容0008技术问题0009还可考虑将与PTL1中公开的技术相同的。

13、技术应用于对前述运行状态声音的检测。然而,关于家用电器生成的运行状态声,存在妨碍这种检测的以下事实00101有必要认出短至几百毫秒的运行状态声。00112由于再现设备的不佳质量,声音变得失真,或者发生共鸣并且在一些情况下频率特性极度失真。00123由于在周围的传播,幅度和相频特性较之实际家用电器生成的声音进一步失真。0013例如,图17A示出了在靠近家用电器的位置记录的运行状态声的波形示例。另一方面,图17B示出了在远离家用电器的位置记录的运行状态声的波形示例,并且波形是失真的。00144诸如来自电视的输出声和交谈声之类的相对大的噪声和非恒定噪声在一些情说明书CN104221018A2/21页。

14、6况下由于周围的传播而被叠加。例如,图17C示出了在靠近作为噪声源的电视的位置记录的运行状态声的波形示例,并且运行状态声被淹没在噪声中。00155因为来自每个家用电器的声音级别和距麦克风的距离取决于每个家用电器,因此所记录的声音的音量发生变化。0016希望满意地检测诸如从家用电器生成的运行状态声之类的检测目标声音。0017问题的解决方案0018本技术的一个实施例涉及一种声音检测装置,包括特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时分别将特征值提取单元提取的特征值序列与保。

15、持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元、从该时频分布获取音调似然分布的似然分布检测单元以及在频率方向和时间方向上使似然分布平滑的平滑单元,并且该特征值提取单元从经平滑的似然分布中提取每隔预定时间的特征值。0019根据本技术,特征值提取单元从输入时间信号中提取按照预定时间的特征值。在这种情况下,特征值提取单元对每个时间帧的输入信号执行时频变换、获取时频分布、从该时频分布获取音调似然分布、在频率方向和时间方向上使似然分布平滑并且从经平滑的似然分布中提取按照预。

16、定时间的特征值。0020例如,似然分布检测单元可包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。0021特征值保持单元保持预定数目的检测目标声音项的特征值序列。检测目标声音可包括人或动物的语音声等以及从家用电器生成的运行状态声控制声、通知声、操作声、警报声等。每当特征值提取单元新提取出特征值时,比较单元分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果。0022例如,比较单元可基于保持的检测目。

17、标声音项的特征值序列和由特征值提取单元针对预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取检测目标声音项的检测结果。0023根据本技术,音调似然被从输入时间信号的时频分布获得,每隔预定时间的特征值被从在频率方向和时间方向上已被平滑的似然分布中提取并使用,并且可以在不依赖于麦克风的安装位置的情况下精确地检测检测目标声音从家用电器生成的运行状态声等。0024根据本技术,例如,特征值提取单元还可包括在频率方向和/或时间方向上使经平滑的似然分布稀疏的稀疏单元。根据本技术,例如,特征值提取单元还可包括使经平滑的似然分布量化的量化单元。在。

18、这种情况下,可以减少特征值序列的数据量并因而减少比较计算的负担。0025根据本技术,例如,该装置还可包括记录控制单元,其将预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。在这种情况下,例如,可以获得诸如家用说明书CN104221018A3/21页7电器的操作历史之类的在家的用户动作历史。0026本技术的另一概念涉及一种声音特征值提取装置,包括时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布;似然分布检测单元,其从该时频分布获取音调似然分布;以及特征值提取单元,其在频率方向和时间方向上使似然分布平滑并且提取每隔预定时间的特征值。0027根据本技术,时频变换。

19、单元对每个时间帧的输入时间信号执行时频变换并且获取时频分布。似然分布检测单元从该时频分布获取音调似然分布。例如,似然分布检测单元可包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。此外,特征值提取单元在频率方向和时间方向上使似然分布平滑并且提取按照预定时间的特征值。0028如上所述,根据本技术,音调似然性被从输入时间信号的时频分布获得,每隔预定时间的特征值被从在频率方向和时间方向上已被平滑的似然分布中提取,并且可以令人满意地提取输入时间信号中包括的声音的特征值。0029。

20、根据本技术,例如,特征值提取单元还可包括稀疏单元,其在频率方向和/或时间方向上使经平滑的似然分布稀疏。根据本技术,例如,特征值提取单元还可包括量化单元,其使经平滑的似然分布量化。在这样做时,可以减少提取的特征值的数据量。0030根据本技术,例如,该装置还可包括声音区间检测单元,其基于输入时间信号检测声音区间,并且似然分布检测单元可在检测到的声音区间的范围内从时频分布获取音调似然分布。在这样做时,可以提取对应于声音区间的特征值。0031在这种情况下,声音区间检测单元可包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大。

21、概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈值确定单元。0032此外,本技术的另一实施例涉及一种声音区间检测装置,包括时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。0033根据本技术,时频变换单元对每个时间帧的输入时间信号执行时频变。

22、换并且获取时频分布。特征值提取单元基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值。此外,评分单元基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。根据本技术,例如,该装置还可包括时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。0034如上所述,根据本技术,每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值被从输入时间信号的时频分布中提取,表示每个时间帧的声音区间似然性的分数被从特征值获得,并且可以精确地获取声音区间信息。说明书CN104221018A4/21页80035本发明的。

23、有利效果0036根据本技术,可以满意地检测诸如由家用电器生成的运行状态声等检测目标声音。附图说明0037图1图1是示出根据一个实施例的声音检测装置的配置示例的框图。0038图2图2是示出特征值登记装置的配置示例的框图。0039图3图3是示出声音区间和存在于该声音区间之前和之后的噪声区间的一个示例的示图。0040图4图4是示出构成特征值登记装置的声音区间检测单元的配置示例的框图。0041图5A图5A是例示出音调强度特征值计算单元的示图。0042图5B图5B是例示出音调强度特征值计算单元的示图。0043图5C图5C是例示出音调强度特征值计算单元的示图。0044图5D图5D是例示出音调强度特征值计算。

24、单元的示图。0045图6图6是示出音调强度特征值计算单元中包括的、用于获取音调特性似然性的分数SN,K的分布的音调似然性分布检测单元的配置示例的框图。0046图7A图7A是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。0047图7B图7B是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。0048图8A图8A是示意性地示出音调特性的峰在时间方向上的变化的示图。0049图8B图8B是示意性地示出在频谱图上的小区域伽马中拟合的示图。0050图9图9。

25、是示出音调似然分布检测单元检测音调似然分布的处理过程的示例的流程图。0051图10图10是示出音调成分检测结果的一个示例的示图。0052图11图11是示出语音声的频谱图的一个示例的示图。0053图12图12是示出特征值提取单元的一个配置示例的框图。0054图13图13是示出声音检测单元的一个配置示例的框图。0055图14图14是例示出声音检测单元中的每个部件的操作的示图。0056图15图15是示出通过软件执行声音检测处理的计算装置的配置示例的框图。0057图16图16是示出由CPU执行的检测目标声音检测处理的过程示例的流程图。0058图17A图17A是例示出由实际家用电器生成的声音的记录状态的。

26、示图。0059图17B图17B是例示出由实际家用电器生成的声音的记录状态的示图。0060图17C图17C是例示出由实际家用电器生成的声音的记录状态的示图。具体实施方式0061在下文中,将给出对用于实现本技术的实施例在下文中被称作“实施例”的描述。此外,将按照以下次序给出描述。00621实施例说明书CN104221018A5/21页900632修改示例00640065“声音检测装置”0066图1示出了根据一个实施例的声音检测装置100的配置示例。声音检测装置100包括麦克风101、声音检测单元102、特征值数据库103和记录和显示单元104。0067声音检测装置100执行用于检测由家用电器生成的。

27、运行状态声控制声、通知声、操作声、警报声等的声音检测处理并且记录和显示检测结果。就是说,在声音检测处理中,每隔预定时间的特征值被从通过由麦克风101采集声音而获得的时间信号FT中提取,并且该特征值被与特征值数据库中登记的预定数目的检测目标声音项相比较。然后,如果特征值与预定检测目标声音的特征值序列大体符合的比较结果在声音检测处理中被获得,则该预定检测目标声音的时间和名称被记录和显示。0068麦克风101采集房间中的声音并且输出时间信号FT。房间中的声音也包括由家用电器1至N生成的运行状态声控制声、通知声、操作声、警报声等。声音检测单元102获取从麦克风101输出的时间信号FT作为输入并且从该时。

28、间信号中提取每隔预定时间的特征值。在这点上,声音检测单元102构成特征值提取单元。0069在构成特征值保持单元的特征值数据库103中,包括预定数目的检测目标声音项的特征值序列被与检测目标声音名称相关联地登记和保持。在该实施例中,预定数目的检测目标声音项例如意味着由家用电器1至N生成的运行状态声的全部或者一部分。声音检测单元102每当新特征值被提取时将所提取的特征值序列与特征值数据库103中保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音的检测结果。在这点上,声音检测单元102构成比较单元。0070记录和显示单元104将声音检测单元102的检测目标声音检测结果与时间。

29、一起记录在记录介质中并且将检测结果显示在显示器上。例如,当声音检测单元102的检测目标声音检测结果表明来自家用电器1的通知声A已被检测到时,记录和显示单元104将来自家用电器1的通知声A被产生的事实及其时间记录在记录介质上并且显示在显示器上。0071图1所示的声音检测装置100的操作将被描述。麦克风101采集房间中的声音。来自麦克风101的时间信号输出被提供给声音检测单元102。声音检测单元102从时间信号中提取每隔预定时间的特征值。然后,声音检测单元102每当新特征值被提取时将所提取的特征值序列与特征值数据库103中保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声。

30、音项的检测结果。检测结果被提供给记录和显示单元104。记录和显示单元104将检测结果与时间一起记录在记录介质上并且显示在显示器上。0072“特征值登记装置”0073图2示出了将检测目标声音的特征值序列登记在特征值数据库103中的特征值登记装置200的配置示例。特征值登记装置200包括麦克风201、声音区间检测单元202、特征值提取单元203和特征值登记单元204。0074特征值登记装置200执行声音登记处理声音区间检测处理和声音特征提取处理并且将检测目标声音家用电器生成的运行状态声的特征值序列登记在特征值数据库103中。一般而言,噪声区间存在于由麦克风201记录的、将被登记的检测目标声音之前说。

31、明书CN104221018A6/21页10和之后。因此,实际将被登记的包括有意义声音检测目标声音的声音区间在声音区间检测处理中被检测到。图3示出了声音区间和存在于该声音区间之前和之后的噪声区间的一个示例。在声音特征提取处理中,对检测检测目标声音有用的特征值被从由麦克风201获取的声音区间的时间信号FT中提取并且与检测目标声音名称一起被登记在特征值数据库103中。0075麦克风201采集将被登记为检测目标声音的家用电器的运行状态声。声音区间检测单元202获取从麦克风201输出的时间信号FT作为输入并且从时间信号FT中检测声音区间,即由家用电器生成的运行状态声的区间。特征值提取单元203获取从麦克。

32、风201输出的时间信号FT作为输入并且从时间信号FT中提取每隔预定时间的特征值。0076特征值提取单元203对每个时间帧的输入时间信号FT执行时频变换,获取时频分布,从时频分布获取音调似然分布,在频率方向和时间方向上使似然分布平滑,并且提取每隔预定时间的特征值。在这种情况下,特征值提取单元203在基于从声音区间检测单元202提供的声音区间信息的声音区间范围内提取特征值并且获取与家用电器生成的操作情况声的区间相对应的特征值序列。0077特征值登记单元204将与已经由特征值提取单元203获取的、作为检测目标声音的、由家用电器生成的运行状态声相对应的特征值序列与特征值数据库103中的检测目标声音名称。

33、关于运行状态声的信息相关联并且登记。在附图中示出的示例中,其中包括I个检测目标声音项Z1M、Z2M,ZIM,ZIM的特征值序列被登记在特征值数据库103中的状态被例示出。0078“声音区间检测单元”0079图4示出声音区间检测单元202的配置示例。声音区间检测单元202的输入是由记录将被登记的检测目标声音由家用电器生成的运行状态声的麦克风201获取的时间信号FT,并且噪声区间如图3所示也被包括在检测目标信号之前和之后。此外,来自声音区间检测单元202的输出是指示包括实际将被登记的有意义声音检测目标声音的声音区间的声音区间信息。0080声音区间检测单元202包括时频变换单元221、幅度特征值计算。

34、单元222、音调强度特征值计算单元223、频谱大概轮廓特征值计算单元224、分数计算单元225、时间平滑单元226和阈值确定单元227。0081时频变换单元221对输入时间信号FT执行时频变换并且获得时频信号FN,K。这里,T表示离散时间,N表示时间帧的数目,并且K表示离散频率。时频变换单元221通过短时间傅立叶变换对输入时间信号FT执行时频变换并且获得如在以下式1中示出的时频信号FN,K。0082数学100830084这里,WT表示窗口函数,M表示窗口函数的大小,并且R表示帧时间间隔跳大小HOPSIZE。时频信号FN,K表示时间帧N中的、位于频率K的频率成分的对数幅度值并且是所谓的频谱图时频。

35、分布。说明书CN104221018A107/21页110085幅度特征值计算单元222根据时频信号FN,K计算幅度特征值X0N和X1N。具体而言,幅度特征值计算单元222获取由以下式2表示的、预定频率范围具有下限KL和上限KH的目标帧N附近的时间区间具有目标帧N之前和之后的长度L的平均幅度AAVEN。0086数学200870088此外,幅度特征值计算单元222获取由以下式3表示的、预定频率范围具有下限KL和上限KH的目标帧N中的绝对幅度AABSN。0089数学300900091另外,幅度特征值计算单元222获取由以下式4表示的、预定频率范围具有下限KL和上限KH的目标帧N中的相对幅度ARELN。

36、。0092数学400930094此外,幅度特征值计算单元222如以下式5所示将绝对幅度AABSN看作幅度特征值X0N并且将相对幅度ARELN看作幅度特征值X1N。0095数学50096X0NAABSN,X1NARELN50097音调强度特征值计算单元223根据时频信号FN,K计算音调强度特征值X2N。音调强度特征值计算单元223首先将时频信号FN,K的分布见图5A变换为音调特性似然性的分数SN,K的分布见图5B。每个分数SN,K是从0到1的分数,其表示时频成分多么可能是每个频率K处的FN,K的相应时间N中的“音调成分”。具体而言,分数SN,K在FN,K构成频率方向上的音调特性的峰的位置处接近1。

37、并且在其他位置处接近0。0098图6示出了音调强度特征值计算单元223中包括的、用于获取音调特性似然性的分数SN,K的分布的音调似然性分布检测单元230的配置示例。音调似然性分布检测单元230包括峰检测单元231、拟合单元232、特征值提取单元233和评分单元234。0099峰检测单元231在频谱图时频信号FN,K的分布的每个时间帧中检测频率方向上的峰。就是说,峰检测单元231检测某一位置是否对应于频谱图的所有频率的所有帧中的频率方向上的峰最大值。0100例如通过检查以下式6是否得到满足来执行关于FN,K是否对应于峰的检测。尽管使用三个点的方法被例示为峰检测方法,但是使用五个点的方法也是适用的。

38、。说明书CN104221018A118/21页120101FN,K1FN,K并且FN,KFN,K160102拟合单元232在已经由峰检测单元231检测到的每个峰附近的区域中拟合音调模型,如下所述。首先,拟合单元232执行变换为包括目标峰作为原点的坐标的坐标变换并且如以下式7所示设置邻近的时频区域。这里,德尔塔N表示时间方向上的临近区域例如为三个点,并且德尔塔K表示频率方向上的临近区域例如为两个点。0103数学60104NNNKKK70105接下来,拟合单元232使例如如以下式8所示的二次多项式函数的音调模型拟合临近区域中的时频信号。在这种情况下,拟合单元232例如在峰附近的时频分布与音调模型之。

39、间基于均方误差最小准则执行拟合。0106数学70107YK,NAK2BKCNKDN2ENG80108就是说,拟合单元232通过获取使时频信号的临近区域中的、如以下式9所示的均方误差和如以下式10所示的多项式函数最小化的系数来执行拟合。0109数学8011001110112二次多项式函数具有二次多项式函数在音调特性的频谱峰附近拟合良好误差小并且在噪声特性的频谱峰附近拟合不佳误差大的特性。图7A和图7B是示意性地示出该状态的示图。图7A示意性地例示出通过前述式1获得的、第N个帧中的音调特性的峰附近的频谱。0113图7B示出了一种状态,其中由以下式11示出的二次函数F0K被应用于图7A中的频谱。这里。

40、,A表示峰曲率,K0表示实际峰的频率,并且G0表示实际峰的位置处的对数幅度值。二次函数在音调特性成分的频谱峰周围拟合良好然而二次函数倾向于在噪声特性的峰附近极大偏离。0114数学90115F0KAKK02G0110116图8A示意性地示出音调特性的峰在时间方向上的变化。音调特性的峰的幅度和频率在其大概轮廓被保持的同时在先前和后续的时间帧中改变。尽管实际获得的频谱是离散点,但是频谱为了便利而被表示为曲线。点划线示出了前一帧,实线示出了当前帧,并且虚线示出了下一帧。0117在许多情况下,音调特性成分在时间上在一定程度上是连续的并且可被表示为尽管频率和时间稍微改变但是形状大体相同的二次函数的移动。变。

41、化YK,N由以下式12表示。因为频谱被表示为对数幅度,因此幅度的变化对应于频谱在垂直方向上的位移。这是幅度变化项F1N被添加的原因。这里,贝塔是频率的变化率,并且F1N是表示峰位置处的幅度变化的时间函数。0118数学10说明书CN104221018A129/21页130119YK,NF0KNF1N120120如果F1N被时间方向上的二次函数近似,则变化YK,N可由以下式13表示。因为A、K0、贝塔、D1、E1和G0是恒定的,因此式13通过适当变换变量等价于前述式8。0121数学1101220123图8B示意性地示出在频谱图上的小区域伽马中进行拟合的示图。因为类似的形状在音调特性的峰周围随着时间。

42、过去而逐渐改变,因此式8倾向于适用良好。然而,关于噪声特性的峰的附近,峰的形状和频率发生变化,并且式8因而适用不良,就是说,即使最优地将式8拟合,也会发生大误差。0124前述式10示出了针对关于所有系数A、B、C、D、E和G进行拟合的计算。然而,可在一些系数被预先固定为常数之后执行拟合。此外,可利用二维或者更多维的多项式函数来执行拟合。0125返回图6,特征值提取单元233基于拟合单元232在每个峰处获得的拟合结果见前述式10如以下式14所示提取特征值X0、X1、X2、X3、X4和X5。每个特征值是表示每个峰处的频率成分的特性的特征值,并且特征值本身可被用于分析语音声或者音乐声。0126数学1。

43、201270128评分单元234通过使用特征值提取单元233针对每个峰提取的特征值来获取表示每个峰的音调成分似然性的分数SN,K,以使每个峰的音调成分似然性量化。评分单元说明书CN104221018A1310/21页14234通过使用特征值X0、X1、X2、X3、X4和X5当中的一个或多个特征值来如以下式15所示获取分数SN,K。在这种情况下,至少拟合的归一化误差X5或者峰在频率方向上的曲率X0被使用。0129数学1301300131这里,SIGMX是S型函数,WI是预定负载系数,并且HIXI是第I个特征值XI的预定非线性函数。可以使用例如如以下式16所示的函数作为非线性函数HIXI。这里,U。

44、I和VI是预定负载系数。适当的常数可被预先确定为WI、UI和VI,其例如可使用多个数据项通过最速下降学习来自动选择。0132数学140133HIXISIGMUIXIVI160134评分单元234如上所述通过式15获取表示每个峰的音调成分似然性的分数SN,K。此外,评分单元234将除峰之外位置N,K处的分数SN,K设置为0。评分单元234在时频信号FN,K的每个时间和每个频率处获取作为从0到1的值的音调成分似然性的分数SN,K。0135图9中的流程图示出了音调似然分布检测单元230执行的音调似然分布检测的处理过程的示例。音调似然性分布检测单元230在步骤ST1中开始处理然后转移到步骤ST2中的处。

45、理。在步骤ST2中,音调似然性分布检测单元230将帧时间帧的数目N设置为0。0136接下来,音调似然性分布检测单元230在步骤ST3中确定“N阈值”是否得到满足。0219如果“相似性阈值”得到满足,则CPU301在步骤ST30中输出指示符合的结果。就是说,“第I个检测目标声音在时间N被生成”的判定结果被输出为检测输出。此后,CPU301在步骤ST31中使I增加并且返回步骤ST27中的处理。此外,如果“相似性阈值”在步骤ST29中未得到满足,则CPU301紧接着在步骤ST31中使I增加并且返回到步骤ST27中的处理。如果“II”在步骤ST27中未得到满足,则CPU301判定对当前帧的处理已经完成。

46、,返回到步骤ST22中的处理,并且转移到对下一帧的处理。0220接下来,CPU301在步骤ST3中将帧时间帧的数目N设置为0。然后,CPU301在步骤ST4中判定“N0228上面的实施例示出了一个示例,其中从在家的家用电器生成的运行状态声控制说明书CN104221018A2219/21页23声、通知声、操作声、警报声等被检测到。然而,本技术可被应用于与在制造厂中装配的产品的声音功能有关的自动检测中的用途以及家庭用途。此外,事实上本技术不仅可被应用于对运行状态声的检测而且可被应用于对特定人或者特定动物的语音声或者其他环境声的检测。0229尽管以上描述是对其中基于短时间傅立叶变换执行时频变换的实施。

47、例给出的,但是也可考虑通过使用诸如小波变换之类的另一变换方法来使输入时间信号经受时频变换。此外,尽管以上描述是对其中基于每个检测到的峰附近的时频分布与音调模型之间的均方误差最小准则来执行拟合的实施例给出的,但是也可考虑基于四次方误差最小准则、最小熵准则等来执行拟合。0230此外,本技术可被配置如下。02311一种声音检测装置,包括特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定。

48、数目的检测目标声音项的检测结果,其中特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并获取时频分布的时频变换单元以及从该时频分布获取音调似然分布的似然分布检测单元,该特征值提取单元在频率方向和时间方向上使获取的似然分布平滑并且提取每隔预定时间的特征值。02322根据1所述的装置,其中似然分布检测单元包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。02333根据1或2所述的装置,其中特征值提取单元还包括在频率方向和/或时间方向上使经平滑的似然分布稀疏的稀疏单元。。

49、02344根据1或2所述的装置,其中特征值提取单元还包括将经平滑的似然分布量化的量化单元。02355根据1至4中任一个所述的装置,其中比较单元基于保持的检测目标声音项的特征值序列和由特征值提取单元针对预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取检测目标声音项的检测结果。02366根据1至5中任一个所述的装置,还包括0237记录控制单元,其将预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。02387一种声音检测方法,包括从输入时间信号中提取每隔预定时间的特征值;以及每当在特征值的提取中新提取出特征值时分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中在特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频分布,从时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取每隔预定时间的特征值。02398一种程序,其使计算机执行以下操作从输入时间信号中提取每隔预定时间说明书CN104221018A2320/21页24的特征值;以及每当在特征值的提取中新提取出特征值时分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1