《声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf》由会员分享,可在线阅读,更多相关《声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序.pdf(41页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104221018A43申请公布日20141217CN104221018A21申请号201380019489022申请日20130416201209439520120418JPG06F17/30200601G10L25/48200601G10L25/1820060171申请人索尼公司地址日本东京72发明人安部素嗣西口正之仓田宜典74专利代理机构中国国际贸易促进委员会专利商标事务所11038代理人杜文树54发明名称声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序57摘要提供了一种声音检测装置,包括特征值提取单元,其从输。
2、入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时,分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括时频变换单元和似然分布检测单元,在频率方向和时间方向上使获得的似然分布平滑并且提取按照预定时间的特征值。30优先权数据85PCT国际申请进入国家阶段日2014101186PCT国际申请的申请数据PCT/JP2013/0025812013041687PCT国际申请的公布数据WO2013/15725。
3、4EN2013102451INTCL权利要求书3页说明书21页附图16页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书21页附图16页10申请公布号CN104221018ACN104221018A1/3页21一种声音检测装置,包括特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当所述特征值提取单元新提取出特征值时,分别将由所述特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,其中,所述特征值提取单元包括对。
4、每个时间帧的输入时间信号执行时频变换并获取时频分布的时频变换单元,以及从所述时频分布获取音调似然分布的似然分布检测单元,所述特征值提取单元在频率方向和时间方向上使获取的似然分布平滑并且提取所述每隔预定时间的特征值。2根据权利要求1所述的装置,其中,所述似然分布检测单元包括在所述时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的评分单元。3根据权利要求1所述的装置,其中,所述特征值提取单元还包括在所述频率方向和/或所述时间方向上使经平滑的似然分布稀疏的稀疏单元。4根据权利要求1所述的装。
5、置,其中,所述特征值提取单元还包括将经平滑的似然分布量化的量化单元。5根据权利要求1所述的装置,其中,所述比较单元基于所述保持的检测目标声音项的特征值序列和由所述特征值提取单元针对所述预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取所述检测目标声音项的检测结果。6根据权利要求1所述的装置,还包括记录控制单元,其将所述预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。7一种声音检测方法,包括从输入时间信号中提取每隔预定时间的特征值;以及每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征值序。
6、列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,其中,在所述特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取所述每隔预定时间的特征值。8一种程序,其使计算机执行以下操作从输入时间信号中提取每隔预定时间的特征值;以及每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数目的检测目标声音项的检测结果,其中,在所述特征值的提取中,对每个时间帧的输入。
7、时间信号执行时频变换,获取时频权利要求书CN104221018A2/3页3分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取所述每隔预定时间的特征值。9一种声音特征值提取装置,包括时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布;似然分布检测单元,其从所述时频分布获取音调似然分布;以及特征值提取单元,其在频率方向和时间方向上使所述似然分布平滑并且提取每隔预定时间的特征值。10根据权利要求9所述的装置,其中,所述似然分布检测单元包括在所述时频分布的每个时间帧中检测所述频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以。
8、及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的评分单元。11根据权利要求9所述的装置,还包括稀疏单元,其在所述频率方向和/或所述时间方向上使经平滑的似然分布稀疏。12根据权利要求9所述的装置,还包括量化单元,其将经平滑的似然分布量化。13根据权利要求9所述的装置,还包括声音区间检测单元,其基于所述输入时间信号检测声音区间,其中,所述似然分布检测单元在检测到的声音区间的范围内从所述时频分布获取音调似然分布。14根据权利要求13所述的装置,其中,所述声音区间检测单元包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成。
9、分强度和频谱大概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈值确定单元。15一种声音特征值提取方法,包括通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;从所述时频分布获取音调似然分布;以及在频率方向和时间方向上使所述似然分布平滑。16一种声音区间检测装置,包括时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的。
10、特征值;以及评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。17根据权利要求16所述的装置,还包括时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。18一种声音区间检测方法,包括通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;权利要求书CN104221018A3/3页4基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。权利要求书CN104221018A1/21页5声音检测装置、声音检测方法、声音特征。
11、值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序技术领域0001本技术涉及声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序。背景技术0002近年来,家用电器家庭用途的电气设备根据运行状态生成诸如控制声、通知声、操作声和警报声之类的各种声音在下文中被称作“运行状态声”。如果可以通过安装在家中某处的麦克风等观察这种运行状态声并且检测何时以及哪个家用电器执行哪种操作,则可以实现各种应用功能,诸如对作为所谓生活记录的自主行动历史的自动采集、针对具有听力困难的人将通知声可视化以及针对独自居住的老年人的行动监视。0003运。
12、行状态声可能是简单的蜂鸣声、嘟嘟声、音乐、语音声等,并且持续时间长度在短持续时间长度的情况下大约为300MS并且在长持续时间长度的情况下大约为几十秒。这种运行状态声被诸如安装在每个家用电器上的压电式蜂鸣器或者薄型扬声器之类的来自其的声音不足够令人满意的再现设备再现,并且被使得在周围传播。0004例如,PTL1公开了一种技术,其中音乐作曲的部分碎片数据被转换为时频分布,特征值被提取并且随后被与已经登记的音乐作曲的特征值相比较,并且音乐作品的名称被识别出。0005引用列表0006专利文献0007PTL1日本专利第4788810号发明内容0008技术问题0009还可考虑将与PTL1中公开的技术相同的。
13、技术应用于对前述运行状态声音的检测。然而,关于家用电器生成的运行状态声,存在妨碍这种检测的以下事实00101有必要认出短至几百毫秒的运行状态声。00112由于再现设备的不佳质量,声音变得失真,或者发生共鸣并且在一些情况下频率特性极度失真。00123由于在周围的传播,幅度和相频特性较之实际家用电器生成的声音进一步失真。0013例如,图17A示出了在靠近家用电器的位置记录的运行状态声的波形示例。另一方面,图17B示出了在远离家用电器的位置记录的运行状态声的波形示例,并且波形是失真的。00144诸如来自电视的输出声和交谈声之类的相对大的噪声和非恒定噪声在一些情说明书CN104221018A2/21页。
14、6况下由于周围的传播而被叠加。例如,图17C示出了在靠近作为噪声源的电视的位置记录的运行状态声的波形示例,并且运行状态声被淹没在噪声中。00155因为来自每个家用电器的声音级别和距麦克风的距离取决于每个家用电器,因此所记录的声音的音量发生变化。0016希望满意地检测诸如从家用电器生成的运行状态声之类的检测目标声音。0017问题的解决方案0018本技术的一个实施例涉及一种声音检测装置,包括特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时分别将特征值提取单元提取的特征值序列与保。
15、持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元、从该时频分布获取音调似然分布的似然分布检测单元以及在频率方向和时间方向上使似然分布平滑的平滑单元,并且该特征值提取单元从经平滑的似然分布中提取每隔预定时间的特征值。0019根据本技术,特征值提取单元从输入时间信号中提取按照预定时间的特征值。在这种情况下,特征值提取单元对每个时间帧的输入信号执行时频变换、获取时频分布、从该时频分布获取音调似然分布、在频率方向和时间方向上使似然分布平滑并且从经平滑的似然分布中提取按照预。
16、定时间的特征值。0020例如,似然分布检测单元可包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。0021特征值保持单元保持预定数目的检测目标声音项的特征值序列。检测目标声音可包括人或动物的语音声等以及从家用电器生成的运行状态声控制声、通知声、操作声、警报声等。每当特征值提取单元新提取出特征值时,比较单元分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音的特征值序列相比较并且获取预定数目的检测目标声音项的检测结果。0022例如,比较单元可基于保持的检测目。
17、标声音项的特征值序列和由特征值提取单元针对预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取检测目标声音项的检测结果。0023根据本技术,音调似然被从输入时间信号的时频分布获得,每隔预定时间的特征值被从在频率方向和时间方向上已被平滑的似然分布中提取并使用,并且可以在不依赖于麦克风的安装位置的情况下精确地检测检测目标声音从家用电器生成的运行状态声等。0024根据本技术,例如,特征值提取单元还可包括在频率方向和/或时间方向上使经平滑的似然分布稀疏的稀疏单元。根据本技术,例如,特征值提取单元还可包括使经平滑的似然分布量化的量化单元。在。
18、这种情况下,可以减少特征值序列的数据量并因而减少比较计算的负担。0025根据本技术,例如,该装置还可包括记录控制单元,其将预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。在这种情况下,例如,可以获得诸如家用说明书CN104221018A3/21页7电器的操作历史之类的在家的用户动作历史。0026本技术的另一概念涉及一种声音特征值提取装置,包括时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布;似然分布检测单元,其从该时频分布获取音调似然分布;以及特征值提取单元,其在频率方向和时间方向上使似然分布平滑并且提取每隔预定时间的特征值。0027根据本技术,时频变换。
19、单元对每个时间帧的输入时间信号执行时频变换并且获取时频分布。似然分布检测单元从该时频分布获取音调似然分布。例如,似然分布检测单元可包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。此外,特征值提取单元在频率方向和时间方向上使似然分布平滑并且提取按照预定时间的特征值。0028如上所述,根据本技术,音调似然性被从输入时间信号的时频分布获得,每隔预定时间的特征值被从在频率方向和时间方向上已被平滑的似然分布中提取,并且可以令人满意地提取输入时间信号中包括的声音的特征值。0029。
20、根据本技术,例如,特征值提取单元还可包括稀疏单元,其在频率方向和/或时间方向上使经平滑的似然分布稀疏。根据本技术,例如,特征值提取单元还可包括量化单元,其使经平滑的似然分布量化。在这样做时,可以减少提取的特征值的数据量。0030根据本技术,例如,该装置还可包括声音区间检测单元,其基于输入时间信号检测声音区间,并且似然分布检测单元可在检测到的声音区间的范围内从时频分布获取音调似然分布。在这样做时,可以提取对应于声音区间的特征值。0031在这种情况下,声音区间检测单元可包括对每个时间帧的输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大。
21、概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈值确定单元。0032此外,本技术的另一实施例涉及一种声音区间检测装置,包括时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。0033根据本技术,时频变换单元对每个时间帧的输入时间信号执行时频变。
22、换并且获取时频分布。特征值提取单元基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值。此外,评分单元基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。根据本技术,例如,该装置还可包括时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。0034如上所述,根据本技术,每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值被从输入时间信号的时频分布中提取,表示每个时间帧的声音区间似然性的分数被从特征值获得,并且可以精确地获取声音区间信息。说明书CN104221018A4/21页80035本发明的。
23、有利效果0036根据本技术,可以满意地检测诸如由家用电器生成的运行状态声等检测目标声音。附图说明0037图1图1是示出根据一个实施例的声音检测装置的配置示例的框图。0038图2图2是示出特征值登记装置的配置示例的框图。0039图3图3是示出声音区间和存在于该声音区间之前和之后的噪声区间的一个示例的示图。0040图4图4是示出构成特征值登记装置的声音区间检测单元的配置示例的框图。0041图5A图5A是例示出音调强度特征值计算单元的示图。0042图5B图5B是例示出音调强度特征值计算单元的示图。0043图5C图5C是例示出音调强度特征值计算单元的示图。0044图5D图5D是例示出音调强度特征值计算。
24、单元的示图。0045图6图6是示出音调强度特征值计算单元中包括的、用于获取音调特性似然性的分数SN,K的分布的音调似然性分布检测单元的配置示例的框图。0046图7A图7A是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。0047图7B图7B是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。0048图8A图8A是示意性地示出音调特性的峰在时间方向上的变化的示图。0049图8B图8B是示意性地示出在频谱图上的小区域伽马中拟合的示图。0050图9图9。
25、是示出音调似然分布检测单元检测音调似然分布的处理过程的示例的流程图。0051图10图10是示出音调成分检测结果的一个示例的示图。0052图11图11是示出语音声的频谱图的一个示例的示图。0053图12图12是示出特征值提取单元的一个配置示例的框图。0054图13图13是示出声音检测单元的一个配置示例的框图。0055图14图14是例示出声音检测单元中的每个部件的操作的示图。0056图15图15是示出通过软件执行声音检测处理的计算装置的配置示例的框图。0057图16图16是示出由CPU执行的检测目标声音检测处理的过程示例的流程图。0058图17A图17A是例示出由实际家用电器生成的声音的记录状态的。
26、示图。0059图17B图17B是例示出由实际家用电器生成的声音的记录状态的示图。0060图17C图17C是例示出由实际家用电器生成的声音的记录状态的示图。具体实施方式0061在下文中,将给出对用于实现本技术的实施例在下文中被称作“实施例”的描述。此外,将按照以下次序给出描述。00621实施例说明书CN104221018A5/21页900632修改示例00640065“声音检测装置”0066图1示出了根据一个实施例的声音检测装置100的配置示例。声音检测装置100包括麦克风101、声音检测单元102、特征值数据库103和记录和显示单元104。0067声音检测装置100执行用于检测由家用电器生成的。
27、运行状态声控制声、通知声、操作声、警报声等的声音检测处理并且记录和显示检测结果。就是说,在声音检测处理中,每隔预定时间的特征值被从通过由麦克风101采集声音而获得的时间信号FT中提取,并且该特征值被与特征值数据库中登记的预定数目的检测目标声音项相比较。然后,如果特征值与预定检测目标声音的特征值序列大体符合的比较结果在声音检测处理中被获得,则该预定检测目标声音的时间和名称被记录和显示。0068麦克风101采集房间中的声音并且输出时间信号FT。房间中的声音也包括由家用电器1至N生成的运行状态声控制声、通知声、操作声、警报声等。声音检测单元102获取从麦克风101输出的时间信号FT作为输入并且从该时。
28、间信号中提取每隔预定时间的特征值。在这点上,声音检测单元102构成特征值提取单元。0069在构成特征值保持单元的特征值数据库103中,包括预定数目的检测目标声音项的特征值序列被与检测目标声音名称相关联地登记和保持。在该实施例中,预定数目的检测目标声音项例如意味着由家用电器1至N生成的运行状态声的全部或者一部分。声音检测单元102每当新特征值被提取时将所提取的特征值序列与特征值数据库103中保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音的检测结果。在这点上,声音检测单元102构成比较单元。0070记录和显示单元104将声音检测单元102的检测目标声音检测结果与时间。
29、一起记录在记录介质中并且将检测结果显示在显示器上。例如,当声音检测单元102的检测目标声音检测结果表明来自家用电器1的通知声A已被检测到时,记录和显示单元104将来自家用电器1的通知声A被产生的事实及其时间记录在记录介质上并且显示在显示器上。0071图1所示的声音检测装置100的操作将被描述。麦克风101采集房间中的声音。来自麦克风101的时间信号输出被提供给声音检测单元102。声音检测单元102从时间信号中提取每隔预定时间的特征值。然后,声音检测单元102每当新特征值被提取时将所提取的特征值序列与特征值数据库103中保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声。
30、音项的检测结果。检测结果被提供给记录和显示单元104。记录和显示单元104将检测结果与时间一起记录在记录介质上并且显示在显示器上。0072“特征值登记装置”0073图2示出了将检测目标声音的特征值序列登记在特征值数据库103中的特征值登记装置200的配置示例。特征值登记装置200包括麦克风201、声音区间检测单元202、特征值提取单元203和特征值登记单元204。0074特征值登记装置200执行声音登记处理声音区间检测处理和声音特征提取处理并且将检测目标声音家用电器生成的运行状态声的特征值序列登记在特征值数据库103中。一般而言,噪声区间存在于由麦克风201记录的、将被登记的检测目标声音之前说。
31、明书CN104221018A6/21页10和之后。因此,实际将被登记的包括有意义声音检测目标声音的声音区间在声音区间检测处理中被检测到。图3示出了声音区间和存在于该声音区间之前和之后的噪声区间的一个示例。在声音特征提取处理中,对检测检测目标声音有用的特征值被从由麦克风201获取的声音区间的时间信号FT中提取并且与检测目标声音名称一起被登记在特征值数据库103中。0075麦克风201采集将被登记为检测目标声音的家用电器的运行状态声。声音区间检测单元202获取从麦克风201输出的时间信号FT作为输入并且从时间信号FT中检测声音区间,即由家用电器生成的运行状态声的区间。特征值提取单元203获取从麦克。
32、风201输出的时间信号FT作为输入并且从时间信号FT中提取每隔预定时间的特征值。0076特征值提取单元203对每个时间帧的输入时间信号FT执行时频变换,获取时频分布,从时频分布获取音调似然分布,在频率方向和时间方向上使似然分布平滑,并且提取每隔预定时间的特征值。在这种情况下,特征值提取单元203在基于从声音区间检测单元202提供的声音区间信息的声音区间范围内提取特征值并且获取与家用电器生成的操作情况声的区间相对应的特征值序列。0077特征值登记单元204将与已经由特征值提取单元203获取的、作为检测目标声音的、由家用电器生成的运行状态声相对应的特征值序列与特征值数据库103中的检测目标声音名称。
33、关于运行状态声的信息相关联并且登记。在附图中示出的示例中,其中包括I个检测目标声音项Z1M、Z2M,ZIM,ZIM的特征值序列被登记在特征值数据库103中的状态被例示出。0078“声音区间检测单元”0079图4示出声音区间检测单元202的配置示例。声音区间检测单元202的输入是由记录将被登记的检测目标声音由家用电器生成的运行状态声的麦克风201获取的时间信号FT,并且噪声区间如图3所示也被包括在检测目标信号之前和之后。此外,来自声音区间检测单元202的输出是指示包括实际将被登记的有意义声音检测目标声音的声音区间的声音区间信息。0080声音区间检测单元202包括时频变换单元221、幅度特征值计算。
34、单元222、音调强度特征值计算单元223、频谱大概轮廓特征值计算单元224、分数计算单元225、时间平滑单元226和阈值确定单元227。0081时频变换单元221对输入时间信号FT执行时频变换并且获得时频信号FN,K。这里,T表示离散时间,N表示时间帧的数目,并且K表示离散频率。时频变换单元221通过短时间傅立叶变换对输入时间信号FT执行时频变换并且获得如在以下式1中示出的时频信号FN,K。0082数学100830084这里,WT表示窗口函数,M表示窗口函数的大小,并且R表示帧时间间隔跳大小HOPSIZE。时频信号FN,K表示时间帧N中的、位于频率K的频率成分的对数幅度值并且是所谓的频谱图时频。
35、分布。说明书CN104221018A107/21页110085幅度特征值计算单元222根据时频信号FN,K计算幅度特征值X0N和X1N。具体而言,幅度特征值计算单元222获取由以下式2表示的、预定频率范围具有下限KL和上限KH的目标帧N附近的时间区间具有目标帧N之前和之后的长度L的平均幅度AAVEN。0086数学200870088此外,幅度特征值计算单元222获取由以下式3表示的、预定频率范围具有下限KL和上限KH的目标帧N中的绝对幅度AABSN。0089数学300900091另外,幅度特征值计算单元222获取由以下式4表示的、预定频率范围具有下限KL和上限KH的目标帧N中的相对幅度ARELN。
36、。0092数学400930094此外,幅度特征值计算单元222如以下式5所示将绝对幅度AABSN看作幅度特征值X0N并且将相对幅度ARELN看作幅度特征值X1N。0095数学50096X0NAABSN,X1NARELN50097音调强度特征值计算单元223根据时频信号FN,K计算音调强度特征值X2N。音调强度特征值计算单元223首先将时频信号FN,K的分布见图5A变换为音调特性似然性的分数SN,K的分布见图5B。每个分数SN,K是从0到1的分数,其表示时频成分多么可能是每个频率K处的FN,K的相应时间N中的“音调成分”。具体而言,分数SN,K在FN,K构成频率方向上的音调特性的峰的位置处接近1。
37、并且在其他位置处接近0。0098图6示出了音调强度特征值计算单元223中包括的、用于获取音调特性似然性的分数SN,K的分布的音调似然性分布检测单元230的配置示例。音调似然性分布检测单元230包括峰检测单元231、拟合单元232、特征值提取单元233和评分单元234。0099峰检测单元231在频谱图时频信号FN,K的分布的每个时间帧中检测频率方向上的峰。就是说,峰检测单元231检测某一位置是否对应于频谱图的所有频率的所有帧中的频率方向上的峰最大值。0100例如通过检查以下式6是否得到满足来执行关于FN,K是否对应于峰的检测。尽管使用三个点的方法被例示为峰检测方法,但是使用五个点的方法也是适用的。
38、。说明书CN104221018A118/21页120101FN,K1FN,K并且FN,KFN,K160102拟合单元232在已经由峰检测单元231检测到的每个峰附近的区域中拟合音调模型,如下所述。首先,拟合单元232执行变换为包括目标峰作为原点的坐标的坐标变换并且如以下式7所示设置邻近的时频区域。这里,德尔塔N表示时间方向上的临近区域例如为三个点,并且德尔塔K表示频率方向上的临近区域例如为两个点。0103数学60104NNNKKK70105接下来,拟合单元232使例如如以下式8所示的二次多项式函数的音调模型拟合临近区域中的时频信号。在这种情况下,拟合单元232例如在峰附近的时频分布与音调模型之。
39、间基于均方误差最小准则执行拟合。0106数学70107YK,NAK2BKCNKDN2ENG80108就是说,拟合单元232通过获取使时频信号的临近区域中的、如以下式9所示的均方误差和如以下式10所示的多项式函数最小化的系数来执行拟合。0109数学8011001110112二次多项式函数具有二次多项式函数在音调特性的频谱峰附近拟合良好误差小并且在噪声特性的频谱峰附近拟合不佳误差大的特性。图7A和图7B是示意性地示出该状态的示图。图7A示意性地例示出通过前述式1获得的、第N个帧中的音调特性的峰附近的频谱。0113图7B示出了一种状态,其中由以下式11示出的二次函数F0K被应用于图7A中的频谱。这里。
40、,A表示峰曲率,K0表示实际峰的频率,并且G0表示实际峰的位置处的对数幅度值。二次函数在音调特性成分的频谱峰周围拟合良好然而二次函数倾向于在噪声特性的峰附近极大偏离。0114数学90115F0KAKK02G0110116图8A示意性地示出音调特性的峰在时间方向上的变化。音调特性的峰的幅度和频率在其大概轮廓被保持的同时在先前和后续的时间帧中改变。尽管实际获得的频谱是离散点,但是频谱为了便利而被表示为曲线。点划线示出了前一帧,实线示出了当前帧,并且虚线示出了下一帧。0117在许多情况下,音调特性成分在时间上在一定程度上是连续的并且可被表示为尽管频率和时间稍微改变但是形状大体相同的二次函数的移动。变。
41、化YK,N由以下式12表示。因为频谱被表示为对数幅度,因此幅度的变化对应于频谱在垂直方向上的位移。这是幅度变化项F1N被添加的原因。这里,贝塔是频率的变化率,并且F1N是表示峰位置处的幅度变化的时间函数。0118数学10说明书CN104221018A129/21页130119YK,NF0KNF1N120120如果F1N被时间方向上的二次函数近似,则变化YK,N可由以下式13表示。因为A、K0、贝塔、D1、E1和G0是恒定的,因此式13通过适当变换变量等价于前述式8。0121数学1101220123图8B示意性地示出在频谱图上的小区域伽马中进行拟合的示图。因为类似的形状在音调特性的峰周围随着时间。
42、过去而逐渐改变,因此式8倾向于适用良好。然而,关于噪声特性的峰的附近,峰的形状和频率发生变化,并且式8因而适用不良,就是说,即使最优地将式8拟合,也会发生大误差。0124前述式10示出了针对关于所有系数A、B、C、D、E和G进行拟合的计算。然而,可在一些系数被预先固定为常数之后执行拟合。此外,可利用二维或者更多维的多项式函数来执行拟合。0125返回图6,特征值提取单元233基于拟合单元232在每个峰处获得的拟合结果见前述式10如以下式14所示提取特征值X0、X1、X2、X3、X4和X5。每个特征值是表示每个峰处的频率成分的特性的特征值,并且特征值本身可被用于分析语音声或者音乐声。0126数学1。
43、201270128评分单元234通过使用特征值提取单元233针对每个峰提取的特征值来获取表示每个峰的音调成分似然性的分数SN,K,以使每个峰的音调成分似然性量化。评分单元说明书CN104221018A1310/21页14234通过使用特征值X0、X1、X2、X3、X4和X5当中的一个或多个特征值来如以下式15所示获取分数SN,K。在这种情况下,至少拟合的归一化误差X5或者峰在频率方向上的曲率X0被使用。0129数学1301300131这里,SIGMX是S型函数,WI是预定负载系数,并且HIXI是第I个特征值XI的预定非线性函数。可以使用例如如以下式16所示的函数作为非线性函数HIXI。这里,U。
44、I和VI是预定负载系数。适当的常数可被预先确定为WI、UI和VI,其例如可使用多个数据项通过最速下降学习来自动选择。0132数学140133HIXISIGMUIXIVI160134评分单元234如上所述通过式15获取表示每个峰的音调成分似然性的分数SN,K。此外,评分单元234将除峰之外位置N,K处的分数SN,K设置为0。评分单元234在时频信号FN,K的每个时间和每个频率处获取作为从0到1的值的音调成分似然性的分数SN,K。0135图9中的流程图示出了音调似然分布检测单元230执行的音调似然分布检测的处理过程的示例。音调似然性分布检测单元230在步骤ST1中开始处理然后转移到步骤ST2中的处。
45、理。在步骤ST2中,音调似然性分布检测单元230将帧时间帧的数目N设置为0。0136接下来,音调似然性分布检测单元230在步骤ST3中确定“N阈值”是否得到满足。0219如果“相似性阈值”得到满足,则CPU301在步骤ST30中输出指示符合的结果。就是说,“第I个检测目标声音在时间N被生成”的判定结果被输出为检测输出。此后,CPU301在步骤ST31中使I增加并且返回步骤ST27中的处理。此外,如果“相似性阈值”在步骤ST29中未得到满足,则CPU301紧接着在步骤ST31中使I增加并且返回到步骤ST27中的处理。如果“II”在步骤ST27中未得到满足,则CPU301判定对当前帧的处理已经完成。
46、,返回到步骤ST22中的处理,并且转移到对下一帧的处理。0220接下来,CPU301在步骤ST3中将帧时间帧的数目N设置为0。然后,CPU301在步骤ST4中判定“N0228上面的实施例示出了一个示例,其中从在家的家用电器生成的运行状态声控制说明书CN104221018A2219/21页23声、通知声、操作声、警报声等被检测到。然而,本技术可被应用于与在制造厂中装配的产品的声音功能有关的自动检测中的用途以及家庭用途。此外,事实上本技术不仅可被应用于对运行状态声的检测而且可被应用于对特定人或者特定动物的语音声或者其他环境声的检测。0229尽管以上描述是对其中基于短时间傅立叶变换执行时频变换的实施。
47、例给出的,但是也可考虑通过使用诸如小波变换之类的另一变换方法来使输入时间信号经受时频变换。此外,尽管以上描述是对其中基于每个检测到的峰附近的时频分布与音调模型之间的均方误差最小准则来执行拟合的实施例给出的,但是也可考虑基于四次方误差最小准则、最小熵准则等来执行拟合。0230此外,本技术可被配置如下。02311一种声音检测装置,包括特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较并且获取预定。
48、数目的检测目标声音项的检测结果,其中特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并获取时频分布的时频变换单元以及从该时频分布获取音调似然分布的似然分布检测单元,该特征值提取单元在频率方向和时间方向上使获取的似然分布平滑并且提取每隔预定时间的特征值。02322根据1所述的装置,其中似然分布检测单元包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似然性的分数的评分单元。02333根据1或2所述的装置,其中特征值提取单元还包括在频率方向和/或时间方向上使经平滑的似然分布稀疏的稀疏单元。。
49、02344根据1或2所述的装置,其中特征值提取单元还包括将经平滑的似然分布量化的量化单元。02355根据1至4中任一个所述的装置,其中比较单元基于保持的检测目标声音项的特征值序列和由特征值提取单元针对预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性获取检测目标声音项的检测结果。02366根据1至5中任一个所述的装置,还包括0237记录控制单元,其将预定数目的检测目标声音项的检测结果与时间信息一起记录在记录介质上。02387一种声音检测方法,包括从输入时间信号中提取每隔预定时间的特征值;以及每当在特征值的提取中新提取出特征值时分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中在特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频分布,从时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并且提取每隔预定时间的特征值。02398一种程序,其使计算机执行以下操作从输入时间信号中提取每隔预定时间说明书CN104221018A2320/21页24的特征值;以及每当在特征值的提取中新提取出特征值时分别将由特征值提取单元提取的特征值序列与所保持的预定数目的检测目标声音。