包括将声音信号变换成频率调频域的处理声音信号的系统和方法.pdf

资源描述

《包括将声音信号变换成频率调频域的处理声音信号的系统和方法.pdf》由会员分享，可在线阅读，更多相关《包括将声音信号变换成频率调频域的处理声音信号的系统和方法.pdf（42页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103999076 A (43)申请公布日 2014.08.20 C N 1 0 3 9 9 9 0 7 6 A (21)申请号 201280049465.5 (22)申请日 2012.08.08 13/205,535 2011.08.08 US G06F 17/00(2006.01) (71)申请人英特里斯伊斯公司地址美国加利福尼亚州 (72)发明人大卫C布兰得利丹尼尔S戈尔丁罗伯特N希尔顿尼古拉斯K费舍尔罗德尼加托德里克R鲁斯埃里克维埃维奥拉 (74)专利代理机构北京中誉威圣知识产权代理有限公司 11279 代理人王正茂丛芳 (54) 发明名称。

2、包括将声音信号变换成频率调频域的处理声音信号的系统和方法 (57) 摘要一种系统和方法可以被配置为处理音频信号。所述系统和方法可以追踪音高、调频斜率和/ 或所述音频信号上的谐波包络线，可以重构所述音频信号中表示的声音，和/或可以对所述音频信号进行分段或分类。可以对所述音频信号进行变换以使所述音频信号被变换成增强声音参数追踪、重构和/或分类的频率调频域。 (30)优先权数据 (85)PCT国际申请进入国家阶段日 2014.04.08 (86)PCT国际申请的申请数据 PCT/US2012/049930 2012.08.08 (87)PCT国际申请的公布数据 WO2013/02293。

3、0 EN 2013.02.14 (51)Int.Cl. 权利要求书2页说明书24页附图15页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书24页附图15页 (10)申请公布号 CN 103999076 A CN 103999076 A 1/2页 2 1.一种被配置为处理声音信号的系统，所述系统包括：被配置为执行计算机程序模块的一个或多个处理器，所述计算机程序模块包括：被配置为将音频信号的各个时间采样窗口变换成频率调频域的第一组一个或多个模块，其中给定的时间采样窗口的频率调频域的表示指定了变换系数作为信号部分的频率和分数调频斜率的函数，其中分数。

4、调频斜率是调频斜率除以频率。 2.如权利要求1所述的系统，其中所述计算机程序模块进一步包括第二组一个或多个计算机程序模块，所述第二组一个或多个计算机程序模块被配置为根据获得的经变换的所述给定的时间采样窗口的音频信息，来确定在所述时间采样窗口内音高似然度量值作为所述音频信号的音高和分数调频斜率的函数。 3.如权利要求2所述的系统，其中所述第二组一个或多个计算机程序模块被配置为（i）根据获得的经变换的所述给定的时间采样窗口的音频信息确定所述时间采样窗口内音调似然度量值作为所述音频信号的频率的函数，并且（ii）根据所述音调似然度量值确定所述给定的时间采样窗口的所述音高似然度量值。 4.如。

5、权利要求2所述的系统，进一步包括第三组一个或多个计算机程序模块，所述第三组一个或多个计算机程序模块被配置为基于所述音高似然度量值确定各个所述时间采样窗口的估计的音高和估计的分数调频斜率。 5.如权利要求4所述的系统，其中所述第三组一个或多个计算机程序模块被配置为（i）在处理时间窗口内将所述时间采样窗口划分成多个组；（ii）在给定的处理时间窗口内识别主时间采样窗口；（iii）通过从所述主时间采样窗口朝着所述处理时间窗口的一个或两个边界在所述处理时间窗口内进行迭代来确定所述给定的处理时间窗口中的时间采样窗口的音高，并且根据基于与所述给定的时间采样窗口相邻的时间采样窗口的所确定声音的参。

6、数对音高似然度量值进行加权所得到的值来确定给定的时间采样窗口的估计的音高和估计的分数调频斜率。 6.如权利要求5所述的系统，其中所述第三组一个或多个计算机程序模块被配置为使得用于对所述给定的时间采样窗口中的音高似然度量值进行加权的所述相邻的时间采样窗口中的所述声音的参数包括估计的音高、估计的调频或谐波包络线中的一个或多个。 7.如权利要求4所述的系统，其中所述计算机程序模块进一步包括第四组一个或多个计算机程序模块，所述第四组一个或多个计算机程序模块被配置为基于由所述第一组一个或多个计算机程序模块所产生的经变换的音频信息和/或由所述第三组一个或多个计算机程序模块所确定的所述估计的音高。

7、和估计的调频斜率来重构所述音频信号中表示的声音。 8.如权利要求4所述的系统，其中所述计算机程序模块进一步包括第五组一个或多个计算机程序模块，所述第五组一个或多个计算机程序模块被配置为基于由所述第一组一个或多个计算机程序模块所产生的经变换的音频信息和/或由所述第三组一个或多个计算机程序模块所确定的所述估计的音高和所述估计的调频斜率来对说出所述音频信号中表示的一个或多个声音的一个或多个说话者进行分类。 9.一种处理声音信号的方法，所述方法包括：将音频信号的各个时间采样窗口变换成频率调频域，其中给定的时间采样窗口的所述频率调频域的表示指定变换系数作为信号部分的频率和分数调频斜率的函数。

8、，其中分数调权利要求书CN 103999076 A 2/2页 3 频斜率是调频斜率除以频率。 10.如权利要求9所述的方法，进一步包括：根据获得的经变换的所述给定的时间采样窗口的音频信息确定所述时间采样窗口中的音高似然度量值，作为所述音频信号的音高和调频斜率的函数。 11.如权利要求10所述的方法，进一步包括：根据获得的经变换的所述给定的时间采样窗口的音频信息确定音时间采样窗口内的调似然度量值，作为音频信号的频率的函数；并且根据所述音调似然度量值确定所述给定的时间采样窗口的所述音高似然度量值。 12.如权利要求11所述的方法，进一步包括基于所述音高似然度量值来确定所述各个。

9、时间采样窗口的估计的音高和估计的分数调频斜率。 13.如权利要求12所述的方法，进一步包括：在处理时间窗口内将所述时间采样窗口划分成多个组；识别给定的处理时间窗口内的主时间采样窗口；以及通过从所述主时间采样窗口朝着所述处理时间窗口的一个或两个边界在所述处理时间窗口内进行迭代来确定所述给定的处理时间窗口中的时间采样窗口的音高，并且根据基于与所述给定的时间采样窗口相邻的时间采样窗口的所确定的声音的参数对音高似然度量值进行加权所得到的值来确定给定的时间采样窗口的估计的音高和估计的分数调频斜率。 14.如权利要求13所述的方法，其中用于对所述给定的时间采样窗口中的音高似然度量值进行加权。

10、的所述相邻的时间采样窗口中的声音的参数包括估计的音高、估计的调频或谐波包络线中的一个或多个。 15.如权利要求12所述的方法，进一步包括基于所述经变换的音频信息和/或所述估计的音高和估计的调频斜率来重构所述音频信号中表示的声音。 16.如权利要求12所述的方法，进一步包括基于所述经变换的音频信息和/或所述估计的音高和估计的调频斜率来对说出所述音频信号中表示的一个或多个声音的一个或多个说话者进行分类。权利要求书CN 103999076 A 1/24页 4 包括将声音信号变换成频率调频域的处理声音信号的系统和方法 0001 相关申请的交叉引用 0002 本申请要求于2011年8。

11、月8日提交的、题为“包括将声音信号变换成频率调频域的处理声音信号的系统和方法”的美国专利申请序列号No.13/205,535的权益，该申请的全部内容通过引用的方式并入本申请中。技术领域 0003 本公开涉及通过利用将音频信号变换到指定与信号强度有关的系数作为频率和分数调频斜率的函数的频率调频域来处理音频信号。背景技术 0004 一般来讲，常规的声音处理涉及将各个时间窗口的音频信号从时域经变换到频域。然后在进行进一步处理之前可以在频域中对信号进行各种类型的信号处理技术和算法，力图使信号中表示的声音和噪声区分开。然后可以分析处理后的信号以确定声音参数，例如，音高、包络线和/或其他声。

12、音参数。可以对信号中表示的声音进行分类。 0005 使谐音与噪声（不论信号还是信号噪声中表现出的声波噪声）区分开的常规做法相当于尝试“净化”信号以使谐音与背景噪声区分开。不幸的是，很多时候这些常规技术导致了信号中表示的与谐音以及噪声有关的信息的损失。这些信息的损失会影响下游处理的准确性和/或精确性，例如，确定谐音的声音参数，将谐音进行分类，和/或进行其他下游处理。发明内容 0006 本公开的一方面涉及一种被配置为处理音频信号的系统和方法。系统和方法可以追踪音高、调频斜率（chirp rate）和/或声音信号上的谐波包络线，可以重构音频信号中表示的声音，和/或可以对音频信号进行分段。

13、或分类。可以对音频信号进行变换以使音频信号被变换成增强声音参数追踪、重构和/或分类的频率调频域。 0007 系统可以包括被配置为执行计算机程序模块的一个或多个处理器。计算机程序模块可以包括第一组、第二组、第三组、第四组和/或第五组计算机程序模块中的一个或多个。 0008 第一组计算机程序模块可以被配置为将音频信号的各个时间采样窗口变换成频率调频域。给定的时间采样窗口的频率调频域的表示可以指定变换系数，作为信号部分的频率和分数调频斜率的函数。第一组计算机程序模块可以包括信号模块、时间采样窗口模块、变换模块和/或其他模块中的一个或多个。 0009 第二组计算机程序模块可以被配置为根据给。

14、定的时间采样窗口的经变换的音频信息确定音高似然度量值，作为时间采样窗口中的音频信号的音高和分数调频斜率的函数。第二组计算机程序模块可以被配置为（i）根据给定的时间采样窗口的经变换的音频信说明书CN 103999076 A 2/24页 5 息确定时间采样窗口中的音调似然度量值，作为音频信号的频率的函数，并且（ii）根据音调似然度量值确定给定的时间采样窗口的音高似然度量值。第二组计算机程序模块可以包括音调似然模块、音高似然模块和/或其他模块中的一个或多个。 0010 第三组计算机程序模块可以被配置为基于音高似然度量值来确定各个时间采样窗口的估计的音高和估计的分数调频斜率。第三组计算。

15、机程序模块可以被配置为（i）在处理时间窗口内将时间采样窗口划分成多个组；（ii）识别给定的处理时间窗口内的主时间采样窗口；并且（iii）通过从主时间采样窗口朝着处理时间窗口的一个或两个边界在处理时间窗口内进行迭代来确定给定的处理时间窗口中的时间采样窗口的音高：，并且根据基于与给定的时间采样窗口相邻的时间采样窗口的所确定的声音的参数对音高似然度量值进行加权所得到的值来确定给定的时间采样窗口的估计的音高和估计的分数调频斜率。第三组一个或多个计算机程序模块可以被配置为使得用于对给定的时间采样窗口中的音高似然度量值进行加权的相邻的时间采样窗口中的声音的参数包括估计的音高、估计的调频或谐。

16、波包络线中的一个或多个。第三组计算机程序模块可以包括处理时间窗口模块、主窗口模块、音高估计模块、音高预测模块、包络线矢量模块、包络线相关性模块、加权模块、估计音高累加模块、浊音段模块和/或其他模块中的一个或多个。 0011 第四组计算机程序模块可以被配置为基于由第一组计算机程序模块所产生的经变换的音频信息和/或由第三组计算机程序模块所确定的估计的音高和估计的调频斜率来重构音频信号中表示的声音。第四组计算机程序模块可以包括再合成模块、噪声消减模块、栅栏模型模块、重构模块和/或其他模块中的一个或多个。 0012 第五组计算机程序模块可以被配置为基于由第一组计算机程序模块所产生的经变换的。

17、音频信息和/或由第三组计算机程序模块所确定的估计的音高和估计的调频斜率来对说出音频信号中表示的一个或多个声音的一个或多个说话者进行分类。第五组计算机程序模块可以包括音频特征模块、信息简化模块、广谱斜率模块、噪声估计模块、累加得分模块、训练模块和/或其他模块中的一个或多个。 0013 本文所述的系统和/或方法的这些和其他目的、特征和特性以及操作方法和结构的相关元件的功能及制造的零件和经济性的组合在参照附图考虑以下描述和所附权利要求书后会变得更加明显，所有的这些附图、描述和所附权利要求书构成本说明书的一部分，其中在多个附图中相似的附图标记表示对应的零件。然而，应当明确理解的是，附图仅仅。

18、用于举例说明和描述的目的并且并非旨在限制本发明的范围。本说明书中和权利要求书中使用的单数形式“一个”、“一种”以及“所述”包括多个指代物，除非上下文中清楚地表明。附图说明 0014 图1图示了被配置为处理音频信号的系统。 0015 图2图示了声音信号的光谱图。 0016 图3图示了经变换的声音信号在频率调频域中的曲线图。 0017 图4图示了经变换的声音信号在频率调频域中的曲线图。 0018 图5图示了经变换的音频信息的曲线图。 0019 图6图示了音调似然度量值与频率的曲线图。 0020 图7图示了音高似然度量值与音高的曲线图。说明书CN 103999076 A 3/24页 6 。

19、0021 图8图示了音高似然度量值作为音高和分数调频斜率的函数的曲线图。 0022 图9图示了包括定义的处理时间窗口和处理时间窗口内的时间采样窗口的信号持续时间的时间线。 0023 图10图示了包括多个重叠的处理时间窗口的信号持续时间的时间线。 0024 图11图示了一组包络线矢量。 0025 图12图示了处理音频信息的方法。 0026 图13图示了分析音频信息的方法。 0027 图14图示了分析音频信息的方法。 0028 图15图示了根据经变换的音频信息重构音频信号的方法。 0029 图16图示了根据经变换的音频信息重构音频信号的方法。 0030 图17图示了根据经变换的音频信息重构音频信。

20、号的方法。 0031 图18图示了根据一个或多个实施方式根据经变换的音频信息将音频信号分段和 /或分类的方法。 0032 图19图示了根据一个或多个实施方式的用于获得简化的经变换的音频信息作为与音频信号相关联的特征的方法。 0033 图20图示了根据一个或多个实施方式的用于基于经变换的音频信息来获得光谱斜率信息作为与音频信号相关的特征的方法。 0034 图21图示了根据一个或多个实施方式的用于获得与音频信号相关的噪声和/或信噪比估计的方法。具体实施方式 0035 图1图示了被配置为处理音频信号的系统10。系统10完成的处理可以包括下述的一种或多种：变换音频信号；识别音频信号中表示的声。

21、音的一个或多个声音参数；重构音频信号中表示的一个或多个声音；将音频信号的部分分段和/或分类；和/或其他处理。在一些实施方式中，系统10可以包括一个或多个处理器12、电子存储器14、用户接口16和 /或其他元件中的一个或多个。 0036 处理器12可以被配置为执行一个或多个计算机程序模块。计算机程序模块可以包括信号模块18、时间采样窗口模块20、变换模块22、音调似然模块24、音高似然模块26、处理窗口模块28、峰值似然模块30、音高估计模块32、音高预测模块34、包络线矢量模块 36、包络线相关性模块38、加权模块40、估计音高累加模块42、浊音段模块44、再合成模块 46、噪声消减模。

22、块48、栅栏模型模块50、重构模块52、音频特征模块54、信息简化模块56、光谱斜率模块58、信噪比（SNR）估计模块60、累加得分模块62、训练模块64和/或其他模块中的一个或多个。 0037 信号模块18可以被配置为获得用于处理的声音信号。信号模块18可以被配置为从电子存储器14、用户接口16（例如，麦克风、变换器和/或其他用户界面组件）、外部声源和/或其他声源获得声音信号。声音信号可以包括表示由声源和/或噪声产生的声音的电子模拟信号和/或电子数字信号。本文中使用的“声源”可以指代产生声音的一个物体或一组物体。例如，弦乐器，例如吉他，可以被当作单个声源，即使其自身可以包括多个配。

23、合发声的物体（例如，多根弦、主体和/或其他物体）。类似地，一群歌手可以齐声歌唱来产生单说明书CN 103999076 A 4/24页 7 个谐声。 0038 信号模块18可以被配置为使得获得的声音信号可以指定信号强度作为时间的函数。各个声音信号可以具有表现幅值的采样率。采样率可以与采样周期对应。例如，声音信号的光谱密度可以在光谱图中表现。通过图解的方式，图2示出了时域-频域的光谱图 70。在光谱图70中，幅值可以是第三个维度，并且可以表示为颜色（例如，颜色越亮，幅值越大）。 0039 在声音信号中，由单个声音和/或声源产生的贡献可以以谐波间距（例如，规格间隔的间距）排列。这些将。

24、对声音信号的贡献分离开的间距可以被称为“谐音”或“泛音”。例如，光谱图70包括与第一声音和/或声源相关的第一组泛音（在图2中被标记为泛音72）以及与第二声音和/或声源相关的第二组泛音（在图2中被标记为泛音74）。第一声音和第二声音可以是由共同的声源或独立的声源产生的。与在一个时间点的声音相对应的给定的一组泛音之间的间距可以被称为在该时间点的声音的“音高”。 0040 再参考图1，时间采样窗口模块20可以被配置为将声音信号分成多个信号部分。这些信号部分可以与各个时间采样窗口相关联。时间采样窗口可以在时间上连续，可以重叠，可以间隔开，并且/或者可以按照其他方式在时间上排列。各个时间采样。

25、窗口可以与一段时间相对应，这段时间大于被分成多个信号部分的声音信号的采样周期。如此，与时间采样窗口相关的信号部分可以包括多个信号样本。 0041 由时间采样窗口模块20进行的处理的参数可以包括：峰值窗口函数（例如，高斯函数）的类型：这个函数的宽度（对于高斯函数是标准偏差）；窗口的总宽度（对于高斯函数，通常总共有6个标准偏差）；时间采样窗口的排列方式（例如，连续、重叠、间隔和/或其他排列方式）和/或其他参数。可以基于用户选择、预设设置、待处理的声音信号和/或其他因素来设置这个参数的一个或多个。作为非限制性实例，时间采样窗口可以一个时间段相对应，这个时间段在约5毫秒与约50毫秒之间、。

26、在约5毫秒与约30毫秒之间、在约5毫秒与约15毫秒之间、和/或在其他范围内。由于系统10对声音信号进行的处理考虑到了信号部分中的声音信号的动态性，时间采样窗口可以与大于常规的声音处理系统的时间量相对应。例如，时间采样窗口可以与大于约15毫秒的时间量相对应。在一些实施方式中，时间采样窗口可以对应于约10毫秒。 0042 调频斜率变量可以是从调频斜率（例如，或频率的变化率）导出的度量值。例如，在一些实施方式中，调频斜率变量可以是分数调频斜率。分数调频斜率可以表示为： 0043 (1)=X/； 0044 其中表示分数调频斜率，X表示调频斜率，并且表示频率。 0045 变换模块22进行的处理。

27、可以得到音频的多维表示。这种表示或“空间”可以具有由频率和（分数）调频斜率给定的域。这种表示可以具有由变换系数给定的共同域（输出）。如此，在变换模块22执行变换时，经变换的信号部分可以指定变换系数作为与经变换的信号部分相关的时间采样窗口的频率以及分数调频斜率的函数。对于与经变换的信号部分相关联的时间采样窗口内特定的频率和分数调频斜率，特定的频率和分数调频斜率的变换系数可以表示由变换直接产生的复数、该复数的模数或该模数的平方。 0046 通过图解的方式，图3图示了经变换的信号部分的频率调频域内的调频空间36。在图3中，变换系数用颜色表示，大的幅值变换系数被描述为比小的变换系数更亮。可。

28、以沿说明书CN 103999076 A 5/24页 8 着调频空间36的水平轴线表示频率，并且可以沿着调频空间36的垂直轴线表示分数调频斜率。 0047 再参考图1，变换模块22可以被配置为通过对各个信号部分使用一组滤波器来变换信号部分。这组滤波器中的各个滤波器可以与不同的频率和调频斜率变量对相对应。作为非限制性实例，一组合适的滤波器（）可以表示为： 0048 0049 其中i是虚数，t表示时间，f表示滤波器的中心频率，c表示滤波器的调频斜率，并且表示滤波器的时间采样窗口的标准偏差（例如，宽度）。 0050 变换模块22所使用的滤波器可以是复指数。这可以造成由滤波器所产生的变换。

29、系数包括实部和虚部两者。本文中使用的“变换系数”可以指的是包括实部和虚部分量两者的复数、复数的模数、复数的模数的平方和/或复数和/或复数的实部和虚部的其他表示。例如，可以通过求信号部分的时间数据与复数滤波器的内积来完成对信号部分使用滤波器。可以基于用户选择、预设设置、正在处理的声音信号和/或其他因素来设置滤波器的参数，例如，中心频率和调频斜率。 0051 将音频信号变换成频率调频域可以便于识别信号部分内各个声音（例如，谐音）的信号强度贡献。由于给定的声音改变音高，给定的声音的谐波的频率（或调频斜率）的变化可以被表征为音高变化的速率和谐波的当前频率的函数。可以将第n个谐波表征为： 0。

30、052 (1) 1 (X n / n ) 0053 其中，表示音高（）的变化率，或声音的“音高速度”，X n 表示第n个谐波的调频斜率， n 表示第n个谐波的频率，并且 1 表示第一谐波（例如，基波）的频率。通过参考方程（1）和（2），可以看出，声音的音高的变化率和声音的第n个谐波的分数调频斜率紧密相关，并且方程（2）可重新书写成： 0054 (2) 1 n . 0055 由于音高的变化率是将声音作为整体所具有的声宽参数，在它的全部基础谐波（假设为谐音/声源）的情况下，可以从方程（3）推断，声音的所有谐波的谐波分数调频斜率相同。系统10可以被配置为利用这种现象来识别各个声音在经变换的。

31、信号部分中的贡献。 0056 通过图解的方式，再参考图3，穿过各个谐音的谐波的共同的分数调频斜率可以表示的意思是声音的谐波贡献可以沿着与各个声音的共同的分数调频斜率相对应的单个水平行对齐。这行可以被称为“最佳调频行”（例如，参见图3中的最佳调频行78）。如果信号部分中存在的噪声是非结构性的（在时间上不相关），那么信号部分中存在的大部分（否则，就是基本上全部）噪声可以被假设为具有与信号部分中存在的声音的共同的分数调频斜率不同的分数调频斜率。如此，识别经变换的信号部分（例如被图示为调频空间76）中共同的分数调频斜率可以比尚未被变换到频率调频域中的信号部分更不容易受噪声引起的误差的影响。

32、。 0057 类似地，可以在频率调频域中区分单个信号部分中存在的多个声音，因为它们可能会具有不同的分数调频斜率。作为非限制性实例，图4示出了频率调频域中的调频空间 80。调频空间80可以包括与第一声音相对应的第一最佳调频行82以及与第二声音相对应说明书CN 103999076 A 6/24页 9 的第二最佳调频行84。从图4可以看出，第一声音和第二声音的每一个可以具有类似的音高。因此，常规的声音处理技术可能难以区分这两个明显的声音。然而，由于沿着分数调频斜率的分离，调频空间80分别表示第一声音和第二声音的每一个，并且便于识别这两个单独的声音。 0058 应当理解，例如，可以沿着通。

33、过与特定的分数调频斜率（例如沿着图3或图4所示的分数调频斜率行78、82或84之一）相对应的频率调频域的切片截取经变换的音频信息的二维视图。通过图解的方式，图5示出了经变换的音频信息的曲线图90。曲线图90可以在示出了作为频率的函数的与信号强度有关的系数的幅值的空间中。由曲线图90表示的经变换的音频信息可以包括谐音，由谐音的谐波频率的系数的幅值的一系列峰值92表示。假设声音是谐波，峰值92能够由与谐音的音高（）相对应的间距间隔开。如此，各个峰值 92可以与谐音的各个泛音相对应。 0059 在经变换的音频信息中可以存在其他峰值（例如，峰值94和/或96）。这些峰值不会与对应于峰值92。

34、的谐音相关联。峰值92与峰值94和/或96之间的差异可以不是幅值，而是频率，因为峰值94和/或96可能不在谐音的谐频上。如此，这些峰值94和/或96 以及峰值92之间余下的幅值可以是音频信号中的噪声的表现形式。在这种情况下使用的 “噪声”不是指单个听觉噪声，而是除与峰值92相关联的谐音之外的噪声（不论这种噪声是谐音、扩散噪声、白噪声或一些其他类型的噪声）。 0060 如此前所提及的，如从音频信号得到经变换的音频信息的变换可以造成与能量有关的系数成为复数。在这种实施方式中，可以保存通过变换产生的系数的复数。在这种实施方式中，例如，至少首先可以单独分析系数的实部和虚部。通过图解的方式，曲线。

35、图90可以表示系数的实部，并且单独的曲线图（未示出）可以表示作为频率的函数的系数的虚部。表示作为频率的函数的系数的虚部的曲线图可以在与峰值92相对应的谐音的谐波处具有峰值。 0061 再参考图1，音调似然模块24可以被配置为根据获得的经变换的音频信息确定时间采样窗口内的音调似然度量值，作为音频信号的频率的函数。给定频率的音调似然度量值可以表示由经变换的音频信息表示的声音在时间采样窗口期间具有给定频率的音调的似然。本文中使用的“音调”指的是谐音的谐波（或泛音）或者非谐音的音调。 0062 再参考图5，在经变换的音频信息的曲线图90中，音调可以由系数的峰值表示，例如，峰值92、94和。

36、/或96的任意一个。如此，给定频率的音调似然度量值可以表示曲线图 90的峰值在给定频率的似然，这表示在与曲线图90相对应的时间采样窗口中在给定频率的音频信号中存在音调。 0063 确定给定频率的音调似然度量值可以基于给定频率处和/或其附近的经变换的音频信息与在给定频率上具有中心的峰值函数之间的相关性。峰值函数可以包括高斯峰值函数，x 2 分布和/或其他函数。相关性可以包括确定标准化峰值函数与给定频率处和/或其附近的标准化的经变换的音频信息的点积。点积可以是乘以-1以表示中心在给定频率上的峰值的似然，因为点积单独可以表示不存在中心在给定频率上的峰值的似然。 0064 通过图解的方式，图。

37、5进一步示出了示例性峰值函数98。峰值函数98的中心可以是中心频率 k 。峰值函数98可以具有峰值高度（h）和/或宽度（w）。峰值高度和/或宽度可以是确定音调似然度量值的参数。为了确定音调似然度量值，中心频率可以沿着经变说明书CN 103999076 A 7/24页 10 换的音频信息的频率从一些初始的中心频率 0 移动到一些最终的中心频率 n 。峰值函数98的中心频率在初始的中心频率与最终的中心频率之间移动的增量可以是确定的量的参数。峰值高度、峰值宽度、初始的中心频率、最终的中心频率、中心频率移动的增量和/或确定的其他参数的一个或多个可以是固定的，基于用户输入进行设置，基于经。

38、变换的音频数据的峰值的期望宽度、所考虑的音调频率的范围、经变换的音频数据中的频率间距进行调节（例如，自动和/或手动），和/或按照其他方式进行设置。 0065 确定作为频率的函数的音调似然度量值可以导致建立表示作为频率的函数的音调似然度量值的数据的新的表示。通过图解的方式，图6图示了图5中示出的、作为频率的函数的经变换的音频信号的音调似然度量值的曲线图100。从图5可以看出，可以包括与图 5的峰值92相对应的峰值102，并且图6可以包括与图5中的峰值94和96分别对应的峰值104和106。在一些实施方式中，对于经变换的音频信息所指定的给定频率，用于给定频率的音调似然度量值的幅值可能不。

39、对应于与能量有关的系数的幅值。相反，基于给定频率处和/其或附近的经变换的音频信息与峰值函数之间的相关性，音调似然度量值可以表示给定频率处存在音调的似然。换句话说，与峰值的大小相比，音调似然度量值会更对应于经变换的音频数据中的峰值的显著性。 0066 再参考图1，在表示能量的系数是复数并且以上参照图5和图6描述的音调似然模块24单独处理系数的实部和虚部的实施方式中，音调似然模块24可以通过累加对系数的实部确定的实音调似然度量值与对系数的虚部的确定的虚音调似然度量值（实音调似然度量值和虚音调似然度量值两者都可以是实数）来确定音调似然度量值。然后可以累加实音调似然度量值和虚音调似然度量。

40、值以确定音调似然度量值。该累加可以包括累加用于单个频率的实音调似然度量值和虚音调似然度量值来确定单个频率的音调似然度量值。为了进行该累加，音调似然模块24可以包括对数子模块（未示出）、累加子模块（未示出）和/或其他子模块中的一个或多个。 0067 对数子模块可以被配置为求实音调似然度量值和虚音调似然度量值的对数，例如，自然对数。这会引起将实音调似然度量值和虚音调似然度量值各自的对数确定为频率的函数。累加子模块可以被配置为对共同频率的实音调似然度量值和虚音调似然度量值进行求和（例如，对给定频率的实音调似然度量值和虚音调似然度量值进行求和）以累加实音调似然度量值和虚音调似然度量值。可。

41、以实施这种累加作为音调似然度量值，可以求累加值的指数函数用于实施为音调似然度量值，和/或可以在实施为音调似然度量值之前对累加值进行其他处理。 0068 音高似然模块26可以被配置为基于音调似然模块24确定的音调似然度量值来确定时间采样窗口内的音高似然度量值，作为音频信号的音高的函数。给定音高的音高似然度量值可以与音频信号表示的声音在时间采样窗口期间具有给定音高的似然有关。音高似然模块26可以被配置为通过累加所确定用于与给定音高的谐波相对应的音调的音调似然度量值来确定给定音高的音高似然度量值：。 0069 通过图解的方式，再参考图6，对于音高 k ，可以通过累加预期的音高为 k 的声。

42、音的谐波所在的频率的音调似然度量值来确定音高似然度量值。为了确定作为音高的函数的音高似然度量值， k 可以在初始音高 0 与最终音高 n 之间增大。初始音高、最终音高、音高之间的增量和/或该确定过程的其他参数可以是固定的，基于用户输入进行设置，说明书CN 103999076 A 10 8/24页 11 基于音高估计所需的分辨率、预期的音高值范围进行调节（例如，自动和/或手动），和/或按照其它方式进行设置。 0070 返回到图1，为了累加音调似然度量值以确定音高似然度量值，音高似然模块26 可以包括对数子模块、累加子模块和/或其他的子模块中的一个或多个。 0071 对数子模块可以被。

43、配置为求音调似然度量值的对数（例如，自然对数）。在音调似然模块24产生对数形式（例如，如上所述的形式）的音调似然度量值的实施方式中，可以在没有对数子模块的情况下实施音高似然模块26。累加子模块可以被配置为对各音高（例如， k ，从k=0至n）求预期的音高的谐波所在的频率的音调似然度量值的对数的求和（例如，如图6所示并且如上所述）。然后该累加值可以实施为音高的音高似然度量值。 0072 音高似然模块26的操作会引起表示作为音高的函数的音高似然度量值的数据的表示。通过图解的方式，图7示出了音高似然度量值的曲线图110，时间采样窗口内音高似然度量值作为音频信号的音高的函数。从图7可以看出，。

44、音高似然度量值的全局极大值112 可以在时间采样窗口内经变换的音频信息中表示的音高处展开。通常，因为音高的谐波性质，局部极大值还可以在声音的音高的一半处（例如图7中的极大值114）和/或声音的音高的两倍处（例如图7中的极大值116）展开。 0073 如以上提及的，在一些实施方式中，经变换的音频信息可以已经被变换成频率调频域。在这种实施方式中，经变换的音频信息可以被当作与单独的分数调频斜率（例如，从二维频率调频域截取的单独的一维切片，各一维切片与不同的分数调频斜率相对应）相对应的多组经变换的音频信息。这些组的经变换的音频信息由图1所示的模块24和/或26 单独处理，然后重新组合到由音高。

45、、音高似然度量值和分数调频斜率参数化的空间中。 0074 通过图解的方式，图8示出了空间120，在空间120中音高似然度量值可以被定义为音高和分数调频斜率的函数。在图8中，音高似然度量值的幅值可以由阴影表示（例如，更亮=更大幅值）。可以看出，音高似然度量值的极大值可以是音高和分数调频斜率上的二维局部极大值。极大值可以包括：时间采样窗口内的音频信号中表示的声音的音高处的局部极大值122；音高两倍处的局部极大值124；音高一半处的局部极大值126；和/或其他局部极大值。 0075 再参考图1，处理窗口模块28可以被配置为（例如在信号持续时间上）限定多个处理时间窗口。处理时间窗口可以包括。

46、多个时间采样窗口。处理时间窗口可以与共同的时间长度相对应。通过图解的方式，图9图示了时间线130。时间线130可以沿着信号持续时间的长度延伸。处理时间窗口132可以被限定在信号持续时间的一部分上。处理时间窗口 132可以包括多个时间采样窗口，例如，时间采样窗口134。 0076 再次参考图1，在一些实施方式中，处理时间模块28可以被配置为使得处理时间窗口可以包括多个重叠的处理时间窗口。例如，对于一些或全部信号持续时间，重叠的处理时间窗口可以通过使处理时间窗口的边界增大某一增量来限定。增量可以是时间采样窗口的整数（例如，1、2、3和/或其他的整数）。通过图解的方式，图10示出了时间线1。

47、40，该时间线140示出了可以重叠的第一处理时间窗口142、第二处理时间窗口144和第三处理时间窗口146。处理时间窗口142、144和146可以通过使边界增大被图示为148的增量来限定。例如，可以增大边界使得包括窗口142、144和146的一组重叠的处理时间窗口穿过信号持续时间的整体和/或它的任何部分进行延伸。说明书CN 103999076 A 11 9/24页 12 0077 返回图1，主窗口模块32可以被配置为根据处理时间窗口确定处理时间窗口内的主时间采样窗口。在一些实施方式中，主时间采样窗口可以基于以用户选择和/或其他准则为基础通过规则或参数对音高似然的一些分析而被随。

48、机地识别。在一些实施方式中，识别主时间采样窗口可以包括识别最大音高似然。具有最大音高似然的时间采样窗口可以被识别为主时间采样窗口。最大音高似然可以是处理时间窗口内贯穿时间采样窗口的任意音高和/或调频斜率的最大似然。如此，主窗口模块可以被配置为扫描指定时间采样窗口的音高似然度量值的处理时间窗口内的时间采样窗口的音频信息，并且识别所有这些处理时间窗口内的音高似然的极大值。 0078 音高估计模块32可以被配置为根据处理时间窗口内的各个时间采样窗口确定估计的音高和估计的分数调频斜率。对于主时间采样窗口，可以通过规则、用户选择和/或基于其他准则对音高似然度量值进行的分析来随机地确定估计的。

49、音高和估计的分数调频斜率。对于处理时间窗口中的其他时间采样窗口，音高估计模块可以被配置为通过以下方式来确定估计的音高和估计的分数调频斜率：从主时间采样窗口在处理时间窗口内进行迭代，并且基于以下各项中的一个或多个来确定给定的时间采样窗口的估计的音高和/或估计的分数调频斜率：由经变换的音频信息指定的用于给定的时间采样窗口的音高似然度量值、基于另一个时间采样窗口的估计的音高和估计的分数调频斜率所确定的给定的时间采样窗口的预测的音高、给定的时间采样窗口中的不同音高处的谐波包络线与和给定的时间采样窗口相邻的时间采样窗口的估计的音高处的谐波包络线之间的相关性和/或其他准则。 0079 音高预测模块34可以被配置为确定时间采样窗口的预测的音高。对于处理时间窗口中的第一时间采样窗口，这可以包括确定第一时间采样窗口的预测的音高。音高预测模块可以被配置为基于此前（例如，通过音高预测。

展开阅读全文