语音侦测方法.pdf

摘要
申请专利号：	CN201010139851.6	申请日：	2010.03.23
公开号：	CN102201231A	公开日：	2011.09.28
当前法律状态：	授权	有效性：	有权
法律详情：	专利权的转移 IPC(主分类):G10L 11/02登记生效日:20151015变更事项:专利权人变更前权利人:创杰科技股份有限公司变更后权利人:英属开曼群岛商迈利电子股份有限公司变更事项:地址变更前权利人:中国台湾新竹市变更后权利人:开曼群岛乔治敦\|\|\|专利权的转移 IPC(主分类):G10L 11/02登记生效日:20151015变更事项:专利权人变更前权利人:英属开曼群岛商迈利电子股份有限公司变更后权利人:密克罗奇普技术公司变更事项:地址变更前权利人:开曼群岛乔治敦变更后权利人:美国亚利桑那州\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G10L 11/02申请日:20100323\|\|\|公开
IPC分类号：	G10L11/02; G10L15/04; G10L21/02	主分类号：	G10L11/02
申请人：	创杰科技股份有限公司
发明人：	林颖聪; 丁永祯; 金判燮
地址：	中国台湾新竹市
优先权：
专利代理机构：	北京律诚同业知识产权代理有限公司 11006	代理人：	梁挥;祁建国
PDF下载：	PDF下载

内容摘要

本发明揭露一种语音侦测方法，此语音侦测方法包括以下步骤：由第一收音装置取样第一信号，并由第二收音装置取样第二信号，其中第一收音装置比第二收音装置较靠近一语音信号源；计算第一信号在一区间内所对应的第一能量，计算第二信号在区间内所对应的第二能量，并根据第一能量与第二能量计算第一比值；转换第一比值为第二比值；设定临界值；根据第二比值与临界值的大小，判断语音信号源是否被侦测。根据本发明所提出的语音侦测方法，可以在使用者发出语音信号时，准确地侦测此语音信号。

权利要求书

1.一种语音侦测方法，其特征在于，包括：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号，其中该第一收音装置比该第二收音装置较靠近一语音信号源；计算该第一信号在一区间内所对应的一第一能量，计算该第二信号在该区间内所对应的一第二能量，并根据该第一能量与该第二能量计算一第一比值；转换该第一比值为一第二比值；设定一临界值；以及根据该第二比值与该临界值的大小，判断该语音信号源是否被侦测。2.如权利要求1所述的语音侦测方法，其特征在于，在转换该第一比值的该步骤中，利用一指数加权位移平均法，转换该第一比值为该第二比值。3.如权利要求1所述的语音侦测方法，其特征在于，在设定一临界值的该步骤中，该临界值为该第二比值的一区域最大值乘以一系数β再乘以一衰减参数σ，其中0＜β≤1，0＜σ≤1。4.如权利要求3所述的语音侦测方法，其特征在于，判断该第二比值与该临界值的大小的该步骤中，若是该第二比值小于该临界值时，则代表该语音信号源已被侦测。5.一种语音侦测方法，其特征在于，包括：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号，其中该第一收音装置比该第二收音装置较靠近一语音信号源；执行一语音能量判断步骤，包括：计算该第一信号在一区间内所对应的一第一能量，计算该第二信号在该区间内所对应的一第二能量，并根据该第一能量与该第二能量计算一第一比值；转换该第一比值为一第二比值；设定一临界值；以及判断该第二比值与该临界值的大小，输出一第一判断结果；执行一语音方向判断步骤，包括：根据该第一信号与该第二信号，计算一第一方向上的一第一相关值与一第二方向上的一第二相关值，其中该第一方向为该语音信号源对应的一方向，该第二方向为该第一方向以外的一方向；以及根据该第一相关值与该第二相关值，输出一第二判断结果；以及根据该第一判断结果与该第二判断结果，判断该语音信号源是否被侦测。6.如权利要求5所述的语音侦测方法，其特征在于，在该第一判断结果与该第二判断结果，判断该语音信号源是否被侦测的步骤中，当该第二比值小于该临界值并且该第一相关值大于该第二相关值时，则代表该语音信号源已被侦测。7.如权利要求5所述的语音侦测方法，其特征在于，在该第一判断结果与该第二判断结果，判断该语音信号源是否被侦测的步骤中，当该第二比值小于该临界值或是该第一相关值大于该第二相关值时，则代表该语音信号源已被侦测。8.如权利要求5所述的语音侦测方法，其特征在于，在转换该第一比值的该步骤中，利用一指数加权位移平均法，转换该第一比值为该第二比值。9.如权利要求5所述的语音侦测方法，其特征在于，在设定一临界值的该步骤中，该临界值为该第二比值的一区域最大值乘以一系数β再乘以一衰减参数σ，其中0＜β≤1，0＜σ≤1。

说明书

语音侦测方法

技术领域

本发明关于一种语音侦测方法，特别是一种应用双收音装置的语音侦测方法。

背景技术

近年来，免持式语音通讯系统已经普遍的受到使用。一般而言，免持式语音通讯系统可通过蓝牙通讯模块与行动通讯装置相连接。经过数字化与调变后，免持式语音通讯系统可将语音信号转换成一个一个的封包，再利用蓝牙通讯模块传送这些封包至行动通讯模块。

然而，在现实的环境下，免持式语音通讯系统会因为受到环境噪声的干扰，而原本语音信号的清晰度降低。举例而言，当使用者在车辆来往频繁的道路旁边或是人潮拥挤的捷运站使用免持式语音通讯系统时，免持式语音通讯系统的麦克风会接收到许多的背景噪声。若是这些背景噪声的音量大于使用者本身说话时的音量，背景噪声将会严重的干扰此使用者所发出的语音信号。

此外，根据使用者使用行为的相关研究可知，在整段通话的期间中，由使用者在说话只占不到整段通话期间的一半。若是在整段通话期间，免持式语音通讯系统一值不断地持续传送封包，将会使免持式语音通讯系统产生不必要的电力消耗。因为免持式语音通讯系统是使用电池的电力以提供电能，若是持续产生不必要的电力消耗，将会是免持式语音通讯系统的通话时间或是待机时间大幅的被降低，进而减低此免持式语音通讯系统在市场上的竞争力。

发明内容

鉴于以上的问题，本发明提出一种语音侦测方法，用以当使用者发出语音信号时，准确地侦测此语音信号。

本发明所提出的语音侦测方法包括以下步骤：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号，其中第一收音装置比第二收音装置较靠近一语音信号源；计算第一信号在一区间内所对应的一第一能量，计算第二信号在区间内所对应的一第二能量，并根据第一能量与第二能量计算一第一比值；转换第一比值为一第二比值；设定一临界值；根据第二比值与临界值的大小，判断语音信号源是否被侦测。

除了上述的方法之外，本发明另揭露一种语音侦测方法，包括：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号，其中第一收音装置比第二收音装置较靠近一语音信号源；执行一语音能量判断步骤，得到一第一判断结果；执行一语音方向判断步骤，得到一第二判断结果；根据第一判断结果与第二判断结果，判断语音信号源是否被侦测。

其中，语音能量判断步骤包括：计算第一信号在一区间内所对应的第一能量，计算第二信号在区间内所对应的第二能量，并根据第一能量与第二能量计算第一比值；转换第一比值为第二比值；设定临界值；判断第二比值与该临界值的大小，输出第一判断结果。

另一方面，语音方向判断步骤包括：根据第一信号与第二信号，计算第一方向上的第一相关值与第二方向上的第二相关值；根据第一相关值与第二相关值，输出第二判断结果。其中，第一方向为语音信号源对应的一方向，第二方向为该第一方向以外的一方向。

根据本发明所提出的语音方向判断，可依背景环境噪音的大小进行门坎值的调整，以提高侦测的准确率。此外，更可以经由语音方向的步骤进行辅助的判断，以更进一步的增加侦测的准确度。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1A、图1B与图1C，为本发明所提出的免持式语音通讯系统的外观示意图；

图2为本发明所提出的语音侦测方法第一实施例的流程图；

图3A与图3B，为本发明的仿真信号波形图；

图4为本发明所提出的语音侦测方法第二实施例的流程图；

图5为本发明所提出的免持式语音通讯系统的侧视图。

其中，附图标记

10免持式语音通讯系统

11第一面

12第二面

20第一收音装置

30第二收音装置

100线段

200线段

300线段

具体实施方式

下面结合附图和具体实施例对本发明技术方案进行详细的描述，以更进一步了解本发明的目的、方案及功效，但并非作为本发明所附权利要求保护范围的限制。

请参照图1A、图1B与图1C，为免持式语音通讯系统的外观示意图。

图1A、图1B为第一实施例的外观示意图。免持式语音通讯系统10包括第一收音装置20与第二收音装置30。第一收音装置20与第二收音装置30各自可为一个麦克风。免持式语音通讯系统10具有第一面11与第二面12。当使用者使用免持式语音通讯系统10时，第一面11会较为靠近人脸，且第二面12会较为远离人脸。在此实施例中，第一收音装置20位于第一面11，且第二收音装置30位于第二面12。此外，第一收音装置20比第二收音装置30较靠近语音信号源，语音信号源通常为使用者的嘴巴。

图1C为第二实施例的外观示意图。免持式语音通讯系统10包括第一收音装置20与第二收音装置30。免持式语音通讯系统10具有第一面11与第二面12。当使用者使用免持式语音通讯系统10时，第一面11会较为靠近人脸，且第二面12会较为远离人脸。在此实施例中，第一收音装置20与第二收音装置30皆位于第一面10。并且，第一收音装置20比第二收音装置30较靠近语音信号源，语音信号源通常为使用者的嘴巴。

请参照图2为本发明所提出的语音侦测方法第一实施例的流程图。此方法为语音能量判断流程，包括以下步骤：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号(S110)；计算第一信号在一区间内所对应的第一能量，计算第二信号在此区间内所对应的第二能量(S120)；根据第一能量与第二能量计算第一比值(S130)；转换第一比值为第二比值(S140)；设定临界值(S150)；根据第二比值与临界值的大小，判断语音信号源是否被侦测(S160)。

在步骤S110中，在撷取到声音信号后，第一收音装置20与第二收音装置30会将撷取到的声音信号经过周期性的取样(sampling)和模拟/数字(Analog/Digital)转换之后，第一收音装置20会输出第一信号，且第二收音装置30会输出第二信号。在此实施例中，取样频率需至少为语音信号最高频率的二倍以上。而一般而言，取样频率可为8,000Hz(赫兹)。若是要得到更好的效果，取样频率也可以为更高的16,000Hz或是32,000Hz。另一方面，模拟/数字转换一般可为8位的模拟/数字转换，或是也可为更高的12位、16位的模拟/数字转换。

为了方便表示，第一信号标示为P[t]，第二信号标示为R[t]。其中t为正整数，代表离散时间上的顺序。举例而言，当取样频率为8,000Hz时，且取样时间为一秒，则t为1到8000的之间的正整数。

在步骤S120中，计算第一信号P[t]与第二信号R[t]在一段区间内的第一能量EP[n]与第二能量ER[n]的方法如下：

EP[n]=Σt=D*(n-1)+1D*n|P[t]|2,]]>ER[n]=Σt=D*(n-1)+1D*n|R[t]|2;]]>

其中D为上述区段的长度。举例而言，区段的长度为64个取样点，也就是D为64。在此步骤中，EP[1]为P[1]、P[2]、…、P[64]个别平方后的总和，而EP[2]为P[65]、P[66]、…、P[128]个别平方后的总和，第一能量的其它数值也可以此类推。第二能量的计算方式与第一能量相同。

上述的第一能量EP[n]与第二能量ER[n]于时间域(time-domain)上进行运算。另一方面，第一能量EP[n]与第二能量ER[n]也可于频率域(frequency-domain)上进行运算。若是在频率域上运算时，时间域上的信号P[1]、P[2]、…、P[64]会经由快速傅立叶转换(Fast Fourier Transformation，FFT)转换成频率域上的信号P’[1]、P’[2]、…、P’[64]。同样地，时间域上的信号R[1]、R[2]、…、R[64]会经由快速傅立叶转换(Fast Fourier Transformation，FFT)转换成频率域上的信号R’[1]、R’[2]、…、R’[64]。

之后，再以下述的方法计算第一能量EP[n]与第二能量ER[n]：

EP[n]=Σt=D*(n-1)+1D*n|P′[t]|2,]]>ER[n]=Σt=D*(n-1)+1D*n|R′[t]|2.]]>

为了达到更佳的侦测效果，时间域上的信号P[t]、R[t]或是频率域上的信号P’[f]、R’[f]可先经由一个低通滤波器滤除部分的噪声之后，再进行能量的运算。

在步骤S130中，根据第一能量EP[n]与第二能量ER[n]计算第一比值R[n]。第一比值D[n]可为第二能量ER[n]除以第一能量EP[n]，也就是D[n]=ER[n]ER[n].]]>

若是当使用者发出语音信号时，因为第一收音装置20较第二收音装置30更靠近语音信号源，且声音能量与传递的距离平方成反比，因此理论上第一能量EP[n]会大于第二能量ER[n]。也就是说，R[n]会小于1。

在步骤S140中，为了得到更平滑的比值，可利用指数加权移动平均法(exponential weighted moving average)来转换第一比值D[n]为第二比值M[n]。其计算方法如下：M[n]＝(1-α)×D[n]+α×M[n-1]。其中，0≤α＜1。而α越大时，代表第二比值M[n]会越平滑。一般而言，α可为0.99。

在步骤S150中，设定一临界值Th[n]以判断使否侦测到语音信号。此临界值Th[n]可为固定值或是随着第二比值M[n]动态调整。

若是临界值Th[n]随着第二比值M[n]做动态调整，则可根据以下的方法进行调整：

Th[n]=β×maxt=1~n{M[t]},]]>假如Th[n]≤β×maxt=1~n{M[t]};]]>

Th[n]＝σ×Th[n-1]，假如Th[n]>β×maxt=1~n{M[t]};]]>

其中，为区域最大值，也就是M[1]到M[n]之间的最大值，β为一灵敏度常数，且σ为一衰减常数。β为0至1之间的一常数，当β越大时，则临界值Th[n]越大。一般而言，β可为0.5。σ为0至1之间的一常数，用以使临界值Th[n]随时间逐渐下降。

使临界值Th[n]随着第二比值M[n]做动态调整的目的是在于让临界值Th[n]能随着背景噪音的大小而随之改变。当使用者于背景噪音很大的环境中，若是临界值Th[n]没有随之调高，则语音信号将难以被侦测。而临界值Th[n]逐渐下降的目的是在于当使用者从一个很吵闹的环境移动到一个很安静的环境时，背景噪音会大幅度的下降。若是未使临界值Th[n]逐渐下降的话，临界值Th[n]会保持在很高的一个数值，非语音信号也容易被侦测到。

最后，步骤S160中，根据第二比值M[n]与临界值Th[n]的大小，判断语音信号源是否被侦测。当第二比值M[n]小于临界值Th[n]时，即代表语音信号已被侦测。

请参照图3A与图3B，为仿真信号波形图。图3A的线段100代表第一比值D[n]。从图中可看出，第一比值D[n]的变动相当的快速。图3B的线段200代表第二比值M[n]，且线段300代表临界值Th[n]。从图中可看出，第二比值M[n]的变动较第一比值D[n]缓慢许多。且临界值Th[n]会随着第二比值M[n]做动态的调整。

根据上述的方法，可以利用二个不同的收音装置分别撷取二个不同的信号。并且在计算两个不同信号的能量比值后，根据能量比值动态的设定门坎值。最后再根据门坎值与能量比值的大小判断是否侦测语音信号。如此，本发明所提出的语音能量判断流程，可依背景环境噪音的大小进行门坎值的调整，以提高侦测的准确率。

除了上述的方法以外，本发明另提出一种语音方向判断流程，以进一步地增加语音判断时的精准度。请参照图4，为本发明所提出的语音侦测方法第二实施例的流程图，语音方向判断流程包括以下步骤：第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号(S210)；根据第一信号与第二信号，计算第一方向上的第一相关值与第二方向上的第二相关值(S220)；根据第一相关值与第二相关值，判断语音信号源是否被侦测(S230)。

步骤S210与步骤S110相同，因此不再予以赘述。同样地，第一信号标示为P[t]，第二信号标示为R[t]。

步骤S220中，第一方向上的第一相关值C1[t]的计算方式如下：C1[t]＝α×C1[t-1]+(1-α)×P[t-τ]×R[t]，τ为语音信号经由第一方向到达第一收音装置20与第二收音装置30的时间差。因为P[t]与R[t]为取样后的离散时间上的信号，所以τ也应由取样频率进行换算。

请参照图5，为免持式语音通讯系统的侧视图。语音信号经由第一方向到达第一收音装置20与第二收音装置30的距离差为d公分。假设音波在常温下的速度为33,000(公分/秒)。因此，语音信号经由第一方向到达第一收音装置20与第二收音装置30的时间差为d/33,000(秒)。另外，假设第一信号P[t]与第二信号R[t]的取样频率为8,000Hz，则代表取样的周期为1/8000秒。是以，时间差τ以取样频率换算后，为(d/33,000)/(1/8000)个取样点，也就是d×8/33个取样点。若是以上述算式算出的取样点数目为非整数时，可将算式求出的结果取邻近的整数作为取样点数目。

另一方面，第二方向上的第二相关值C2[t]的计算方式如下：C2[t]＝α×C2[t-1]+(1-α)×P[t]×R[t]。

因为语音信号都是从第一方向上发出，因此当语音信号发出时，第一方向的第一相关值C1[t]会大于第二方向的第二相关值C2[t]。反之，当噪声从第二方向上发出时，第二方向的第二相关值C2[t]会大于第一方向的第一相关值C1[t]。因此，可借助判断第一相关值C1[t]与第二相关值C2[t]的大小，以判断是否侦测到语音信号。

为了更进一步的增加侦测的准确率，此步骤亦可另计算第三方向上的第三相关值C3[t]，第三相关值C3[t]的计算方式如下：C3[t]＝α×C3[t-1]+(1-α)×P[t]×R[t-τ]。

之后，若是第一相关值C1[t]大于第二相关值C2[t]且第一相关值C1[t]大于第三相关值C3[t]，则判断已侦测到语音信号。为了更进一步的提高语音侦测的准确率，上述的判断式可改为第一相关值C1[t]大于第二相关值C2[t]加上门坎值H且第一相关值C1[t]大于第三相关值C3[t]加上门坎值H，则判断已侦测到语音信号。

上述的语音能量判断流程与语音方向判断流程可共同作为判断的依据。也就是说，可以在当语音能量判断流程与语音方向判断流程皆判断为已侦测到语音信号时，最后才认定为的确已侦测到语音信号。另一方面，也可以是在当语音能量判断流程或是当语音方向判断流程其中之一判断为已侦测到语音信号时，就认定已经侦测到语音信号。

上述的语音侦测方法可利用各种方法来实施。举例而言，此技术可在硬件、固件、软件或其中的组合中实施。对于一硬件实施例而言，可在一或多个特殊应用集成电路(application-specific integrated circuit，ASIC)、数字信号处理器(digital signal processor，DSP)、可程序化逻辑设备(programmable logic device，PLD)、场效可程序化门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子设备、经设计以执行本文所描述的功能的其它电子单元或一其中的组合的处理单元。

对于一固件及/或软件实施例而言，可用程序指令来实施本发明所揭露的语音侦测方法。举例而言，上述程序指令可储存于一内存中且可借助一处理器来执行。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

资源描述

《语音侦测方法.pdf》由会员分享，可在线阅读，更多相关《语音侦测方法.pdf（15页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102201231 A (43)申请公布日 2011.09.28 CN 102201231 A *CN102201231A* (21)申请号 201010139851.6 (22)申请日 2010.03.23 G10L 11/02(2006.01) G10L 15/04(2006.01) G10L 21/02(2006.01) (71)申请人创杰科技股份有限公司地址中国台湾新竹市 (72)发明人林颖聪丁永祯金判燮 (74)专利代理机构北京律诚同业知识产权代理有限公司 11006 代理人梁挥祁建国 (54) 发明名称语音侦测方法 (57) 摘要本。

2、发明揭露一种语音侦测方法，此语音侦测方法包括以下步骤：由第一收音装置取样第一信号，并由第二收音装置取样第二信号，其中第一收音装置比第二收音装置较靠近一语音信号源；计算第一信号在一区间内所对应的第一能量，计算第二信号在区间内所对应的第二能量，并根据第一能量与第二能量计算第一比值；转换第一比值为第二比值；设定临界值；根据第二比值与临界值的大小，判断语音信号源是否被侦测。根据本发明所提出的语音侦测方法，可以在使用者发出语音信号时，准确地侦测此语音信号。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要。

3、求书 2 页说明书 6 页附图 6 页 CN 102201237 A1/2 页 2 1. 一种语音侦测方法，其特征在于，包括：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号，其中该第一收音装置比该第二收音装置较靠近一语音信号源；计算该第一信号在一区间内所对应的一第一能量，计算该第二信号在该区间内所对应的一第二能量，并根据该第一能量与该第二能量计算一第一比值；转换该第一比值为一第二比值；设定一临界值；以及根据该第二比值与该临界值的大小，判断该语音信号源是否被侦测。 2. 如权利要求 1 所述的语音侦测方法，其特征在于，在转换该第一。

4、比值的该步骤中，利用一指数加权位移平均法，转换该第一比值为该第二比值。 3. 如权利要求 1 所述的语音侦测方法，其特征在于，在设定一临界值的该步骤中，该临界值为该第二比值的一区域最大值乘以一系数再乘以一衰减参数，其中 0 1， 0 1。 4. 如权利要求 3 所述的语音侦测方法，其特征在于，判断该第二比值与该临界值的大小的该步骤中，若是该第二比值小于该临界值时，则代表该语音信号源已被侦测。 5. 一种语音侦测方法，其特征在于，包括：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号，其中该第一收音装置比该第二收音装置较靠近一语音信号源。

5、；执行一语音能量判断步骤，包括：计算该第一信号在一区间内所对应的一第一能量，计算该第二信号在该区间内所对应的一第二能量，并根据该第一能量与该第二能量计算一第一比值；转换该第一比值为一第二比值；设定一临界值；以及判断该第二比值与该临界值的大小，输出一第一判断结果；执行一语音方向判断步骤，包括：根据该第一信号与该第二信号，计算一第一方向上的一第一相关值与一第二方向上的一第二相关值，其中该第一方向为该语音信号源对应的一方向，该第二方向为该第一方向以外的一方向；以及根据该第一相关值与该第二相关值，输出一第二判断结果；以及根据该第一判断结。

6、果与该第二判断结果，判断该语音信号源是否被侦测。 6. 如权利要求 5 所述的语音侦测方法，其特征在于，在该第一判断结果与该第二判断结果，判断该语音信号源是否被侦测的步骤中，当该第二比值小于该临界值并且该第一相关值大于该第二相关值时，则代表该语音信号源已被侦测。 7. 如权利要求 5 所述的语音侦测方法，其特征在于，在该第一判断结果与该第二判断结果，判断该语音信号源是否被侦测的步骤中，当该第二比值小于该临界值或是该第一相关值大于该第二相关值时，则代表该语音信号源已被侦测。 8. 如权利要求 5 所述的语音侦测方法，其特征在于，在转换该第一比值的该步骤中，利。

7、用一指数加权位移平均法，转换该第一比值为该第二比值。 9. 如权利要求 5 所述的语音侦测方法，其特征在于，在设定一临界值的该步骤中，该临权利要求书 CN 102201231 A CN 102201237 A2/2 页 3 界值为该第二比值的一区域最大值乘以一系数再乘以一衰减参数，其中 0 1， 0 1。权利要求书 CN 102201231 A CN 102201237 A1/6 页 4 语音侦测方法技术领域 0001 本发明关于一种语音侦测方法，特别是一种应用双收音装置的语音侦测方法。背景技术 0002 近年来，免持式语音通讯系统已经普遍的受到使用。。

8、一般而言，免持式语音通讯系统可通过蓝牙通讯模块与行动通讯装置相连接。经过数字化与调变后，免持式语音通讯系统可将语音信号转换成一个一个的封包，再利用蓝牙通讯模块传送这些封包至行动通讯模块。 0003 然而，在现实的环境下，免持式语音通讯系统会因为受到环境噪声的干扰，而原本语音信号的清晰度降低。举例而言，当使用者在车辆来往频繁的道路旁边或是人潮拥挤的捷运站使用免持式语音通讯系统时，免持式语音通讯系统的麦克风会接收到许多的背景噪声。若是这些背景噪声的音量大于使用者本身说话时的音量，背景噪声将会严重的干扰此使用者所发出的语音信号。 0004 此外，根据使用者使用行为。

9、的相关研究可知，在整段通话的期间中，由使用者在说话只占不到整段通话期间的一半。若是在整段通话期间，免持式语音通讯系统一值不断地持续传送封包，将会使免持式语音通讯系统产生不必要的电力消耗。因为免持式语音通讯系统是使用电池的电力以提供电能，若是持续产生不必要的电力消耗，将会是免持式语音通讯系统的通话时间或是待机时间大幅的被降低，进而减低此免持式语音通讯系统在市场上的竞争力。发明内容 0005 鉴于以上的问题，本发明提出一种语音侦测方法，用以当使用者发出语音信号时，准确地侦测此语音信号。 0006 本发明所提出的语音侦测方法包括以下步骤：由一第一收音装置取样一第一。

10、信号，并由一第二收音装置取样一第二信号，其中第一收音装置比第二收音装置较靠近一语音信号源；计算第一信号在一区间内所对应的一第一能量，计算第二信号在区间内所对应的一第二能量，并根据第一能量与第二能量计算一第一比值；转换第一比值为一第二比值；设定一临界值；根据第二比值与临界值的大小，判断语音信号源是否被侦测。 0007 除了上述的方法之外，本发明另揭露一种语音侦测方法，包括：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号，其中第一收音装置比第二收音装置较靠近一语音信号源；执行一语音能量判断步骤，得到一第一判断结果；执行一语。

11、音方向判断步骤，得到一第二判断结果；根据第一判断结果与第二判断结果，判断语音信号源是否被侦测。 0008 其中，语音能量判断步骤包括：计算第一信号在一区间内所对应的第一能量，计算第二信号在区间内所对应的第二能量，并根据第一能量与第二能量计算第一比值；转换第一比值为第二比值；设定临界值；判断第二比值与该临界值的大小，输出第一判断结果。说明书 CN 102201231 A CN 102201237 A2/6 页 5 0009 另一方面，语音方向判断步骤包括：根据第一信号与第二信号，计算第一方向上的第一相关值与第二方向上的第二相关值；根据第。

12、一相关值与第二相关值，输出第二判断结果。其中，第一方向为语音信号源对应的一方向，第二方向为该第一方向以外的一方向。 0010 根据本发明所提出的语音方向判断，可依背景环境噪音的大小进行门坎值的调整，以提高侦测的准确率。此外，更可以经由语音方向的步骤进行辅助的判断，以更进一步的增加侦测的准确度。 0011 以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。附图说明 0012 图 1A、图 1B 与图 1C，为本发明所提出的免持式语音通讯系统的外观示意图； 0013 图 2 为本发明所提出的语音侦测方法第一实施例的流程图； 0014 图 3A 与。

13、图 3B，为本发明的仿真信号波形图； 0015 图 4 为本发明所提出的语音侦测方法第二实施例的流程图； 0016 图 5 为本发明所提出的免持式语音通讯系统的侧视图。 0017 其中，附图标记 0018 10 免持式语音通讯系统 0019 11 第一面 0020 12 第二面 0021 20 第一收音装置 0022 30 第二收音装置 0023 100 线段 0024 200 线段 0025 300 线段具体实施方式 0026 下面结合附图和具体实施例对本发明技术方案进行详细的描述，以更进一步了解本发明的目的、方案及功效，但并非作为本发明所附权利要求保护范围的限制。 002。

14、7 请参照图 1A、图 1B 与图 1C，为免持式语音通讯系统的外观示意图。 0028 图 1A、图 1B 为第一实施例的外观示意图。免持式语音通讯系统 10 包括第一收音装置 20 与第二收音装置 30。第一收音装置 20 与第二收音装置 30 各自可为一个麦克风。免持式语音通讯系统 10 具有第一面 11 与第二面 12。当使用者使用免持式语音通讯系统 10 时，第一面 11 会较为靠近人脸，且第二面 12 会较为远离人脸。在此实施例中，第一收音装置 20 位于第一面 11，且第二收音装置 30 位于第二面 12。此外，第一收音装置 20 比第二收音装置 30 较靠。

15、近语音信号源，语音信号源通常为使用者的嘴巴。 0029 图1C为第二实施例的外观示意图。免持式语音通讯系统10包括第一收音装置20 与第二收音装置 30。免持式语音通讯系统 10 具有第一面 11 与第二面 12。当使用者使用免持式语音通讯系统 10 时，第一面 11 会较为靠近人脸，且第二面 12 会较为远离人脸。在此实施例中，第一收音装置 20 与第二收音装置 30 皆位于第一面 10。并且，第一收音装置 20 比第二收音装置 30 较靠近语音信号源，语音信号源通常为使用者的嘴巴。说明书 CN 102201231 A CN 102201237 A3/6 页 6 00。

16、30 请参照图 2 为本发明所提出的语音侦测方法第一实施例的流程图。此方法为语音能量判断流程，包括以下步骤：由一第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号 (S110) ；计算第一信号在一区间内所对应的第一能量，计算第二信号在此区间内所对应的第二能量 (S120) ；根据第一能量与第二能量计算第一比值 (S130) ；转换第一比值为第二比值 (S140) ；设定临界值 (S150) ；根据第二比值与临界值的大小，判断语音信号源是否被侦测 (S160)。 0031 在步骤 S110 中，在撷取到声音信号后，第一收音装置 20 与第二收音装置。

17、30 会将撷取到的声音信号经过周期性的取样 (sampling) 和模拟 / 数字 (Analog/Digital) 转换之后，第一收音装置20会输出第一信号，且第二收音装置30会输出第二信号。在此实施例中，取样频率需至少为语音信号最高频率的二倍以上。而一般而言，取样频率可为 8,000Hz( 赫兹 )。若是要得到更好的效果，取样频率也可以为更高的 16,000Hz 或是 32,000Hz。另一方面，模拟/数字转换一般可为8位的模拟/数字转换，或是也可为更高的12位、 16位的模拟 / 数字转换。 0032 为了方便表示，第一信号标示为 Pt，第二信号标示为 Rt。。

18、其中 t 为正整数，代表离散时间上的顺序。举例而言，当取样频率为 8,000Hz 时，且取样时间为一秒，则 t 为 1 到 8000 的之间的正整数。 0033 在步骤 S120 中，计算第一信号 Pt 与第二信号 Rt 在一段区间内的第一能量 EPn 与第二能量 ERn 的方法如下： 0034 0035 其中 D 为上述区段的长度。举例而言，区段的长度为 64 个取样点，也就是 D 为 64。在此步骤中， EP1 为 P1、 P2、 P64 个别平方后的总和，而 EP2 为 P65、 P66、 P128 个别平方后的总和，第一能量的其它数值也可以此类推。第二能量的计算。

19、方式与第一能量相同。 0036 上述的第一能量 EPn 与第二能量 ERn 于时间域 (time-domain) 上进行运算。另一方面，第一能量 EPn 与第二能量 ERn 也可于频率域 (frequency-domain) 上进行运算。若是在频率域上运算时，时间域上的信号 P1、 P2、 P64 会经由快速傅立叶转换 (Fast Fourier Transformation， FFT) 转换成频率域上的信号 P 1、 P 2、 P 64。同样地，时间域上的信号 R1、 R2、 R64 会经由快速傅立叶转换 (Fast Fourier Transformation， FFT) 转换。

20、成频率域上的信号 R 1、 R 2、 R 64。 0037 之后，再以下述的方法计算第一能量 EPn 与第二能量 ERn ： 0038 0039 为了达到更佳的侦测效果，时间域上的信号 Pt、 Rt 或是频率域上的信号 P f、 R f 可先经由一个低通滤波器滤除部分的噪声之后，再进行能量的运算。 0040 在步骤 S130 中，根据第一能量 EPn 与第二能量 ERn 计算第一比值 Rn。第一比值 Dn 可为第二能量 ERn 除以第一能量 EPn，也就是 0041 若是当使用者发出语音信号时，因为第一收音装置 20 较第二收音装置 30 更靠近说明书 CN 1022012。

21、31 A CN 102201237 A4/6 页 7 语音信号源，且声音能量与传递的距离平方成反比，因此理论上第一能量 EPn 会大于第二能量 ERn。也就是说， Rn 会小于 1。 0042 在步骤 S140 中，为了得到更平滑的比值，可利用指数加权移动平均法 (exponential weighted moving average) 来转换第一比值 Dn 为第二比值 Mn。其计算方法如下： Mn (1-)Dn+Mn-1。其中， 0 1。而越大时，代表第二比值 Mn 会越平滑。一般而言，可为 0.99。 0043 在步骤S15。

22、0中，设定一临界值Thn以判断使否侦测到语音信号。此临界值Thn 可为固定值或是随着第二比值 Mn 动态调整。 0044 若是临界值 Thn 随着第二比值 Mn 做动态调整，则可根据以下的方法进行调整： 0045 假如 0046 Thn Thn-1，假如 0047 其中，为区域最大值，也就是M1到Mn之间的最大值，为一灵敏度常数，且为一衰减常数。为 0 至 1 之间的一常数，当越大时，则临界值 Thn 越大。一般而言，可为 0.5。为 0 至 1 之间的一常数，用以使临界值 Thn 随时间逐渐下降。 0048 使临界值 Thn 随着第二比值 Mn 做动态。

23、调整的目的是在于让临界值 Thn 能随着背景噪音的大小而随之改变。当使用者于背景噪音很大的环境中，若是临界值 Thn 没有随之调高，则语音信号将难以被侦测。而临界值 Thn 逐渐下降的目的是在于当使用者从一个很吵闹的环境移动到一个很安静的环境时，背景噪音会大幅度的下降。若是未使临界值Thn逐渐下降的话，临界值Thn会保持在很高的一个数值，非语音信号也容易被侦测到。 0049 最后，步骤 S160 中，根据第二比值 Mn 与临界值 Thn 的大小，判断语音信号源是否被侦测。当第二比值 Mn 小于临界值 Thn 时，即代表语音信号已被侦测。 0050 请参照图 3A 与。

24、图 3B，为仿真信号波形图。图 3A 的线段 100 代表第一比值 Dn。从图中可看出，第一比值 Dn 的变动相当的快速。图 3B 的线段 200 代表第二比值 Mn，且线段 300 代表临界值 Thn。从图中可看出，第二比值 Mn 的变动较第一比值 Dn 缓慢许多。且临界值 Thn 会随着第二比值 Mn 做动态的调整。 0051 根据上述的方法，可以利用二个不同的收音装置分别撷取二个不同的信号。并且在计算两个不同信号的能量比值后，根据能量比值动态的设定门坎值。最后再根据门坎值与能量比值的大小判断是否侦测语音信号。如此，本发明所提出的语音能量判断流程，可依背景环境。

25、噪音的大小进行门坎值的调整，以提高侦测的准确率。 0052 除了上述的方法以外，本发明另提出一种语音方向判断流程，以进一步地增加语音判断时的精准度。请参照图 4，为本发明所提出的语音侦测方法第二实施例的流程图，语音方向判断流程包括以下步骤：第一收音装置取样一第一信号，并由一第二收音装置取样一第二信号 (S210) ；根据第一信号与第二信号，计算第一方向上的第一相关值与第二方向上的第二相关值 (S220) ；根据第一相关值与第二相关值，判断语音信号源是否被侦测 (S230)。说明书 CN 102201231 A CN 102201237 A5/6 页 8 00。

26、53 步骤 S210 与步骤 S110 相同，因此不再予以赘述。同样地，第一信号标示为 Pt，第二信号标示为 Rt。 0054 步骤 S220 中，第一方向上的第一相关值 C1t 的计算方式如下： C1t C1t-1+(1-)Pt-Rt，为语音信号经由第一方向到达第一收音装置 20 与第二收音装置 30 的时间差。因为 Pt 与 Rt 为取样后的离散时间上的信号，所以也应由取样频率进行换算。 0055 请参照图5，为免持式语音通讯系统的侧视图。语音信号经由第一方向到达第一收音装置 20 与第二收音装置 30 的距离差为 d 公分。假设音波在常温下的速度为 33,000( 。

27、公分 / 秒 )。因此，语音信号经由第一方向到达第一收音装置 20 与第二收音装置 30 的时间差为d/33,000(秒)。另外，假设第一信号Pt与第二信号Rt的取样频率为8,000Hz，则代表取样的周期为 1/8000 秒。是以，时间差以取样频率换算后，为 (d/33,000)/(1/8000) 个取样点，也就是 d8/33 个取样点。若是以上述算式算出的取样点数目为非整数时，可将算式求出的结果取邻近的整数作为取样点数目。 0056 另一方面，第二方向上的第二相关值 C2t 的计算方式如下： C2t C2t-1+(1-)Pt。

28、Rt。 0057 因为语音信号都是从第一方向上发出，因此当语音信号发出时，第一方向的第一相关值 C1t 会大于第二方向的第二相关值 C2t。反之，当噪声从第二方向上发出时，第二方向的第二相关值C2t会大于第一方向的第一相关值C1t。因此，可借助判断第一相关值 C1t 与第二相关值 C2t 的大小，以判断是否侦测到语音信号。 0058 为了更进一步的增加侦测的准确率，此步骤亦可另计算第三方向上的第三相关值 C3t，第三相关值 C3t 的计算方式如下： C3t C3t-1+(1-)PtRt-。。

29、 0059 之后，若是第一相关值 C1t 大于第二相关值 C2t 且第一相关值 C1t 大于第三相关值 C3t，则判断已侦测到语音信号。为了更进一步的提高语音侦测的准确率，上述的判断式可改为第一相关值 C1t 大于第二相关值 C2t 加上门坎值 H 且第一相关值 C1t 大于第三相关值 C3t 加上门坎值 H，则判断已侦测到语音信号。 0060 上述的语音能量判断流程与语音方向判断流程可共同作为判断的依据。也就是说，可以在当语音能量判断流程与语音方向判断流程皆判断为已侦测到语音信号时，最后才认定为的确已侦测到语音信号。另一方面，也可以是在当语音能量判断流程或是当语音方向。

30、判断流程其中之一判断为已侦测到语音信号时，就认定已经侦测到语音信号。 0061 上述的语音侦测方法可利用各种方法来实施。举例而言，此技术可在硬件、固件、软件或其中的组合中实施。对于一硬件实施例而言，可在一或多个特殊应用集成电路 (application-specific integrated circuit， ASIC)、数字信号处理器 (digital signal processor， DSP)、可程序化逻辑设备 (programmable logic device， PLD)、场效可程序化门阵列 (FPGA)、处理器、控制器、微控制器、微处理器、电子设备、。

31、经设计以执行本文所描述的功能的其它电子单元或一其中的组合的处理单元。 0062 对于一固件及 / 或软件实施例而言，可用程序指令来实施本发明所揭露的语音侦测方法。举例而言，上述程序指令可储存于一内存中且可借助一处理器来执行。 0063 当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟说明书 CN 102201231 A CN 102201237 A6/6 页 9 悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。说明书 CN 102201231 A CN 10220123。

32、7 A1/6 页 10 图 1A 说明书附图 CN 102201231 A CN 102201237 A2/6 页 11 图 1B 说明书附图 CN 102201231 A CN 102201237 A3/6 页 12 图 1C 说明书附图 CN 102201231 A CN 102201237 A4/6 页 13 图 2 说明书附图 CN 102201231 A CN 102201237 A5/6 页 14 图 3A 图 3B 说明书附图 CN 102201231 A CN 102201237 A6/6 页 15 图 4 图 5 说明书附图 CN 102201231 A 。

展开阅读全文