《语音侦测方法.pdf》由会员分享,可在线阅读,更多相关《语音侦测方法.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102201231 A (43)申请公布日 2011.09.28 CN 102201231 A *CN102201231A* (21)申请号 201010139851.6 (22)申请日 2010.03.23 G10L 11/02(2006.01) G10L 15/04(2006.01) G10L 21/02(2006.01) (71)申请人 创杰科技股份有限公司 地址 中国台湾新竹市 (72)发明人 林颖聪 丁永祯 金判燮 (74)专利代理机构 北京律诚同业知识产权代理 有限公司 11006 代理人 梁挥 祁建国 (54) 发明名称 语音侦测方法 (57) 摘要 本。
2、发明揭露一种语音侦测方法, 此语音侦测 方法包括以下步骤 : 由第一收音装置取样第一信 号, 并由第二收音装置取样第二信号, 其中第一收 音装置比第二收音装置较靠近一语音信号源 ; 计 算第一信号在一区间内所对应的第一能量, 计算 第二信号在区间内所对应的第二能量, 并根据第 一能量与第二能量计算第一比值 ; 转换第一比值 为第二比值 ; 设定临界值 ; 根据第二比值与临界 值的大小, 判断语音信号源是否被侦测。 根据本发 明所提出的语音侦测方法, 可以在使用者发出语 音信号时, 准确地侦测此语音信号。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要。
3、求书 2 页 说明书 6 页 附图 6 页 CN 102201237 A1/2 页 2 1. 一种语音侦测方法, 其特征在于, 包括 : 由一第一收音装置取样一第一信号, 并由一第二收音装置取样一第二信号, 其中该第 一收音装置比该第二收音装置较靠近一语音信号源 ; 计算该第一信号在一区间内所对应的一第一能量, 计算该第二信号在该区间内所对应 的一第二能量, 并根据该第一能量与该第二能量计算一第一比值 ; 转换该第一比值为一第二比值 ; 设定一临界值 ; 以及 根据该第二比值与该临界值的大小, 判断该语音信号源是否被侦测。 2. 如权利要求 1 所述的语音侦测方法, 其特征在于, 在转换该第一。
4、比值的该步骤中, 利 用一指数加权位移平均法, 转换该第一比值为该第二比值。 3. 如权利要求 1 所述的语音侦测方法, 其特征在于, 在设定一临界值的该步骤中, 该临 界值为该第二比值的一区域最大值乘以一系数 再乘以一衰减参数 , 其中 0 1, 0 1。 4. 如权利要求 3 所述的语音侦测方法, 其特征在于, 判断该第二比值与该临界值的大 小的该步骤中, 若是该第二比值小于该临界值时, 则代表该语音信号源已被侦测。 5. 一种语音侦测方法, 其特征在于, 包括 : 由一第一收音装置取样一第一信号, 并由一第二收音装置取样一第二信号, 其中该第 一收音装置比该第二收音装置较靠近一语音信号源。
5、 ; 执行一语音能量判断步骤, 包括 : 计算该第一信号在一区间内所对应的一第一能量, 计算该第二信号在该区间内所对应 的一第二能量, 并根据该第一能量与该第二能量计算一第一比值 ; 转换该第一比值为一第二比值 ; 设定一临界值 ; 以及 判断该第二比值与该临界值的大小, 输出一第一判断结果 ; 执行一语音方向判断步骤, 包括 : 根据该第一信号与该第二信号, 计算一第一方向上的一第一相关值与一第二方向上的 一第二相关值, 其中该第一方向为该语音信号源对应的一方向, 该第二方向为该第一方向 以外的一方向 ; 以及 根据该第一相关值与该第二相关值, 输出一第二判断结果 ; 以及 根据该第一判断结。
6、果与该第二判断结果, 判断该语音信号源是否被侦测。 6. 如权利要求 5 所述的语音侦测方法, 其特征在于, 在该第一判断结果与该第二判断 结果, 判断该语音信号源是否被侦测的步骤中, 当该第二比值小于该临界值并且该第一相 关值大于该第二相关值时, 则代表该语音信号源已被侦测。 7. 如权利要求 5 所述的语音侦测方法, 其特征在于, 在该第一判断结果与该第二判断 结果, 判断该语音信号源是否被侦测的步骤中, 当该第二比值小于该临界值或是该第一相 关值大于该第二相关值时, 则代表该语音信号源已被侦测。 8. 如权利要求 5 所述的语音侦测方法, 其特征在于, 在转换该第一比值的该步骤中, 利 。
7、用一指数加权位移平均法, 转换该第一比值为该第二比值。 9. 如权利要求 5 所述的语音侦测方法, 其特征在于, 在设定一临界值的该步骤中, 该临 权 利 要 求 书 CN 102201231 A CN 102201237 A2/2 页 3 界值为该第二比值的一区域最大值乘以一系数 再乘以一衰减参数 , 其中 0 1, 0 1。 权 利 要 求 书 CN 102201231 A CN 102201237 A1/6 页 4 语音侦测方法 技术领域 0001 本发明关于一种语音侦测方法, 特别是一种应用双收音装置的语音侦测方法。 背景技术 0002 近年来, 免持式语音通讯系统已经普遍的受到使用。。
8、 一般而言, 免持式语音通讯系 统可通过蓝牙通讯模块与行动通讯装置相连接。经过数字化与调变后, 免持式语音通讯系 统可将语音信号转换成一个一个的封包, 再利用蓝牙通讯模块传送这些封包至行动通讯模 块。 0003 然而, 在现实的环境下, 免持式语音通讯系统会因为受到环境噪声的干扰, 而原本 语音信号的清晰度降低。举例而言, 当使用者在车辆来往频繁的道路旁边或是人潮拥挤的 捷运站使用免持式语音通讯系统时, 免持式语音通讯系统的麦克风会接收到许多的背景噪 声。若是这些背景噪声的音量大于使用者本身说话时的音量, 背景噪声将会严重的干扰此 使用者所发出的语音信号。 0004 此外, 根据使用者使用行为。
9、的相关研究可知, 在整段通话的期间中, 由使用者在说 话只占不到整段通话期间的一半。若是在整段通话期间, 免持式语音通讯系统一值不断地 持续传送封包, 将会使免持式语音通讯系统产生不必要的电力消耗。因为免持式语音通讯 系统是使用电池的电力以提供电能, 若是持续产生不必要的电力消耗, 将会是免持式语音 通讯系统的通话时间或是待机时间大幅的被降低, 进而减低此免持式语音通讯系统在市场 上的竞争力。 发明内容 0005 鉴于以上的问题, 本发明提出一种语音侦测方法, 用以当使用者发出语音信号时, 准确地侦测此语音信号。 0006 本发明所提出的语音侦测方法包括以下步骤 : 由一第一收音装置取样一第一。
10、信 号, 并由一第二收音装置取样一第二信号, 其中第一收音装置比第二收音装置较靠近一语 音信号源 ; 计算第一信号在一区间内所对应的一第一能量, 计算第二信号在区间内所对应 的一第二能量, 并根据第一能量与第二能量计算一第一比值 ; 转换第一比值为一第二比值 ; 设定一临界值 ; 根据第二比值与临界值的大小, 判断语音信号源是否被侦测。 0007 除了上述的方法之外, 本发明另揭露一种语音侦测方法, 包括 : 由一第一收音装置 取样一第一信号, 并由一第二收音装置取样一第二信号, 其中第一收音装置比第二收音装 置较靠近一语音信号源 ; 执行一语音能量判断步骤, 得到一第一判断结果 ; 执行一语。
11、音方 向判断步骤, 得到一第二判断结果 ; 根据第一判断结果与第二判断结果, 判断语音信号源是 否被侦测。 0008 其中, 语音能量判断步骤包括 : 计算第一信号在一区间内所对应的第一能量, 计算 第二信号在区间内所对应的第二能量, 并根据第一能量与第二能量计算第一比值 ; 转换第 一比值为第二比值 ; 设定临界值 ; 判断第二比值与该临界值的大小, 输出第一判断结果。 说 明 书 CN 102201231 A CN 102201237 A2/6 页 5 0009 另一方面, 语音方向判断步骤包括 : 根据第一信号与第二信号, 计算第一方向上的 第一相关值与第二方向上的第二相关值 ; 根据第。
12、一相关值与第二相关值, 输出第二判断结 果。其中, 第一方向为语音信号源对应的一方向, 第二方向为该第一方向以外的一方向。 0010 根据本发明所提出的语音方向判断, 可依背景环境噪音的大小进行门坎值的调 整, 以提高侦测的准确率。此外, 更可以经由语音方向的步骤进行辅助的判断, 以更进一步 的增加侦测的准确度。 0011 以下结合附图和具体实施例对本发明进行详细描述, 但不作为对本发明的限定。 附图说明 0012 图 1A、 图 1B 与图 1C, 为本发明所提出的免持式语音通讯系统的外观示意图 ; 0013 图 2 为本发明所提出的语音侦测方法第一实施例的流程图 ; 0014 图 3A 与。
13、图 3B, 为本发明的仿真信号波形图 ; 0015 图 4 为本发明所提出的语音侦测方法第二实施例的流程图 ; 0016 图 5 为本发明所提出的免持式语音通讯系统的侧视图。 0017 其中, 附图标记 0018 10 免持式语音通讯系统 0019 11 第一面 0020 12 第二面 0021 20 第一收音装置 0022 30 第二收音装置 0023 100 线段 0024 200 线段 0025 300 线段 具体实施方式 0026 下面结合附图和具体实施例对本发明技术方案进行详细的描述, 以更进一步了解 本发明的目的、 方案及功效, 但并非作为本发明所附权利要求保护范围的限制。 002。
14、7 请参照图 1A、 图 1B 与图 1C, 为免持式语音通讯系统的外观示意图。 0028 图 1A、 图 1B 为第一实施例的外观示意图。免持式语音通讯系统 10 包括第一收音 装置 20 与第二收音装置 30。第一收音装置 20 与第二收音装置 30 各自可为一个麦克风。 免持式语音通讯系统 10 具有第一面 11 与第二面 12。当使用者使用免持式语音通讯系统 10 时, 第一面 11 会较为靠近人脸, 且第二面 12 会较为远离人脸。在此实施例中, 第一收音 装置 20 位于第一面 11, 且第二收音装置 30 位于第二面 12。此外, 第一收音装置 20 比第二 收音装置 30 较靠。
15、近语音信号源, 语音信号源通常为使用者的嘴巴。 0029 图1C为第二实施例的外观示意图。 免持式语音通讯系统10包括第一收音装置20 与第二收音装置 30。免持式语音通讯系统 10 具有第一面 11 与第二面 12。当使用者使用 免持式语音通讯系统 10 时, 第一面 11 会较为靠近人脸, 且第二面 12 会较为远离人脸。在 此实施例中, 第一收音装置 20 与第二收音装置 30 皆位于第一面 10。并且, 第一收音装置 20 比第二收音装置 30 较靠近语音信号源, 语音信号源通常为使用者的嘴巴。 说 明 书 CN 102201231 A CN 102201237 A3/6 页 6 00。
16、30 请参照图 2 为本发明所提出的语音侦测方法第一实施例的流程图。此方法为语音 能量判断流程, 包括以下步骤 : 由一第一收音装置取样一第一信号, 并由一第二收音装置取 样一第二信号 (S110) ; 计算第一信号在一区间内所对应的第一能量, 计算第二信号在此区 间内所对应的第二能量 (S120) ; 根据第一能量与第二能量计算第一比值 (S130) ; 转换第一 比值为第二比值 (S140) ; 设定临界值 (S150) ; 根据第二比值与临界值的大小, 判断语音信 号源是否被侦测 (S160)。 0031 在步骤 S110 中, 在撷取到声音信号后, 第一收音装置 20 与第二收音装置 。
17、30 会将 撷取到的声音信号经过周期性的取样 (sampling) 和模拟 / 数字 (Analog/Digital) 转换之 后, 第一收音装置20会输出第一信号, 且第二收音装置30会输出第二信号。 在此实施例中, 取样频率需至少为语音信号最高频率的二倍以上。而一般而言, 取样频率可为 8,000Hz( 赫 兹 )。若是要得到更好的效果, 取样频率也可以为更高的 16,000Hz 或是 32,000Hz。另一方 面, 模拟/数字转换一般可为8位的模拟/数字转换, 或是也可为更高的12位、 16位的模拟 / 数字转换。 0032 为了方便表示, 第一信号标示为 Pt, 第二信号标示为 Rt。。
18、其中 t 为正整数, 代 表离散时间上的顺序。举例而言, 当取样频率为 8,000Hz 时, 且取样时间为一秒, 则 t 为 1 到 8000 的之间的正整数。 0033 在步骤 S120 中, 计算第一信号 Pt 与第二信号 Rt 在一段区间内的第一能量 EPn 与第二能量 ERn 的方法如下 : 0034 0035 其中 D 为上述区段的长度。举例而言, 区段的长度为 64 个取样点, 也就是 D 为 64。在此步骤中, EP1 为 P1、 P2、 P64 个别平方后的总和, 而 EP2 为 P65、 P66、 P128 个别平方后的总和, 第一能量的其它数值也可以此类推。第二能量的计 算。
19、方式与第一能量相同。 0036 上述的第一能量 EPn 与第二能量 ERn 于时间域 (time-domain) 上进行运算。 另一方面, 第一能量 EPn 与第二能量 ERn 也可于频率域 (frequency-domain) 上进行 运算。若是在频率域上运算时, 时间域上的信号 P1、 P2、 P64 会经由快速傅立叶 转换 (Fast Fourier Transformation, FFT) 转换成频率域上的信号 P 1、 P 2、 P 64。同样地, 时间域上的信号 R1、 R2、 R64 会经由快速傅立叶转换 (Fast Fourier Transformation, FFT) 转换。
20、成频率域上的信号 R 1、 R 2、 R 64。 0037 之后, 再以下述的方法计算第一能量 EPn 与第二能量 ERn : 0038 0039 为了达到更佳的侦测效果, 时间域上的信号 Pt、 Rt 或是频率域上的信号 P f、 R f 可先经由一个低通滤波器滤除部分的噪声之后, 再进行能量的运算。 0040 在步骤 S130 中, 根据第一能量 EPn 与第二能量 ERn 计算第一比值 Rn。第一 比值 Dn 可为第二能量 ERn 除以第一能量 EPn, 也就是 0041 若是当使用者发出语音信号时, 因为第一收音装置 20 较第二收音装置 30 更靠近 说 明 书 CN 1022012。
21、31 A CN 102201237 A4/6 页 7 语音信号源, 且声音能量与传递的距离平方成反比, 因此理论上第一能量 EPn 会大于第 二能量 ERn。也就是说, Rn 会小于 1。 0042 在 步 骤 S140 中, 为 了 得 到 更 平 滑 的 比 值, 可 利 用 指 数 加 权 移 动 平 均 法 (exponential weighted moving average) 来转换第一比值 Dn 为第二比值 Mn。其计 算方法如下 : Mn (1-)Dn+Mn-1。其中, 0 1。而 越大时, 代表第 二比值 Mn 会越平滑。一般而言, 可为 0.99。 0043 在步骤S15。
22、0中, 设定一临界值Thn以判断使否侦测到语音信号。 此临界值Thn 可为固定值或是随着第二比值 Mn 动态调整。 0044 若是临界值 Thn 随着第二比值 Mn 做动态调整, 则可根据以下的方法进行调 整 : 0045 假如 0046 Thn Thn-1, 假如 0047 其中,为区域最大值, 也就是M1到Mn之间的最大值, 为一灵敏 度常数, 且 为一衰减常数。 为 0 至 1 之间的一常数, 当 越大时, 则临界值 Thn 越 大。一般而言, 可为 0.5。 为 0 至 1 之间的一常数, 用以使临界值 Thn 随时间逐渐 下降。 0048 使临界值 Thn 随着第二比值 Mn 做动态。
23、调整的目的是在于让临界值 Thn 能 随着背景噪音的大小而随之改变。当使用者于背景噪音很大的环境中, 若是临界值 Thn 没有随之调高, 则语音信号将难以被侦测。而临界值 Thn 逐渐下降的目的是在于当使用 者从一个很吵闹的环境移动到一个很安静的环境时, 背景噪音会大幅度的下降。若是未使 临界值Thn逐渐下降的话, 临界值Thn会保持在很高的一个数值, 非语音信号也容易被 侦测到。 0049 最后, 步骤 S160 中, 根据第二比值 Mn 与临界值 Thn 的大小, 判断语音信号源 是否被侦测。当第二比值 Mn 小于临界值 Thn 时, 即代表语音信号已被侦测。 0050 请参照图 3A 与。
24、图 3B, 为仿真信号波形图。图 3A 的线段 100 代表第一比值 Dn。 从图中可看出, 第一比值 Dn 的变动相当的快速。图 3B 的线段 200 代表第二比值 Mn, 且 线段 300 代表临界值 Thn。从图中可看出, 第二比值 Mn 的变动较第一比值 Dn 缓慢许 多。且临界值 Thn 会随着第二比值 Mn 做动态的调整。 0051 根据上述的方法, 可以利用二个不同的收音装置分别撷取二个不同的信号。并且 在计算两个不同信号的能量比值后, 根据能量比值动态的设定门坎值。最后再根据门坎值 与能量比值的大小判断是否侦测语音信号。 如此, 本发明所提出的语音能量判断流程, 可依 背景环境。
25、噪音的大小进行门坎值的调整, 以提高侦测的准确率。 0052 除了上述的方法以外, 本发明另提出一种语音方向判断流程, 以进一步地增加语 音判断时的精准度。请参照图 4, 为本发明所提出的语音侦测方法第二实施例的流程图, 语音方向判断流程包括以下步骤 : 第一收音装置取样一第一信号, 并由一第二收音装置取 样一第二信号 (S210) ; 根据第一信号与第二信号, 计算第一方向上的第一相关值与第二 方向上的第二相关值 (S220) ; 根据第一相关值与第二相关值, 判断语音信号源是否被侦测 (S230)。 说 明 书 CN 102201231 A CN 102201237 A5/6 页 8 00。
26、53 步骤 S210 与步骤 S110 相同, 因此不再予以赘述。同样地, 第一信号标示为 Pt, 第二信号标示为 Rt。 0054 步骤 S220 中, 第一方向上的第一相关值 C1t 的计算方式如下 : C1t C1t-1+(1-)Pt-Rt, 为语音信号经由第一方向到达第一收音装置 20 与第二收音装置 30 的时间差。因为 Pt 与 Rt 为取样后的离散时间上的信号, 所以 也应由取样频率进行换算。 0055 请参照图5, 为免持式语音通讯系统的侧视图。 语音信号经由第一方向到达第一收 音装置 20 与第二收音装置 30 的距离差为 d 公分。假设音波在常温下的速度为 33,000( 。
27、公 分 / 秒 )。因此, 语音信号经由第一方向到达第一收音装置 20 与第二收音装置 30 的时间差 为d/33,000(秒)。 另外, 假设第一信号Pt与第二信号Rt的取样频率为8,000Hz, 则代 表取样的周期为 1/8000 秒。是以, 时间差 以取样频率换算后, 为 (d/33,000)/(1/8000) 个取样点, 也就是 d8/33 个取样点。若是以上述算式算出的取样点数目为非整数时, 可将 算式求出的结果取邻近的整数作为取样点数目。 0056 另 一 方 面, 第 二 方 向 上 的 第 二 相 关 值 C2t 的 计 算 方 式 如 下 : C2t C2t-1+(1-)Pt。
28、Rt。 0057 因为语音信号都是从第一方向上发出, 因此当语音信号发出时, 第一方向的第一 相关值 C1t 会大于第二方向的第二相关值 C2t。反之, 当噪声从第二方向上发出时, 第 二方向的第二相关值C2t会大于第一方向的第一相关值C1t。 因此, 可借助判断第一相 关值 C1t 与第二相关值 C2t 的大小, 以判断是否侦测到语音信号。 0058 为 了 更 进 一 步 的 增 加 侦 测 的 准 确 率,此 步 骤 亦 可 另 计 算 第 三 方 向 上 的 第 三 相 关 值 C3t,第 三 相 关 值 C3t 的 计 算 方 式 如 下 : C3t C3t-1+(1-)PtRt-。。
29、 0059 之后, 若是第一相关值 C1t 大于第二相关值 C2t 且第一相关值 C1t 大于第 三相关值 C3t, 则判断已侦测到语音信号。为了更进一步的提高语音侦测的准确率, 上 述的判断式可改为第一相关值 C1t 大于第二相关值 C2t 加上门坎值 H 且第一相关值 C1t 大于第三相关值 C3t 加上门坎值 H, 则判断已侦测到语音信号。 0060 上述的语音能量判断流程与语音方向判断流程可共同作为判断的依据。也就是 说, 可以在当语音能量判断流程与语音方向判断流程皆判断为已侦测到语音信号时, 最后 才认定为的确已侦测到语音信号。另一方面, 也可以是在当语音能量判断流程或是当语音 方向。
30、判断流程其中之一判断为已侦测到语音信号时, 就认定已经侦测到语音信号。 0061 上述的语音侦测方法可利用各种方法来实施。举例而言, 此技术可在硬件、 固 件、 软件或其中的组合中实施。对于一硬件实施例而言, 可在一或多个特殊应用集成电路 (application-specific integrated circuit, ASIC)、 数字信号处理器 (digital signal processor, DSP)、 可程序化逻辑设备 (programmable logic device, PLD)、 场效可程序化门 阵列 (FPGA)、 处理器、 控制器、 微控制器、 微处理器、 电子设备、 。
31、经设计以执行本文所描述的 功能的其它电子单元或一其中的组合的处理单元。 0062 对于一固件及 / 或软件实施例而言, 可用程序指令来实施本发明所揭露的语音侦 测方法。举例而言, 上述程序指令可储存于一内存中且可借助一处理器来执行。 0063 当然, 本发明还可有其它多种实施例, 在不背离本发明精神及其实质的情况下, 熟 说 明 书 CN 102201231 A CN 102201237 A6/6 页 9 悉本领域的技术人员当可根据本发明作出各种相应的改变和变形, 但这些相应的改变和变 形都应属于本发明所附的权利要求的保护范围。 说 明 书 CN 102201231 A CN 10220123。
32、7 A1/6 页 10 图 1A 说 明 书 附 图 CN 102201231 A CN 102201237 A2/6 页 11 图 1B 说 明 书 附 图 CN 102201231 A CN 102201237 A3/6 页 12 图 1C 说 明 书 附 图 CN 102201231 A CN 102201237 A4/6 页 13 图 2 说 明 书 附 图 CN 102201231 A CN 102201237 A5/6 页 14 图 3A 图 3B 说 明 书 附 图 CN 102201231 A CN 102201237 A6/6 页 15 图 4 图 5 说 明 书 附 图 CN 102201231 A 。