应用于声控装置的控制器与相关方法.pdf

资源描述

《应用于声控装置的控制器与相关方法.pdf》由会员分享，可在线阅读，更多相关《应用于声控装置的控制器与相关方法.pdf（9页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 104345649 A (43)申请公布日 2015.02.11 C N 1 0 4 3 4 5 6 4 9 A (21)申请号 201310346804.2 (22)申请日 2013.08.09 G05B 19/04(2006.01) (71)申请人晨星半导体股份有限公司地址中国台湾新竹县竹北市台元街26号4 楼之1 (72)发明人黄宏吉 (74)专利代理机构上海专利商标事务所有限公司 31100 代理人徐伟 (54) 发明名称应用于声控装置的控制器与相关方法 (57) 摘要一种控制器与相关方法，应用于声控装置。控制器包括一设定模块与一辨识模块。设定模块可。

2、依据一环境参数产生调整一阈值，辨识模块则可将一语音辨识的信心值与该阈值相互比较，据以进行声控。 (51)Int.Cl. 权利要求书1页说明书5页附图2页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书1页说明书5页附图2页 (10)申请公布号 CN 104345649 A CN 104345649 A 1/1页 2 1.一种控制器，应用于一声控装置，包含：一设定模块，依据一环境参数产生一阈值，其中该环境参数相关于该声控装置所处的一环境；以及一辨识模块，接收一语音，针对该语音进行辨识并产生一语音辨识的信心值，以及比较该语音辨识的信心值与该阈值并据以产。

3、生一控制信号。 2.如权利要求1所述的控制器，其特征在于，该环境参数系为一音量值。 3.如权利要求1所述的控制器，其特征在于，还包含一环境检测器，用以检测该环境以得到该环境参数。 4.如权利要求3所述的控制器，其特征在于，该环境检测器用以检测该环境的音量。 5.如权利要求3所述的控制器，其特征在于，该环境检测器用以检测该环境的亮度。 6.如权利要求1所述的控制器，其特征在于，该环境参数为一时间值。 7.如权利要求1所述的控制器，其特征在于，该控制器包含一储存单元，该储存单元用以储存一对照表，该设定模块系依据该环境参数查询该对照表以产生该阈值。 8.一种运用于一声控装置的方法，包含：依据一。

4、环境参数产生一阈值，其中该环境参数相关于该声控装置所处的一环境；接收一语音，针对该语音进行辨识并产生一语音辨识的信心值；以及比较该语音辨识的信心值与该阈值并据以产生一控制信号。 9.如权利要求8所述的方法，其特征在于，该环境参数系为一音量值。 10.如权利要求8所述的方法，其特征在于，该环境参数通过检测该环境的音量而得到。 11.如权利要求8所述的方法，其特征在于，该环境参数通过检测该环境的亮度而得到。 12.如权利要求8所述的方法，其特征在于，该环境参数为一时间值。 13.如权利要求8所述的控制器，其特征在于，依据该环境参数产生该阈值的步骤包含：依据该环境参数查询一对照表以产生该阈。

5、值。权利要求书CN 104345649 A 1/5页 3 应用于声控装置的控制器与相关方法技术领域 0001 本发明是有关于一种应用于声控装置的控制器与相关方法，且特别是关于一种可依据声控装置的环境动态地调整语音辨识阈值以进行声控的控制器与相关方法。背景技术 0002 声控装置可受控于使用者以语音下达的控制命令，为使用者提供友善直觉的人机接口，因此，有越来越多的电子装置已经加入声控功能，成为声控装置，例如说是手机、导航器、数字相机/摄影机、穿戴式/手持式/可携式智能电子装置（如计算机）、车载电子系统乃至于家用电器，如电视等等。 0003 为实现声控的功能，声控装置会以麦克。

6、风接收使用者语音，并进行语音辨识，例如说是将接收的语音与数据库中多个预设字词相互比对。在这些预设字词中，若某段语音与某一预设字词的相符程度最高，且由相符程度衍生的信心值（confidence score）超越一阈值（threshold），声控装置就会将该段语音辨识为该最相符的预设字词；若该最相符预设字词符合某一个命令，声控装置便可进而执行该命令。反之，若信心值未及该阈值，则声控装置会认为该段语音系无效（无法辨识）的。发明内容 0004 本发明认知到声控装置的运作环境会影响语音辨识，故在进行语音辨识时，需一并考虑环境因素。本发明的目的之一是提供一种控制器（如控制芯片），可应用于一声。

7、控装置，包括一设定模块与一辨识模块。设定模块依据一环境参数产生一阈值；其中，环境参数是相关于该声控装置所处的环境。辨识模块则耦接于该设定模块，可接收一语音，针对该语音进行辨识并产生一语音辨识的信心值，并且，比较该语音辨识的信心值与该阈值并据以产生一控制信号，从而进行声控。 0005 举例而言，声控装置可以是具有扬声器的电视或是音响系统，环境参数则可以是扬声器的音量值。例如，当音量值较高时，设定模块可将阈值设定为一较高的数值；当音量值较低时，设定模块可连带地将阈值设定为一较低的数值。当语音辨识的信心值阈值较高时，使用者进行声控的语音需较响亮、较清楚才能被有效辨识为声控命令。阈值较低。

8、时，即使使用者进行声控的语音较低，也容易被辨识为声控命令。 0006 以及/或者，环境参数也可以包括一时间值，例如说是由声控装置本身提供的实时时钟（Real Time Clock）值。举例而言，设定模块可在一天中的上午八点至下午七点将阈值设定为一第一数值，在另一时段则将阈值维持为一相异的第二数值。 0007 以及/或者，控制器可以包括（或外接至）一环境检测器；此环境检测器用以检测声控装置的环境以得到环境参数。亦即，环境参数也可以包括环境检测器提供的定量环境检测结果。举例而言，环境检测器可以是一检测背景音量的麦克风，用以检测环境音量。以及/或者，环境检测器可以是一检测环境（背景）亮度。

9、的光传感器。在某些应用情境下，背景音量及/或亮度较高代表声控装置是运作于一较吵杂的环境，故设定模块可将阈值提高，说明书CN 104345649 A 2/5页 4 避免将背景杂音错误地辨识为声控命令；另一方面，背景音量及/或亮度较低代表声控装置是运作于一较安静的环境，故设定模块可将阈值降低，让使用者可用较低声的语音进行声控。本发明控制器更可包括一储存单元，用以储存一对照表；设定模块可依据环境参数查询该对照表以产生阈值。 0008 本发明的目的之一是提供一种运用于一声控装置的方法，包含：依据一环境参数产生一阈值；接收一语音，针对该语音进行辨识并产生一语音辨识的信心值；以及，将语音。

10、辨识的信心值与阈值相互比较，并据以产生一控制信号，进行声控。附图说明 0009 为了对本发明的上述及其它方面有更佳的了解，下文特举较佳实施例，并配合所附图式，作详细说明如下： 0010 图1示意的是依据本发明一实施例的声控装置。 0011 图2与图3举例说明本发明依据环境参数来为语音辨识设定阈值的实施例。 0012 图4示意的是依据本发明一实施例的流程。具体实施方式 0013 请参考图1，其所示意的是依据本发明一实施例的声控装置10，其可包括一控制器12与一受控电路20。控制器12可以是一控制芯片，耦接于受控电路20，用以控制受控电路20。举例而言，声控装置10可以是一电视，控制器。

11、12为电视控制芯片，受控电路20则可以包括扬声器、显示面板、频道调谐器（tuner）与相关驱动电路/芯片等等。控制器12中可包括一设定模块14与一辨识模块16，以实现声控功能。 0014 声控装置10可将使用者的语音接收转换为电子信号S_语音，并传输至控制器12 中的辨识模块16。控制器12中的设定模块14可依据一环境参数的信号S_环境自动地、动态地、适应性地调整一语音辨识的信心阈值Td。辨识模块16则耦接于设定模块14，其可接收语音信号S_语音，对信号S_语音进行语音辨识以产生语音辨识的信心值(Confidence score，未图示)，并将信心值与阈值Td相互比较，据以提供信号S_。

12、命令（例如一控制信号），以进行声控。语音辨识的信心值越高，代表对于辨识结果有越高的准确机率，一般来说，音量越大或发音越标准，语音辨识的信心值就会越高。举例而言，若辨识模块16比对得知信号S_语音的语音与某一字词最为相符，且由相符程度衍生的语音辨识信心值高于阈值Td，则辨识模块16便可进一步比对该最相符字词是否符合某一预设的控制命令；若是，便可于信号S_命令中反映该相符命令，而控制器12可执行信号S_命令中的命令，据以操控受控电路20。举例而言，若声控系统10为电视，则语音的控制命令可以包括：将信息源切换至某指定频道、至前一频道、至后一频道与调整音量等等。 0015 另一方面，当辨。

13、识模块16对信号S_语音进行语音辨识时，若语音辨识的信心值低于阈值Td，辨识模块16可于信号S_命令中来反映无辨识结果，使控制器12得以进行例外处理，例如说是：继续接收后续语音、提示使用者重新发出语音命令等等。 0016 如前所述，设定模块14可依据信号S_环境所反映的环境参数自动调整阈值Td。换言之，本发明声控技术可在辨识语音命令时将声控装置10的运作环境一并列入考虑，进而改善语音辨识的适应性。说明书CN 104345649 A 3/5页 5 0017 举例而言，声控装置10可以是具有扬声器的电视或是音响系统，环境参数则可以是该扬声器的音量值。例如，当音量值较高时（例如说是使。

14、用者调高扬声器音量时），设定模块14可将阈值Td设定为一较高的数值；当音量值较低时，设定模块14可将阈值Td设定为一相对较低的数值。请参考图2，其举例示意本发明依据音量值设定阈值Td的情形。在图2的例子中，当音量值落在80db至100db的范围时，设定模块14（图1）会将阈值Td设定为80；当音量值在60db至79db之间，阈值Td被设定为60；当音量值在40db至59db之间，阈值Td则设定为40，等等。当语音辨识的信心值阈值Td较高时，使用者进行声控的语音需较响亮、较清楚才能被有效辨识为声控命令。阈值Td较低时，即使使用者以较低声的语音进行声控，也容易被辨识为声控命令。 00。

15、18 以及/或者，环境参数也可以包括一时间值，例如说是由声控装置10本身提供的实时时钟值。举例而言，如图3的例子所示，设定模块14可在一天中的上午八点至下午五点将阈值Td设定为一第一数值（如80db），在下午五点至九点将阈值Td维持为一相异的第二数值（如60db），其余时段则将阈值Td维持为一第三数值（如40db）。 0019 以及/或者，如图1所示，声控装置10还可以耦接一（或多个）环境检测器18，其用以检测环境的某一（或某些）特性，并提供定量的环境检测结果。环境检测器18可以内建于声控装置10中，也可以是另一独立的外接装置，耦接至声控装置10的控制器12。环境检测器18的环境检。

16、测结果可被包括于信号S_环境中，使设定模块14也可以依据环境检测结果来设定阈值Td。 0020 举例而言，环境检测器18可以是一检测背景音量的麦克风。以及/或者，环境检测器18可以是一检测背景亮度的光传感器。在某些应用情境下，背景音量及/或亮度较高代表声控装置运作于一较吵杂的环境，故设定模块14可将阈值Td提高，避免将背景杂音错误地辨识为声控命令；另一方面，背景音量及/或亮度较低代表声控装置10运作于一较安静的环境，故设定模块14可将阈值Td降低，让使用者可用较低的语音进行声控。 0021 再者，环境检测器18也可以是检测位置的定位装置，例如卫星定位装置或无线定位装置，用以检测声控。

17、装置10所在的位置，并使设定模块14能依据定位结果来设定阈值 Td。环境检测器18也可以是影像摄取与辨识的装置，其可辨识声控装置10的使用者身份，让设定模块14可为不同使用者个别设定对应的阈值Td；以及/或者，环境检测器18可以辨识使用者的人数，以依据使用者人数设定阈值Td，例如说是在人数较多时提高阈值Td。 0022 又及，环境检测器18也可以是测距装置，以测定使用者至声控装置10的距离，将使用者距离作为一环境参数，使设定模块14能依据使用者距离来调整阈值Td，例如说是当使用者距离较远时调低阈值Td。环境检测器18也可以是温度感应器，将感应到的温度作为一环境参数。 0023 设定模。

18、块14可依据一或多个环境参数来设定阈值Td。这一或多个环境参数可以包括声控装置10本身的运作参数（例如扬声器音量或时间值等），以及/或者一或多个环境检测器的环境检测结果。例如，设定模块14可依据预设的算法（例如说是逻辑的与运算、或运算等等）来整合多个环境参数，并依据整合结果设定阈值Td。举例来说，当一第一环境参数落于一第一数值范围中且一第二环境参数落于一第二数值范围时，设定模块14将阈值 Td设定为一第一数值；当该第一环境参数逾越该第一数值范围或该第二环境参数逾越该第二数值范围时，设定模块14则改将阈值Td设定为一相异的第二数值。又一例中，当第一说明书CN 104345649 。

19、A 4/5页 6 环境参数落于一第一数值范围中时，设定模块14使阈值Td随第二环境参数变化；当第一环境参数逾越第一数值范围时，设定模块14则使阈值Td维持不变。 0024 延续图1的实施例，请参考图4，其所示意的是依据本发明一实施例的流程100；图 1中的控制器12可依据流程100来实现声控。流程100包括下列步骤。 0025 步骤102：开始流程100。在接收一段语音后，控制器12可开始流程100。 0026 步骤104：取得（一或多个）环境参数。这一或多个环境参数可以包括声控装置10 本身的运作参数，以及/或者，一或多个环境检测器的环境检测结果。 0027 步骤106：依据（一或多个）环。

20、境参数调整/设定语音辨识的信心阈值Td。 0028 步骤108：针对步骤102的语音找出最相符的字词后，依据相符程度计算信心值，并比较信心值是否大于阈值Td，若是，则进行至步骤110，反之则进行至步骤116。 0029 步骤110：进行至此步骤，代表语音的内容可有效地由最相符字词代表；如此，就可进行至步骤112，以取得声控的命令。 0030 步骤112：在多个预设命令中，比对最相符字词是否符合其中之一，若是，则进行至步骤114，反之则进行至步骤104。 0031 步骤114：控制器12执行步骤112中找出的相符命令，实现声控的目的。 0032 步骤116：结束流程100。 0033 等效。

21、而言，本发明也可依据环境参数来调整信心值，例如说是将原始的信心值乘以一权重及/或加上一偏移值而得到一调整后信心值，并依据此调整后信心值是否大于阈值Td来进行声控；其中，权重及/或偏移值是依据环境参数调整的。举例而言，在一实施例中，当某一环境参数落在一预设范围时，假设设定模块14应使阈值Td由一较小数值Td0增加为一较大数值Td1。等效地，在另一个效果相同的实施例中，当该环境参数落在该预设范围时，设定模块14则是使阈值Td维持于数值Td0，改将原始信心值乘以一个小于1的权重以得到一调整后信心值，例如，此权重可以等于Td0/Td1；如此，当在比较调整后信心值与原始阈值Td（数值Td0。

22、）间的关系时，等效上也就是在比较原始信心值与调整后阈值Td（数值Td1）。换言之，本发明可推广为：依据环境参数来调整信心值与阈值两者的至少其中之一，以调整两者间的相互关系。举例而言，某一数值的信心值原本小于阈值，但当环境参数改变时，同一数值的信心值会变得大于阈值；两者间的关系由小于改变至大于的手段可以是：在环境参数改变时降低阈值，以及/或者，在环境参数改变时增加信心值。 0034 在图1的实施例中，设定模块14与辨识模块16可用硬件实现，或是由硬件处理器执行软件及/或固件的程序代码来实现。针对信心值的计算，本发明可采用任何能将自动语音辨识结果的可靠度（reliability）予以量。

23、化的算法。举例而言，当将一段语音辨识为一字词后，信心值可以代表该辨识的正确机率。信心值可以依据后验机率（posterior probability）估算，依据声学语言等预估特征（predictor feature）估算，以及/或者，依据发音确认（utterance verification）估算。 0035 此外，在图1的实施例中，当设定模块14依据信号S_环境所反映的环境参数自动调整阈值Td时，可以参考一参考来源S_参考。举例而言，参考来源S_参考可以是一组预先储存于控制器12的对照表，其可将不同的环境参数范围对应至不同的阈值Td，例如图2 及/或图3所示的对照表；当设定模块14要依。

24、据环境参数产生阈值Td时，便可依据环境参数查询对照表以产生阈值Td。以及/或者，控制器12也可以接受使用者输入来设定参考说明书CN 104345649 A 5/5页 7 来源S_参考的对照表；举例而言，在图3的例子中，使用者可自行设定左列（column）的时间范围。以及/或者，参考来源S_参考可以包括一映像函数或一算法，可由环境参数计算出对应的阈值Td。在流程100的步骤106（图4）中，当要依据环境参数设定阈值Td时，也可以依据参考来源S_参考来由环境参数对照出阈值Td。如图1所示，控制器12可以包括（或外接至）一储存单元19；储存单元19可以是易失性及/或非易失性内存，用以储存参考来源S_参考。 0036 总结来说，相较于习知技术，本发明可依据环境参数来动态地调整语音辨识的信心阈值，使语音辨识能适应声控装置的运作环境，改善声控的性能与适应性。 0037 综上所述，虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的改动与润饰。因此，本发明的保护范围当视后附的权利要求所界定者为准。说明书CN 104345649 A 1/2页 8 图1 图2 图3 说明书附图CN 104345649 A 2/2页 9 图4 说明书附图CN 104345649 A 。

展开阅读全文