语音服务方法和语音服务系统.pdf

摘要
申请专利号：	CN200910087984.0	申请日：	2009.06.29
公开号：	CN101588415A	公开日：	2009.11.25
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):H04M 3/493申请公布日:20091125\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	H04M3/493; G10L11/02; G10L21/02	主分类号：	H04M3/493
申请人：	中国农业大学
发明人：	高万林; 李桢; 于丽娜; 杨颖
地址：	100083北京市海淀区清华东路17号
优先权：
专利代理机构：	北京同立钧成知识产权代理有限公司	代理人：	刘芳
PDF下载：	PDF下载

内容摘要

本发明公开了一种语音服务方法和语音服务系统，其中，语音服务方法包括：通过语音卡采集客户端输入的用于标识所述客户端的语音服务请求的初始语音信息；对所述初始语音信息进行预处理得到标准语音信息，所述预处理包括语音端点检测和降噪处理；对所述标准语音信息进行语音识别得到识别结果信息；根据所述识别结果信息向所述客户端返回与所述初始语音信息对应的语音服务结果信息。本发明可以减少按键输入，增强与用户的交互性；使输入语音识别引擎的语音尽量符合标准，可以发挥引擎最大功效；实现了多路话路共用一个语音识别引擎，提高引擎利用率。

权利要求书

1、  一种语音服务方法，其特征在于，包括：
通过语音卡采集客户端输入的用于标识所述客户端的语音服务请求的初始语音信息；
对所述初始语音信息进行预处理得到标准语音信息，所述预处理包括语音端点检测和降噪处理；
对所述标准语音信息进行语音识别得到识别结果信息；
根据所述识别结果信息向所述客户端返回与所述初始语音信息对应的语音服务结果信息。

2、  根据权利要求1所述的语音服务方法，其特征在于，在所述对所述初始语音信息进行预处理得到标准语音信息之后，对所述标准语音信息进行语音识别得到识别结果信息之前还包括：
将所述标准语音信息输入先进先出的排队序列，以便依次从所述排队序列中提取所述标准语音信息进行识别。

3、  根据权利要求1所述的语音服务方法，其特征在于，所述对所述标准语音信息进行语音识别得到识别结果信息为：关键词语音识别引擎对所述标准语音信息进行语音识别得到识别结果信息。

4、  根据权利要求1所述的语音服务方法，其特征在于，所述语音端点检测包括：
根据起始端点长度参数和结束端点长度参数检测得到所述初始语音信息的起始端点和结束端点，所述起始端点和结束端点之间的语音信息为语音部分信息，并去掉所述初始语音信息中的所述语音部分信息之外的无语音部分信息。

5、  根据权利要求1所述的语音服务方法，其特征在于，所述语音端点检测还包括：根据过长语音长度参数检测得到所述初始语音信息的结束端点。

6、  根据权利要求1所述的语音服务方法，其特征在于，所述降噪处理包括：
设定噪声门限值，并采用滤波器滤去经过所述语音端点检测后的初始语音信息中位于所述噪声门限值之下的初始语音信息。

7、  一种语音服务系统，其特征在于，包括输入模块、预处理模块、识别模块和输出模块；
所述输入模块，用于通过语音卡采集客户端输入的用于标识所述客户端的语音服务请求的初始语音信息；
所述预处理模块，用于对所述初始语音信息进行预处理得到标准语音信息，所述预处理包括语音端点检测和降噪处理；
所述识别模块，用于对所述标准语音信息进行语音识别得到识别结果信息；
所述输出模块，用于根据所述识别结果信息向所述客户端返回与所述初始语音信息对应的语音服务结果信息。

8、  根据权利要求7所述的语音服务系统，其特征在于，还包括：
排队模块，用于将所述标准语音信息输入先进先出的排队序列，以便依次从所述排队序列中提取所述标准语音信息进行识别。

9、  根据权利要求7所述的语音服务系统，其特征在于，所述预处理模块包括端点检测单元和降噪单元；
所述端点检测单元，用于根据起始端点长度参数、结束端点长度参数和过长语音长度参数检测所述初始语音信息的起始端点和结束端点，所述起始端点和结束端点之间的语音信息为语音部分信息，并去掉所述初始语音信息中的所述语音部分信息之外的无语音部分信息；
所述降噪单元，用于设定噪声门限值，并采用滤波器滤去经过所述语音端点检测后的初始语音信息中位于所述噪声门限值之下的初始语音信息。

说明书

语音服务方法和语音服务系统
技术领域
本发明涉及语音识别领域，特别涉及一种语音服务方法和语音服务系统。
背景技术
随着农村信息化建设的快速发展，为农民用户提供信息服务的农业语音热线也正在全国大力开展和建设，数个省市已经开通相关服务热线。目前，农业语音热线大多都采用传统的语音菜单提示和用户按键输入选择的方式来完成语音交互过程。例如，农民用户如果要查询某种蔬菜的价格，需要在进入该语音热线的价格查询菜单后，通过按键选择所要查询的蔬菜，才能得到该蔬菜的价格信息。
发明人在实现本发明的过程中发现，现有技术的农业语音热线至少存在以下技术缺陷：上述按键输入选择的方式在信息选择项较少的情况下，尚为可行，但是当农业服务中心提供的服务较多时，例如，可以提供几十种蔬菜的价格信息，则此时农民在查询农产品价格信息时，收听提示音时间就要在3分钟以上，效率非常低下，十分不方便，交互性较差。因此，农民用户更习惯于直接转接人工服务，使得农业语音热线的自动语音回复部分建成后长期处于闲置状态，无人问津，造成语音服务的资源浪费，也阻碍了农村信息化建设的快速发展。
发明内容
本发明的目的是提供一种语音服务方法和语音服务系统，解决语音服务交互性较差和效率低下的问题，实现语音服务交互性更强，效率提高。
本发明实施例提供了一种语音服务方法，其特征在于，包括：
通过语音卡采集客户端输入的用于标识所述客户端的语音服务请求的初始语音信息；
对所述初始语音信息进行预处理得到标准语音信息，所述预处理包括语音端点检测和降噪处理；
对所述标准语音信息进行语音识别得到识别结果信息；
根据所述识别结果信息向所述客户端返回与所述初始语音信息对应的语音服务结果信息。
本发明实施例还提供了一种语音服务系统，其特征在于，包括输入模块、预处理模块、识别模块和输出模块；
所述输入模块，用于通过语音卡采集客户端输入的用于标识所述客户端的语音服务请求的初始语音信息；
所述预处理模块，用于对所述初始语音信息进行预处理得到标准语音信息，所述预处理包括语音端点检测和降噪处理；
所述识别模块，用于对所述标准语音信息进行语音识别得到识别结果信息；
所述输出模块，用于根据所述识别结果信息向所述客户端返回与所述初始语音信息对应的语音服务结果信息。
本发明语音服务方法和语音服务系统通过将语音卡与语音识别技术相结合，直接采用自然语言进行语言服务，可以减少按键输入，增强与用户的交互性；通过采用语音预处理技术，使得进行语音识别的语音信息更加符合语音识别的标准，提高语音识别的效率。
附图说明
图1为本发明实施例一提供的语音服务方法的流程示意图；
图2为本发明实施例二提供的语音服务系统的结构示意图。
具体实施方式
本发明的主要发明思想即为将语音识别技术与传统语音服务系统中的语音卡相结合共同组建语音服务系统，使用自然语音发出指令，避免连续按键的过程，提高语音服务系统的工作效率，增强语音服务的交互性。
下面通过附图和具体实施例，对本发明的技术方案作进一步详细说明。
图1为本发明实施例一提供的语音服务方法的流程示意图，如图1所示，本实施例的语音服务方法主要包括以下步骤：
步骤101、采用语音卡采集客户端输入的用于标识客户端的语音服务请求的初始语音信息。
语音服务系统中的硬件语音卡和公共电话网连接，在此基础上，可以采用语音卡对用户通过公共电话网输入的语音信号进行采集录音。具体实施中，可以定义一个变量，调用语音卡函数对用户输入的语音信号进行录音，可以设定定长的录音时间，将该段时间内用户的语音全部录制下来，得到初始音频文件即初始语音信息，并将音频文件存储在该变量中，等待下一步处理。该初始语音信息可以标识客户端的语音服务请求，例如，农民用户在查询蔬菜价格时，可以语音方式输入“白菜”，该“白菜”即为初始语音信息，其标识了该农民用户的语音服务请求为想查询白菜的价格。
步骤102、对初始语音信息进行预处理得到标准语音信息，该预处理包括语音端点检测和降噪处理。
通过语音卡采集的用户初始语音信息中包括了很多无音部分和噪音部分，如果将该初始语音信息直接输入语音识别引擎中进行语音识别，会使得语音识别引擎的识别效率不高，因此，需要在语音识别以前对该初始语音信息进行预处理，去掉非语音部分，并尽量滤掉音频中的噪音。该预处理主要包括语音端点检测和降噪处理两个部分。
首先，进行语音端点检测，可以设定起始端点长度参数和结束端点长度参数，并根据该起始端点长度参数和结束端点长度参数检测得到初始语音信息的起始端点和结束端点，该起始端点和结束端点之间的语音信息为语音部分信息，并去掉初始语音信息中的上述语音部分信息之外的无语音部分信息。
其中，起始端点长度参数越小越敏感，越容易及时检测出语音信息；数值越大越不敏感，越容易过滤掉初始语音信息中的脉冲噪音；一般将该起始端点长度参数推荐设置为200ms(快语速说一个关键词需要300ms以上，正常语速为500s以上)。例如，假设设定起始端点长度参数为200ms，则如果初始语音信息即初始音频文件检测到音频文件的长度已经从音频开始点延续时间达到200ms，就标识该音频文件已经开始，即检测到了该音频文件的起始端点，该起始端点为从200ms的起始点。
在通过起始端点长度参数检测到初始语音信息的起始端点后，再根据结束端点长度参数检测初始语音信息的结束端点，该结束端点长度参数用以表示在检测到起始端点后，连续多长时间的静音数据被认为是真正的结束端点。本参数数值越小越敏感，越容易及时检测出来是语音结束；反之，数值越大越不敏感，如果说话人有短暂的说话停顿不会被认为是语音结束；一般将该起始端点长度参数推荐设置为3s(根据正常人的语音停顿习惯确定)。例如，假设设定结束端点长度参数为1s，则当检测到初始语音信息中的起始端点后，再检测到出现1s的静音，就标识已经到达初始语音信息的结束端点，该结束端点即为1s的起始点。
此外，在该语音端点检测中还可以设置过长语音长度参数，根据过长语音长度参数检测得到初始语音信息的结束端点。例如，当检测到初始语音信息的起始端点后，连续过长时间都不再有语音信号，则此时该定连续过长时间的语音数据也被认为是结束端点。该过长语音长度参数可以依据最长时间会说多长时间的一个关键词来设定；一般将该起始端点长度参数推荐设置为2s。例如，假设设定过长语音长度参数为2s，则当检测到初始语音信息中的起始端点后，再检测到出现2s的静音，而正常的初始语音信息一般都不大于2s，该2s即为过长语音信息，其标识已经到达初始语音信息的结束端点，此时，可以认为该初始语音信息无效，可以不对其进行语音识别。
其次，在语音端点检测完毕，已经检测得到初始语音信息的起始端点和结束端点的基础上，再对初始语音信息进行降噪处理，以便滤掉背景噪声，保留人的声音。该降噪处理包括：设定噪声门限值，该噪声门限值可以根据系统应用环境及采用的设备进行具体设定，可以设定为在这个门限值以下为背景噪声，在这个门限值以上为人的声音，并采用滤波器滤去经过语音端点检测后的初始语音信息中位于噪声门限值之下的初始语音信息即噪声。
通过上述的预处理过程，得到的语音信息已基本符合标准，如果将该标准语音信息输入到语音识别引擎后，就可以最大程度上接近采用的语音识别引擎的最大识别率。使语音识别引擎的运算处理可以集中在真正的识别过程，节约语音识别处理时间。
步骤103、由语音识别引擎对标准语音信息进行语音识别得到识别结果信息。
在对初始语音信息进行预处理得到标准语音信息之后，接着语音识别引擎需要对该标准语音信息进行语音识别得到识别结果信息例如文字结果信息。此时采用的语音识别引擎可以是市场上或实验室中比较成熟的识别引擎，例如，本实施例中的语音识别引擎可以采用关键词语音识别引擎，例如，捷通华声公司的jASR5.5语音识别引擎，也可以采用其他公司或实验室的语音识别引擎产品。由于经过前期的语音预处理，输入的音频文件比较标准，可以尽可能接近采用语音识别引擎的最大识别率。目前语音识别引擎的工作原理是，未知语音的模式要与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。一般基于关键词的语音识别引擎，识别速度在几秒左右，可以应用到实际应用中来。语音识别后，将识别结果信息存储到另一变量中，以便进行后续处理。本方法可以根据技术进步，更换不同的语音识别引擎，适用性、复用性强。
此外，由于语音卡上集成有多个语音通道即话路，可能会有多个初始语音信息即音频文件需要处理。这种情况下，如果采用为每路话路配用一线语音识别引擎，由于识别引擎价格昂贵，这种做法会造成系统成本较高；同时，同一时间，几路话路中往往不会同时进行通话，这样就会造成语音识别引擎的闲置和浪费。本实施例针对该情况设计一先进先出的排队队列，几路话路传来的初始语音信息经预处理后的标准语音信息排队进入该队列，语音识别引擎可以从队列中依次提取标准语音信息进行识别处理，实现了多路话路公用一线语音识别引擎，节约整套系统成本，可以有效利用价格高昂的语音识别引擎，避免造成浪费，提高引擎利用率。
步骤104、根据识别结果信息向客户端返回与初始语音信息对应的语音服务结果信息。
语音识别引擎将识别后的得到的文字结果信息反馈给语音服务系统，由语音服务系统根据文字进行语音播放或数据库查询等操作，并向客户端返回与初始语音信息对应的语音服务结果信息，例如，用户在查询价格时输入的初始语音信息为“白菜”，则语音服务结果信息为以语音方式输出白菜的价格信息“今日白菜价格北京新发地批发市场1元每公斤，......回龙观批发市场1.2元每公斤”，这样就可以直接对用户的输入语音作出语音答复，而不必再进行按键选择，方便快捷，交互性强，效率较高。
本实施例通过将语音卡与关键词语音识别技术相结合，可以减少按键输入，增强与用户的交互性；通过采用语音预处理技术，使输入语音识别引擎的语音尽量符合标准，可以发挥引擎最大功效；通过采用先进先出队列，实现了多路话路共用一个语音识别引擎，提高引擎利用率。
图2为本发明实施例二提供的语音服务系统的结构示意图，如图2所示，本实施例的语音服务系统包括：输入模块21、预处理模块22、识别模块23和输出模块24。
具体实施中，输入模块21通过语音卡采集客户端输入的用于标识所述客户端的语音服务请求的初始语音信息；
预处理模块22对输入模块21得到的初始语音信息进行预处理得到标准语音信息，该预处理包括语音端点检测和降噪处理；
识别模块23对预处理模块22得到的标准语音信息进行语音识别得到识别结果信息，具体实施中，该识别模块23可以为关键词语音识别引擎；
输出模块24根据识别模块23的识别结果信息向客户端返回与初始语音信息对应的语音服务结果信息。
在此基础上，进一步的，在语音识别之前的预处理过程中，预处理模块22中的端点检测单元221根据起始端点长度参数、结束端点长度参数和过长语音长度参数检测初始语音信息的起始端点和结束端点，该起始端点和结束端点之间的语音信息为语音部分信息，并去掉初始语音信息中的所述语音部分信息之外的无语音部分信息。预处理模块22中的降噪单元222设定噪声门限值，并采用滤波器滤去经过语音端点检测后的初始语音信息中位于噪声门限值之下的初始语音信息即噪声。
其中，端点检测单元221又包括第一子单元和第二子单元。第一子单元，用于根据结束端点长度参数检测得到初始语音信息的结束端点，例如，假设设定结束端点长度参数为3s，则当检测到初始语音信息中的起始端点后，再检测到出现3s的静音，就标识已经到达初始语音信息的结束端点，该结束端点即为3s的起始点；第二子单元，用于当连续过长时间都不再有语音信号时，根据过长语音长度参数检测得到初始语音信息的结束端点；例如，假设设定过长语音长度参数为2s，则当检测到初始语音信息中的起始端点后，再检测到出现2s的静音，而正常的初始语音信息一般都不大于2s，该2s即为过长语音信息，其标识已经到达初始语音信息的结束端点，此时，可以认为该初始语音信息无效，可以不对其进行语音识别。
该语音服务系统还可以包括排队模块25，该排队模块25用于在有多个初始语音信息即音频文件，对其进行预处理后的多个标准语音信息均需要语音识别引擎进行处理时，将预处理模块22得到的多个标准语音信息输入先进先出的排队序列，以便识别模块23依次从排队序列中提取标准语音信息进行识别。
本实施例通过将语音卡与关键词语音识别技术相结合，可以减少按键输入，增强与用户的交互性；通过采用语音预处理技术，使输入语音识别引擎的语音尽量符合标准，可以发挥引擎最大功效；通过采用先进先出队列，实现了多路话路共用一个语音识别引擎，提高引擎利用率。
最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。