计算机装置、语音搜寻系统及其方法.pdf

摘要
申请专利号：	CN200810183989.9	申请日：	2008.12.19
公开号：	CN101751401A	公开日：	2010.06.23
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30公开日:20100623\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20081219\|\|\|公开
IPC分类号：	G06F17/30; G10L15/26	主分类号：	G06F17/30
申请人：	英业达股份有限公司
发明人：	张婷娟
地址：	中国台湾台北市士林区后港街66号
优先权：
专利代理机构：	上海专利商标事务所有限公司 31100	代理人：	陈亮
PDF下载：	PDF下载

内容摘要

一种计算机装置、语音搜寻系统及其方法。此方法包括下列步骤。首先，录制具有特定频率的音频。在音频出现关键特征时，撷取关键特征出现后时间区间内的音频作为音频数据。接着，将音频数据转换成字符串数据。然后，撷取字符串数据中的多个字汇，并利用这些字汇组成至少一搜寻条件。最后，利用所述搜寻条件进行数据搜寻。藉此，可将为语音状态的问题转换为文字文件，以透过搜寻网站来对问题进行数据搜寻。

权利要求书

1：一种语音搜寻方法，其特征在于包括：录制具有一特定频率的一音频；在该音频出现一关键特征时，撷取该关键特征出现后一时间区间内的该音频作为一音频数据；将该音频数据转换成一字符串数据；撷取该字符串数据中的多个字汇；利用该些字汇组成至少一搜寻条件；以及利用所述搜寻条件进行数据搜寻。
2：根据权利要求1所述的语音搜寻方法，其特征在于，其中录制具有该特定频率的该音频包括：锁定具有该特定频率的该音频；以及对该音频进行录制。
3：根据权利要求1所述的语音搜寻方法，其特征在于，其中该关键特征为该音频用以传递一关键词。
4：根据权利要求1所述的语音搜寻方法，其特征在于，其中该关键特征为该音频的振幅大于一默认值。
5：根据权利要求1所述的语音搜寻方法，其特征在于，其中撷取该字符串数据中的该些字汇包括：撷取该字符串数据中为名词和动词的该些字汇。
6：根据权利要求1所述的语音搜寻方法，其特征在于，其中利用所述搜寻条件进行数据搜寻包括：连结至一搜寻网站；以及透过该搜寻网站对所述搜寻条件进行搜寻。
7：一种语音搜寻系统，其特征在于包括：一语音接收单元，用以接收一音频；一语音辨识单元，耦接该语音接收单元，用以撷取该音频中具有一特定频率的一第一音频，且当该第一音频出现一关键特征时，输出该第一音频并维持一时间区间，以作为一音频数据；一分析单元，耦接该语音辨识单元，用以将该音频数据转换为一字符串数据，并撷取该字符串数据中的多个字汇，以及利用该些字汇组成至少一搜寻条件；以及一搜寻单元，耦接该分析单元，用以透过一搜寻网站对所述搜寻条件进行搜寻。
8：根据权利要求7所述的语音搜寻系统，其特征在于更包括：一按键，耦接该语音辨识单元，用以依据该按键的按压与否来控制该时间区间的时间长度。
9：根据权利要求7所述的语音搜寻系统，其特征在于更包括：一记录单元，耦接于该语音辨识单元，用以录制该第一音频。
10：根据权利要求9所述的语音搜寻系统，其特征在于，其中该记录单元为一硬盘。
11：根据权利要求7所述的语音搜寻系统，其特征在于，其中该语音接收单元为一麦克风。
12：根据权利要求7所述的语音搜寻系统，其特征在于，其中该关键特征为该第一音频用以传递一关键词。
13：根据权利要求7所述的语音搜寻系统，其特征在于，其中该关键特征为该第一音频的振幅大于一默认值。
14：一种计算机装置，其特征在于包括：一语音接收单元，用以接收一音频；一处理系统，包括：一语音辨识单元，耦接该语音接收单元，用以撷取该音频中具有一特定频率的一第一音频，且在一时间区间内的该第一音频作为一音频数据；一分析单元，耦接该语音辨识单元，用以将该音频数据转换为一字符串数据，并撷取该字符串数据中的多个字汇，以及利用该些字汇组成至少一搜寻条件；以及一搜寻单元，耦接该分析单元，用以透过一搜寻网站对所述搜寻条件进行搜寻。
15：根据权利要求14所述的计算机装置，其特征在于，其中该语音辨识单元在该第一音频出现一关键特征时，输出该音频数据。
16：根据权利要求15所述的计算机装置，其特征在于，其中该关键特征为该第一音频用以传递一关键词。
17：根据权利要求15所述的计算机装置，其特征在于，其中该关键特征为该第一音频的振幅大于一默认值。
18：根据权利要求15所述的计算机装置，其特征在于更包括：一键盘，具有多个按键，耦接该处理系统，用以依据该些按键的按压来控制该时间区间的时间长度。
19：根据权利要求14所述的计算机装置，其特征在于，其中该处理系统更包括：一记录单元，耦接于该语音辨识单元，用以录制该第一音频。
20：根据权利要求19所述的计算机装置，其特征在于，其中该记录单元为一硬盘。
21：根据权利要求19所述的计算机装置，其特征在于更包括：一键盘，具有多个按键，耦接该处理系统，当该些按键的其中之一被按压时，该语音辨识单元会从该记录单元撷取在该按键被按压之前该时间区间内录制的该音频数据。
22：根据权利要求21所述的计算机装置，其特征在于，其中该时间区间的时间长度为依据该记录单元的容量而定。
23：根据权利要求14所述的计算机装置，其特征在于，其中该语音接收单元为一麦克风。
24：根据权利要求14所述的计算机装置，其特征在于，其中该语音辨识单元、分析单元及搜寻单元皆为一应用程序。

说明书

计算机装置、语音搜寻系统及其方法
    【技术领域】

    本发明涉及一种语音搜寻系统，特别是涉及一种将语音转换为文字后利用搜寻网站进行搜寻的计算机装置、语音搜寻系统及其方法。

    背景技术

    在现代，除了就学时期会通过不断的学习来提升个人的能力外，在职员工同样会透过不断的进修来提升个人的能力，同时企业主也会针对员工来举办不同的讲座及研习，以提升员工的工作能力。而在进行研习或讲座的课堂上，通常讲师会对学员进行提问，来与学员进行互动。然而在提问之后，假设学员之中无人能回答讲师的问题，致使在提问后会呈现无人回答的情况。

    此外，若学员携带笔记本计算机上课，或是上课地点配置有个人计算机以辅助教学，使得学员可透过计算机上网来查询讲师所提问的问题。但是，当学员将问题输入至计算机并找到答案时，可能已经过了回答问题的时机点，并且键盘敲打的声音可能会影响到讲师上课。

    【发明内容】

    本发明提供一种计算机装置，可将为语音状态的问题转换为字符串数据。

    本发明提供一种语音搜寻系统，可撷取字符串数据中的多个字汇，并利用这些字汇组成到少一搜寻条件。

    本发明提供一种语音搜寻方法，可透过搜寻网站来对所述的搜寻条件进行数据搜寻。

    本发明提出一种语音搜寻方法，其包括下列步骤。首先，录制具有特定频率的音频。在音频出现关键特征时，撷取关键特征出现后时间区间内的音频作为音频数据。接着，将音频数据转换成字符串数据。然后，撷取字符串数据中的多个字汇，并利用这些字汇组成至少一搜寻条件。最后，利用所述搜寻条件进行数据搜寻。

    在本发明的一实施例中，录制具有特定频率的音频的步骤包括：锁定具有特定频率的音频，以及对此音频进行录制。

    在本发明的一实施例中，撷取字符串数据中的这些字汇的包括撷取字符串数据中为名词和动词的些字汇。

    在本发明的一实施例中，利用所述搜寻条件进行数据搜寻的步骤包括：连结至搜寻网站，以及透过搜寻网站对所述搜寻条件进行搜寻。

    本发明提出一种语音搜寻系统，其包括语音接收单元、语音辨识单元、分析单元及搜寻单元。语音接收单元用以接收音频。语音辨识单元耦接语音接收单元，用以撷取音频中具有特定频率的第一音频，且当第一音频出现关键特征时，输出第一音频并维持一时间区间，以作为一音频数据。分析单元耦接语音辨识单元，用以将音频数据转换为字符串数据，并撷取字符串数据中的多个字汇，以及利用些字汇组成至少一搜寻条件。搜寻单元，耦接分析单元，用以透过搜寻网站对所述搜寻条件进行搜寻。

    在本发明的一实施例中，此语音搜寻系统更包括按键及记录单元。按键耦接语音辨识单元，用以依据按键的按压与否来控制时间区间的时间长度。记录单元耦接于语音辨识单元，用以录制第一音频。

    本发明提出一种计算机装置，其包括语音接收单元及处理系统。语音接收单元用以接收一音频。处理系统包括语音辨识单元、分析单元及搜寻单元。语音辨识单元耦接语音接收单元，用以撷取音频中具有特定频率的第一音频，且在一时间区间内的该第一音频作为一音频数据。分析单元耦接语音辨识单元，用以将音频数据转换为字符串数据，并撷取字符串数据中的多个字汇，以及利用这些字汇组成至少一搜寻条件。搜寻单元耦接分析单元，用以透过搜寻网站对所述搜寻条件进行搜寻。

    在本发明的一实施例中，此语音辨识单元在第一音频出现一关键特征时，输出音频数据，并且此关键特征为第一音频用以传递一关键词或第一音频的振幅大于一默认值。

    在本发明的一实施例中，此计算机装置更包括键盘，键盘具有多个按键，且耦接处理系统，用以依据这些按键的按压来控制时间区间的时间长度。

    在本发明的一实施例中，此处理系统更包括记录单元，记录单元耦接于语音辨识单元，用以录制第一音频，并且此记录单元为一硬盘。

    在本发明的一实施例中，此计算机装置更包括键盘，键盘具有多个按键，且耦接处理系统。当键盘上按键的其中之一被按压时，语音辨识单元会从记录单元撷取在按键被按压之前时间区间内录制音频数据。

    在本发明的一实施例中，此时间区间为依据记录单元的容量而定。在本发明的一实施例中，而此语音接收单元为一麦克风，并且此语音辨识单元、分析单元及搜寻单元皆为一应用程序。

    综合以上所述，本发明的计算机装置、语音搜寻系统及其方法，会将为语音状态的问题转换为字符串数据，并撷取在字符串数据中的多个字汇，以利用这些字汇组成少一搜寻条件，再透过搜寻网站来对所述的搜寻条件进行数据搜寻。藉此，可不经由键盘来输入问题，并可将问题直接透过搜寻网站来找寻相关的数据，以得到问题的答案。

    上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

    【附图说明】

    图1为根据本发明一实施例的计算机装置的系统方块图。

    图2为根据本发明一实施例的语音搜寻系统的系统方块图。

    图3为根据本发明一实施例的语音搜寻方法的流程图。

    图4为根据本发明另一实施例的语音搜寻方法的流程图。

    图5为根据本发明再一实施例的语音搜寻方法地流程图。

    【具体实施方式】

    图1为根据本发明一实施例的计算机装置的系统方块图。请参照图1，计算机装置100包括语音接收单元110、处理系统120及键盘130。语音接收单元110用以接收音频，其中语音接收单元110例如为麦克风。处理系统120耦接语音接收单元110。键盘130耦接处理系统，并且具有多个按键。处理系统120包括语音辨识单元121、分析单元122、搜寻单元123及记录单元124。语音辨识单元121耦接语音接收单元110，用以撷取音频中具有特定频率的第一音频。在第一音频出现关键特征时，语音辨识单元121会输出第一音频并维持一时间区间(例如为30秒)，以作为一音频数据。分析单元122耦接语音辨识单元121，用以将音频数据转换为字符串数据，并撷取字符串数据中的多个字汇，以及利用这些字汇组成至少一搜寻条件。搜寻单元123耦接分析单元122，用以透过搜寻网站对所述搜寻条件进行搜寻。记录单元124耦接于语音辨识单元121，用以录制第一音频，其中记录单元124例如为硬盘。

    举例来说，当讲师于教室上课时，语音接收单元110会接收讲师上课时的音频，由于教室内会有其它的学员，语音接收单元110也会接收至其它学员讲话的音频。在语音接收单元110接收到这些音频后，会传送到语音辨识单元121，语音辨识单元121会分辨这些音频中那些是由讲师所发出的，亦即锁定音频中的特定频率。而此特定频率的锁定方式可以经由使用者对键盘上的按键(例如为Enter键)按压，以通知语音辨识单元121锁定按压时，语音接收单元110所接收到音频的频率，或者经由语音辨识单元121分析最常出现的音频的频率作为此特定频率。

    在锁定讲师音频的特定频率后(以下讲师的音频简称为第一音频)，此第一音频会被记录单元110录制下来。而语音接收单元110会不断的接收这些音频，且语音辨识单元121会不断撷取第一音频，以及记录单元110会不断录制第一音频。在第一音频录制的过程中，语音辨识单元121会分析第一音频是否出现关键特征，来分辨讲师是否开始提问。由于讲师提问可能会先说“请问”等前置的词汇，或者提高语气，所以此关键特征可以为第一音频语气提高(亦即第一音频的振幅大于默认值)或者第一音频传递提问的前置词汇(亦即关键词)。以关键特征为第一音频的振幅大于默认值来说，其默认值可以经由语音辨识单元121量测讲师在上课时的语气的最高值来设定。而以关键特征为第一音频传递关键词来说，此关键词可以为“请问”、“谁知道”、“说说看”、“谁可以告诉我”、“问你们”、“问一下”等提问的前置词汇。

    在关键特征出现之后，语音辨识单元121会将第一音频作实时输出，并维持一时间区间，将此时间区间内的第一音频作为讲师提问的音频数据。而此时间区间的时间长度可以经由对键盘130的操作来作设定(例如设定为20秒)；或者，使用者在讲师提问完则按下键盘130中的按键(例如为Esc键)来结束语音辨识单元121输出此第一音频(亦即控制时间区间的结束点)，同样可控制此时间区间的时间长度。在语音辨识单元121输出音频数据后，分析单元122会将音频数据转换为字符串数据(亦即将语音文件转换为文字文件)。由于问题中大多以名词及动词为查寻的重点，所以分析单元122会先删除不是名词及动词的文字(例如为介系词或主词)，以将名词及动词的字汇撷取出来。接着将撷取出来的这些字汇作不同的组合，而这些组合则会作为此问题的搜寻条件，并且搜寻条件会至少一个以上。

    在搜寻条件出来后，搜寻单元123会将这些搜寻条件输入到搜寻网站的文字对话框(input box)，以透过搜寻网站来进行搜寻，其中搜寻网站例如为奇摩知识或Google Search。而不同的搜寻条件可以利用不同的网页来显示，而显示的方式可以利用显示器或其它方式来显示给使用者参考，并且本实施例并不以此为限。在显示搜寻结果后，使者用就可以从中得知问题的答案为何，若使用者从这些搜寻结果找不到答案，可从文字对话框修改搜寻条件，并且作再一次的搜寻。由于使用者不用使用键盘来输入问题，所以使用者可以省力且快速的得到问题的搜寻结束，以间接或直接的得到问题的答案。

    而在其它的实施例中，音频数据可由记录单元124中撷取出来。同样参照图1，假设当讲师提问结束后，使用者会按压旔盘130上的按键(例如为F12键)，语音辨识单元121会从记录单元124撷取在按键被按压之前的时间区间(例如为30秒)内录制的第一音频作为音频数据。换言之，在F12键被按压之后，会撷取按压前30秒的第一音频的语音数据。更者，此时间区间可以依据记录单元124的容量而定，例如记录单元可以记录30秒音频数据的话，此时间区间就设定为30秒。

    除此之外，语音辨识单元121亦可在键盘130上按键被按压之后，实时输出第一音频，并且在键盘130上的按键再次被按压时，停止输出第一音频，而两次按压的时间区间内的第一音频亦即为音频数据，其中这两次按压的按键可以为同一按键或不同按键，只要能控制语音辨识单元121输出第一音频与否即可。而在音频数据撷取出来后，其处理的程序会如上述实施例的说明，在此则不作赘述。

    值得一提的是，语音辨识单元121、分析单元122及搜寻单元123可以利用软件或硬件的方式来实现，亦即可以将语音辨识单元121、分析单元122及搜寻单元123的功能编写为应用程序，或者利用写入芯片的方式来实现。并且，语音辨识单元121、分析单元122及搜寻单元123可以分别为硬件或软件，只要能完成上述实施例计算机装置100的动作，皆可视为本发明的一实施例。

    在另外的实施例中，上述实施例中的语音接收单元110、语音辨识单元121、分析单元122及搜寻单元123可整合为语音搜寻系统，以下再提一实施例来作说明。图2为根据本发明一实施例的语音搜寻系统的系统方块图。请参照图2，语音搜寻系统200包括语音接收单元201、语音辨识单元202、分析单元203、搜寻单元204、记录单元205及按键206。语音辨识单元202耦接语音接收单元201、分析单元203、记录单元205及按键206。搜寻单元204耦接分析单元203。其中，语音接收单元201、语音辨识单元202、分析单元203、搜寻单元204及记录单元205的功能可根据图1实施例中的相似部份的说明来实施，在此不作赘述。而按键206则可替代键盘130的部份功能，例如当按键206被按压时，会结束语音辨识单元202的输出，藉此来控制时间区间的时间长度；或者，在按键206被按压之后，语音辨识单元202会从记录单元205中撷取被按压之前一时间区间的第一音频，来作为音频数据。

    从另一观点来看，上述实施例可汇整为一语音搜寻方法。图3为根据本发明一实施例的语音搜寻方法的流程图。请参照图3，首先，在步骤S302中，会先录制具有特定频率的音频，其中此音频例如为讲师的音频。接着，如步骤S304所示，在音频出现关键特征时，会撷取关键特征出现后，在时间区间内的音频作为音频数据，其中此关键特征例如为音频用以传递关键词或音频的振幅大于默认值。接着，步骤S306会将音频数据转换成字符串数据。而步骤S308会撷取字符串数据中的多个字汇，并且步骤S310会利用这些字汇组成至少一搜寻条件，其中这些字汇例如为名词或动词的字汇。最后，步骤S312会利用所述搜寻条件进行数据搜寻。其中，此关键词以及默认值可参照上述实施例的说明，为了说明书的简洁，在此则不作赘述。藉此，使用者可透过搜寻所得的数据，间接或直接的得知问题的答案。

    以下可再提一实施例，以对图3实施例作进一步的说明。图4为根据本发明另一实施例的语音搜寻方法的流程图。请参照图3及图4，在本实施例中，首先步骤S402会锁定具有特定频率的音频，以避免录制到不需要的音频。接着，步骤S404会对此音频进行录制。如步骤S406所示，在音频用以传递关键词时，撷键字出现后，在时间区间内的音频作为音频数据。接着，步骤S408同样会将音频数据转换成字符串数据。而步骤S410会撷取字符串数据中为名词和动词的多个字汇，并且步骤S412会利用这些字汇组成至少一搜寻条件。然后，在步骤S414中，会先连结至搜寻网站，而步骤S416会透过搜寻网站对所述搜寻条件进行搜寻。最后，步骤S418会显示搜寻结果。其中，所述搜寻网站以及显示搜寻结果的方式可参照上述实施例的说明，在此则不作赘述。

    由于关键特征的不同，图3实施例可再延伸出一实施例。图5为根据本发明再一实施例的语音搜寻方法的流程图。请参照图4及图5，其最大的不同在于步骤S502，在音频的振幅大于默认值时，撷取此后在时间区间内的音频作为音频数据。而本实施例中的其它步骤可参照图4实施例中相似部份的说明来完成，在此则不作赘述。

    综上所述，上述实施例的计算机装置、语音搜寻系统及其方法，会将具有特定频率的音频录制下来，并且输出在一时间区间内的音频作为音频数据，接着音频数据会转换为字符串数据，以便撷取在字符串数据中为名词及动词的多个字汇，同时利用这些字汇组成至少一搜寻条件，以及透过搜寻网站来对所述的搜寻条件进行数据搜寻。藉此，可将语音状态的问题转换为文字文件，并且不经由键盘来输入问题，以及可直接透过搜寻网站来找寻与此问题相关的数据，以间接或直接的得到答案。

    以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的结构及技术内容作出些许的更动或修饰为等同变化的等效实施例，但是凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。