基于音频搜索条件的搜索系统和搜索方法.pdf

摘要
申请专利号：	CN200780031603.6	申请日：	2007.02.16
公开号：	CN101506808A	公开日：	2009.08.12
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20090812\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	索尼爱立信移动通讯有限公司
发明人：	L·斯科特·布勒鲍姆; 马克·G·考克斯
地址：	瑞典隆德
优先权：	2006.8.31 US 11/468,845; 2007.1.17 US 11/623,876
专利代理机构：	北京三友知识产权代理有限公司	代理人：	黄纶伟
PDF下载：	PDF下载

内容摘要

一种进行搜索的方法，该方法包括对音频内容中用户所选择的一段进行标记从而限定音频片段，该用户所选择的一段包括搜索条件。从音频内容捕获音频片段并将该音频片段发送到搜索支持功能(54)以基于来自音频片段的搜索条件进行搜索。

权利要求书

1、  一种进行搜索的方法，该方法包括以下步骤：
标记步骤，对音频内容中用户所选择的一段进行标记以限定音频片段，该用户所选择的一段包括搜索条件；
捕获步骤，从所述音频内容中捕获所述音频片段；以及
发送步骤，将所述音频片段发送到搜索支持功能(54)以基于来自所述音频片段的所述搜索条件进行搜索。

2、  根据权利要求1所述的方法，其中所述搜索支持功能远离捕获所述音频片段的本地装置。

3、  根据权利要求1-2中任一项权利要求所述的方法，其中该方法还包括从所述搜索支持功能接收搜索结果的步骤。

4、  根据权利要求1-3中任一项权利要求所述的方法，其中处理所述音频片段以提取所述搜索条件。

5、  根据权利要求4所述的方法，其中所述处理包括语音识别。

6、  根据权利要求4所述的方法，其中所述搜索支持功能利用所提取的搜索条件来执行互联网搜索或数据库搜索。

7、  根据权利要求1-6中任一项权利要求所述的方法，其中由移动无线电终端来执行所述标记步骤和所述捕获步骤。

8、  根据权利要求1所述的方法，其中响应于用户输入，向所述用户播放所述音频内容并且重复所述音频内容以便于进行所述标记步骤。

9、  一种电子设备(10)，该电子设备(10)包括：
音频处理电路(28)，其向用户回放音频内容；以及
处理装置(22)，其执行逻辑以进行搜索，该逻辑包括执行以下步骤的代码：
对音频内容中用户所选择的一段进行标记以限定音频片段，该用户所选择的一段包括搜索条件；
从所述音频内容中捕获所述音频片段；以及
将所述音频片段发送到搜索支持功能以基于来自所述音频片段的所述搜索条件进行搜索。

10、  一种处理声音信号以准备对该声音信号的一部分进行基于音频的搜索的方法，该声音信号的一部分具有初始的开始点和初始的结束点，该方法包括以下步骤：
标识与所述声音信号的所述一部分有关系的语音特征；以及
调整所述初始的开始点和所述初始的结束点中的至少一个，使得所述声音信号的所述一部分包括至少部分地出现在所述初始的开始点之前或至少部分地出现在所述初始的结束点之后的语音特征。

11、  根据权利要求10所述的方法，其中所述语音特征是音素。

12、  根据权利要求10-11中任一项权利要求所述的方法，其中所述声音信号中调整后的所述一部分表示用于搜索的搜索条件。

13、  根据权利要求10-12中任一项权利要求所述的方法，其中所述初始的开始点和所述初始的结束点对应于所述声音信号中用户所选择的对口述搜索条件进行标记的点。

14、  根据权利要求10-13中任一项权利要求所述的方法，该方法还包括用窗函数对所述声音信号中调整后的所述一部分进行加窗的步骤。

15、  根据权利要求10-14中任一项权利要求所述的方法，该方法还包括对所述声音信号中调整后的所述一部分进行编码以将其传输到用于执行搜索的远程服务器。

16、  根据权利要求13所述的方法，该方法还包括基于所述口述搜索条件进行搜索的步骤。

17、  根据权利要求10所述的方法，该方法还包括对所述声音信号中调整后的所述一部分进行语音识别的步骤。

18、  根据权利要求10-17中任一项权利要求所述的方法，该方法还包括以下步骤中的至少一个步骤：
调整所述初始的开始点以从所述声音信号的所述一部分中去除在所述声音信号的所述一部分的第一语音特征之前出现的非语音声音，或者
调整所述初始的结束点以从所述声音信号的所述一部分中去除在所述声音信号的所述一部分的最后语音特征之后出现的非语音声音。

19、  一种处理声音信号以准备对所述声音信号的一部分进行基于音频的搜索的方法，其中所述声音信号的一部分具有初始的开始点和初始的结束点，该方法包括以下步骤：
标识与所述声音信号的所述一部分有关系的语音特征；以及
调整所述初始的开始点或所述初始的结束点中的至少一个，其中调整所述初始的开始点以从所述声音信号的所述一部分中去除在所述声音信号的所述一部分的第一语音特征之前出现的非语音声音，而调整所述初始的结束点以从所述声音信号的所述一部分中去除在所述声音信号的所述一部分的最后语音特征之后出现的非语音声音。

说明书

基于音频搜索条件的搜索系统和搜索方法
技术领域
本发明总体上涉及基于一段音频信息来对内容进行搜索。更具体而言，本发明涉及基于用户从视听内容中选择的音频片段来指定搜索条件的搜索系统和搜索方法。
背景技术
移动和/或无线电子设备正变得越来越普及。例如，移动电话、便携式媒体播放器以及便携式游戏设备现正被广泛使用。此外，与特定类型的电子设备相关的功能特征已经变得越来越多样化。举几个例子，很多电子设备具有相机、文本消息功能、互联网浏览功能、电子邮件功能、视频回放功能、音频回放功能、图像显示功能以及免提耳机接口。
移动电话和其它移动装置可以用来对内容进行搜索。例如，使用无线应用协议(WAP：wireless application protocol)互联网浏览器或完全超文本标记语言(HTML：hypertext markup language)互联网浏览器，用户可以键入字母数字字符来编写要由搜索引擎进行搜索的基于文本的查询。传统地，有兴趣进行搜索的移动装置用户遵循于模仿与个人计算机相关的搜索策略的方法。例如，用户将文本输入搜索引擎web站点，例如目前流行的由Google(谷歌)和Yahoo(雅虎)提供的网站。
由于移动设备的用户接口有限，通常基于文本的搜索策略难以用于移动设备。多数移动设备不具有完整的字母数字键盘或具有键非常小的字母数字键盘。基于文本的搜索的一个替代是基于话音的搜索。例如，Promptu(Menlo Park，California)和V-Enable(San Diego，California)提供了一种用户对着移动设备的麦克风讲话并且移动电话捕获所说的话语(例如，所说的短语)作为所需搜索条件的搜索业务。捕获到的音频数据被发送到远程服务器，该远程服务器使用语音识别引擎将音频数据转换为文本。或者，音频数据可以被转换为音频数据的另一个域或表示(例如，基于值的表示或语法表示)。服务器接着根据转换后的音频数据对数据库或其它集合执行搜索，并且将搜索结果列表返回该移动设备。
当前可用的基于语音的搜索服务需要用户以一种可以由搜索服务的语音识别引擎可靠地处理的方式来讲话。这对于用户可能是不方便的(例如，在用户不能提高他或她的话音的图书馆内)或者在噪音可能破坏所捕获的音频数据的一些环境中(例如，在公共场所，例如交通中心或用户的车中)也是不可行的。
发明内容
为了提高用户对内容的搜索能力，在本领域中存在对增强的搜索机制的需要，该机制包括允许用户方便地将已有的基于音频的内容(例如，所存储的视听文件和流视听内容)的一部分转换为对期望内容的搜索查询的方法和系统。
根据本发明的一个方面，提供了一种进行搜索的方法，该方法包括以下步骤：标记步骤：对音频内容中用户所选择的一段进行标记以限定音频片段，该用户所选择的一段包括搜索条件；捕获步骤，从音频内容中捕获音频片段；以及发送步骤，将所述音频片段发送到搜索支持功能以基于来自音频片段的搜索条件进行搜索。
在该方法的一实施方式中，搜索支持功能远离捕获音频片段的本地电子设备。
在一实施方式中，该方法还包括从搜索支持功能接收搜索结果。
在该方法的一实施方式中，搜索支持功能对音频片段进行语音识别以提取搜索条件。
在该方法的一实施方式中，搜索支持功能利用提取出的搜索条件来执行互联网搜索或数据库搜索。
在该方法的一实施方式中，发送步骤包括将音频片段传输到主持搜索支持功能的服务器的步骤。
在该方法的一实施方式中，由移动无线电终端来执行标记和捕获的步骤。
在该方法的一实施方式中，移动无线电终端存储音频内容。
在该方法的一实施方式中，音频内容以流传输的方式传输到移动无线电终端。
在该方法的一实施方式中，响应于用户的输入，向用户播放音频内容并重复该音频内容以便于进行标记。
在该方法的一实施方式中，标记步骤基于命令输入，该命令输入基于用户行为。
在该方法的一实施方式中，命令输入基于用户按下了按钮。
根据本发明的另一方面，提供了一种存储在机器可读介质上以进行搜索的程序，该程序包括以下可执行逻辑：对音频内容中用户所选择的部分进行标记以限定音频片段，该用户所选择的一段包括搜索条件；从音频内容捕获音频片段；并且将该音频片段发送到搜索支持功能以基于来自该音频片段的搜索条件进行搜索。
在该程序的一实施方式中，搜索支持功能远离捕获音频片段的本地电子设备。
在该程序的一实施方式中，处理音频片段以提取搜索条件并且搜索支持功能利用提取出的搜索条件来执行互联网搜索或数据库搜索。
在该程序的一实施方式中，由回放来自本地存储的源或来自流传输源的音频内容的移动无线电终端来执行该可执行逻辑。
根据本发明的另一个方面，提供了一种电子设备，该电子设备包括：音频处理电路，其用于向用户回放音频内容；和处理装置，该处理装置执行逻辑以进行搜索，该逻辑包括执行以下步骤的代码：对音频内容中用户所选择的一段进行标记以限定音频片段，该用户所选择的一段包括搜索条件；从音频内容捕获该音频片段；并且将该音频片段发送到搜索支持功能以基于来自该音频片段的搜索条件进行搜索。
在该电子设备的一实施方式中，该电子设备是移动无线电终端并且该电子设备还包括无线电电路以与通信网络建立通信。
在该电子设备的一实施方式中，搜索支持功能远离该电子设备。
在该电子设备的一实施方式中，处理音频片段以提取搜索条件并且搜索支持功能利用提取出的搜索条件来执行互联网搜索或数据库搜索。
根据本发明的另一个方面，提供了一种处理声音信号以准备对该声音信号的一部分进行基于音频的搜索的方法，其中该声音信号具有初始的开始点和初始的结束点。该方法包括以下步骤：标识与该声音信号的一部分有关系的语音特征；并且调整初始的开始点和初始的结束点中的至少一个，使得该声音信号的一部分包括至少部分地出现在初始的开始点之前或至少部分地出现在初始的结束点之后的语音特征。
根据该方法的一实施方式，利用语音激活检测(voice activitydetection)来执行标识语音特征的步骤。
根据该方法的一实施方式，语音特征是音素。
根据该方法的一实施方式，由客户端设备来执行标识语音特征的步骤和调整初始的开始点和初始的结束点中的至少一个的步骤，并且调整后的声音信号传输到用于执行搜索的远程服务器。
根据该方法的一实施方式，客户端设备是移动电话。
根据该方法的一实施方式，声音信号中调整后的一部分表示用于搜索的搜索条件。
根据该方法的一实施方式，初始的开始点和初始的结束点对应于语音信号中用户所选择的对口述搜索条件进行标记的点。
根据一实施方式，该方法还包括用窗函数对声音信号中调整后的一部分进行加窗的步骤。
根据一实施方式，该方法还包括对声音信号中调整后的一部分进行编码以将其传输到用于执行搜索的远程服务器的步骤。
根据一实施方式，该方法还包括基于口述搜索条件进行搜索的步骤。
根据一实施方式，该方法还包括对声音信号中调整后的一部分进行语音识别的步骤。
根据一实施方式，该方法还包括以下步骤中的至少一个步骤：调整初始的开始点以从声音信号的一部分中去除在该声音信号的一部分的第一语音特征之前出现的非语音声音；或调整初始的结束点以从声音信号的一部分中去除在该声音信号的一部分的最后语音特征之后出现的非语音声音。
根据一实施方式，该方法还包括以下步骤：对滚动音频样本进行缓存，并且在调整前将缓存器的内容加到声音信号中由初始的开始点和初始的结束点所限定的一部分之前。
根据一实施方式，该方法还包括以下步骤：对初始的结束点之后的音频样本进行缓存，并且在调整前将缓存器的内容加到声音信号中由初始的开始点和初始的结束点所限定的一部分之后。
根据本发明的另一个方面，提供了一种处理声音信号以准备对该声音信号的一部分进行基于音频的搜索的方法，其中该声音信号的一部分具有初始的开始点和初始的结束点，该方法包括以下步骤：标识与该声音信号的一部分有关系的语音特征；并且调整初始的开始点或初始的结束点中的至少一个，其中调整初始的开始点以从声音信号的一部分中去除在该声音信号的一部分的第一语音特征之前出现的非语音声音，而调整初始的结束点以从声音信号的一部分中去除在该声音信号的一部分的最后语音特征之后出现的非语音声音。
根据该方法的一实施方式，由客户端设备来执行标识语音特征的步骤和调整初始的开始点和初始的结束点中至少一个的步骤，并且调整后的声音信号发送到用于执行搜索的远程服务器。
根据该方法的一实施方式，声音信号中调整后的一部分表示用于搜索的搜索条件。
根据该方法的一实施方式，初始的开始点和初始的结束点对应于语音信号中用户所选择的对口述搜索条件进行标记的点。
根据一实施方式，该方法还包括用窗函数对声音信号中调整后的一部分进行加窗的步骤。
根据该方法的一实施方式，该方法还包括对声音信号中调整后的一部分进行编码以将其传输到用于执行搜索的远程服务器的步骤。
根据一实施方式，该方法还包括基于口述搜索条件进行搜索的步骤。
根据一实施方式，该方法还包括对声音信号中调整后的一部分进行语音识别的步骤。
参照以下描述和附图，本发明的这些特征和其它特征将变得明显。在说明书和附图中，已经详细地公开了本发明的特定实施方式，其表明了一些可以采用本发明的原理的方式，但是应理解的是，本发明的范围并不因此而受到限制。相反，本发明包括了落入所附权利要求书的精神和范围内的所有变化、修改以及等同。
针对一种实施方式而描述和/或说明的特征可以以相同或相似的方式用于一个或更多个其它实施方式，和/或与其它实施方式的特征组合使用或替代其它实施方式的特征。
应该强调的是术语“包含/包括”在本说明书中是用于指出所阐述的特征、整体、步骤或部件的存在，但是其不排除存在或增加一个或更多个其它的特征、整体、步骤、部件或它们的组合。
附图说明
图1是作为根据本发明的实施方式的示例性电子设备的移动电话的示意图；
图2是根据本发明的实施方式的图1中的移动电话的相关部分的示意性框图；
图3是图1中的移动电话工作的通信系统的示意图；
图4是表示由图1中的移动电话来进行基于音频搜索条件的搜索的示例性方法的流程图；
图5是表示由从图1中的移动电话接收音频搜索条件的服务器来进行基于音频搜索条件的搜索的示例性方法的流程图；
图6是根据本发明的实施方式处理的典型的声音信号的图；和
图7是表示处理声音信号以生成作为音频搜索条件的音频片段的示例性方法的流程图。
具体实施方式
现在将参照附图来描述本发明，其中从始至终以相似的标号来表示相似的部件。应该理解的是，附图不是必需按比例绘制的。
可替换的术语“电子装置”和“电子设备”包括便携式无线电通信设备。下文中被称为“移动无线电终端”的术语“便携式无线电通信设备”包括例如移动电话、寻呼机、通信机、电子记事簿、个人数字助理(PDA)、智能电话、便携式通信装置等所有设备。
在本申请中，主要以移动电话为背景来描述本发明。然而，应理解的是本发明并不是意欲于限于移动电话，而能够是任何类型的适当的电子设备，其示例包括媒体播放器、游戏装置和计算机。
首先参照图1和图2，示出了电子设备10。电子设备10包括音频片段搜索功能12，其被配置为与视听内容交互以生成包含搜索条件的音频片段(例如，一段音频数据)。下面将更加详细地描述音频片段搜索功能12的附加细节和操作。可以以驻留在电子设备10中并由电子设备10来执行的可执行代码的方式来具体地实施音频片段搜索功能12。在一实施方式中，音频片段搜索功能12可以是存储在计算机或机器可读介质上的程序。音频片段搜索功能12可以是独立的软件应用程序或者构成执行与电子设备10相关的附加任务的软件应用程序的一部分。
所示实施方式的电子设备是移动电话并且将被称为移动电话10。移动电话10被示为具有“砖状”或“块状”样式的壳体，但是应该理解的是，可以使用例如翻盖式壳体或滑盖式壳体的其它类型的壳体。
移动电话10可以包括显示器14。显示器14向用户显示例如工作状态、时间、电话号码、联系信息、各种导航菜单等的信息，使得用户能够利用移动电话10的各种功能。显示器14还可以用于可视地显示由移动电话10接收的内容和/或从移动电话10的存储器16取出的内容。显示器14可以用于向用户呈现图像、视频和其它图形，例如照片、移动电视内容和与游戏相关的视频。
键盘18提供了各种用户输入操作。例如，键盘18一般包括字母数字键，其允许输入例如电话号码、电话列表、联系信息、笔记等的字母数字信息。此外，键盘18一般包括专用功能键，例如用于发起或应答呼叫的“呼叫发送”键和用于结束或“挂断”呼叫的“呼叫结束”键。和常规一样，专用功能键还可以包括菜单导航和选择键，例如，用于在显示器16上显示的菜单中进行导航以选择不同的电话功能、简档、设置等。专用功能键可以包括视听内容回放键以开始、停止和暂停回放，跳过或重复曲目等。与移动电话相关的其它键可以包括音量键、静音键、电源开/关键、web浏览器启动键、相机键等。键或类似键的功能还可以实施为与显示器14相关联的触摸屏。
移动电话10包括呼叫电路，使得移动电话10能够与被叫/主叫设备(通常为另一部移动电话或固定电话)建立呼叫和/或交换信号。然而，被叫/主叫设备并不一定是另一电话，而可以是例如互联网web服务器、内容提供服务器等的一些其它设备。呼叫可以采取任何适当的形式。例如，呼叫能够是建立在蜂窝电路交换网络(cellular circuit-switchednetwork)上的传统呼叫，或者是建立在蜂窝网络的分组交换功能上或其它分组交换网络(例如，WiFi，WiMax等)上的基于互联网协议的话音(VoIP：voice over Internet Protocol)呼叫。另一个示例包括建立在蜂窝网络或其它网络上的视频呼叫(video-enabled call)。
移动电话10可以被配置为发送、接收和/或处理数据，例如文本消信(例如，一些人通俗地称其为“SMS”)、电子邮件消息、多媒体消息(例如，一些人通俗地称其为“MMS”)、图像文件、视频文件、音频文件、铃声、流音频、流视频、数据种子(data feed)(包括播客(podcast))等。对这些数据的处理可以包括将数据存储在存储器16中、执行应用程序以允许用户与数据交互、显示与数据相关联的视频内容和/或图像内容、输出与数据相关联的音频声音等。
图2示出了移动电话10的功能框图。为了简洁起见，这里将不再详细描述移动电话10的一般常规特征。移动电话10包括主控制电路20，其被配置为执行对移动电话10的功能和操作的总体控制。控制电路20可以包括例如CPU、微控制器或微处理器的处理装置22。处理装置22执行存储在控制电路20中的存储器(未示出)中和/或单独的存储器(例如存储器16)中的代码，以实施移动电话10的操作。存储器16可以是例如一个或更多个缓存器、闪速存储器、硬盘驱动器、可移除介质、易失性存储器、非易失性存储器或其它适当的装置。
此外，处理装置22可以执行实现音频片段搜索功能12的代码。对于计算机编程领域中的普通技术人员来说，尤其是对移动电话或其它电子设备应用程序编程领域中的普通技术人员来说，如何给移动电话10编程使其工作并实施与音频片段搜索功能12相关联的逻辑功能是显然的。因此，为了简洁起见，省去了关于具体编程代码的细节。另外，虽然根据本发明的优选实施方式由处理装置22执行音频片段搜索功能12，但是，在不脱离本发明范围的情况下，该功能还可以通过专用硬件、固件、软件、或它们的组合来实现。
继续参照图1和图2，移动电话10包括耦接到无线电电路26的天线24。和常规一样，无线电电路26包括用于经天线24发送和接收信号的射频发射器和射频接收器。无线电电路26可以被配置为在移动通信系统中工作并且可以用于发送和接收数据和/或视听内容。用于与移动无线电网络和/或广播网络进行交互的接收器类型包括但并不限于GSM、CDMA、WCDMA、GPRS、MBMS、WiFi、WiMax、DVB-H、ISDB-T等，以及这些标准的高级版本。
移动电话10还包括声音信号处理电路28，该声音信号处理电路28用于处理由无线电电路26所发送的音频信号和从无线电电路26接收的音频信号。和常规一样，耦接到声音处理电路28的是能够使用户通过移动电话10进行收听和讲话的扬声器30和麦克风32。无线电电路26和声音处理电路28各自耦接到控制电路20，从而执行总体操作。音频数据可以从控制电路20传递到声音信号处理电路28以回放给用户。音频数据可以包括例如来自存储在存储器18中并由控制电路22取出的音频文件的音频数据、或例如从移动无线电业务以流音频数据形式接收到的音频数据。声音处理电路28可以包括任何适当的缓存器、解码器、放大器等。
显示器14可以通过视频处理电路34耦接到控制电路20，视频处理电路34将视频数据转换为用于驱动显示器14的视频信号。视频处理电路34可以包括任何适当的缓存器、解码器、视频数据处理器等。视频数据可以是由控制电路20生成的，从存储在存储器16中的视频文件取出的，从无线电电路28接收的输入视频数据流导出的，或是通过任何其它适当的方法获得的。
移动电话10还包括一个或更多个I/O接口36。I/O接口36可以是通常移动电话的I/O接口的形式，并且可以包括一个或更多个电连接器。和通常一样，I/O接口36可以用于将移动电话10耦接到电池充电器，以对移动电话10内的电源单元(PSU)38的电池进行充电。此外，或者另选的，I/O接口36可以用于将移动电话10连接到具有与移动电话10的有线接口的耳机组件(例如，个人免提(PHF)设备)。另外，I/O接口36可以用于经由数据电缆将移动电话10连接到个人计算机或其它设备以进行数据交换。在连接到车载电源适配器或电插座电源适配器时，移动电话10可以经由I/O接口36接收工作电源。
移动电话10可以还包括执行计时功能的计时器40。这种计时功能可以包括对呼叫的持续时间进行计时、生成时间和日期戳的内容等。移动电话10可以包括拍摄数字照片和/或运动图像的相机42。可以把与照片和/或运动图像相对应的图像和/或视频文件存储在存储器16中。移动电话10还可以包括位置数据接收器44，例如全球定位系统(GPS)接收器、伽利略(Galileo)卫星系统接收器等。
移动电话10还可以包括本地无线接口46，例如红外收发器和/或RF适配器(例如，蓝牙适配器)，用于与附件、其它移动无线电终端、计算机或其它设备建立通信。例如，在耳机组件具有相应的无线接口的实施方式中，本地无线接口46可以将移动电话10耦接到耳机组件(例如，PHF设备)。
参照图3，移动电话10可以配置为作为通信系统48的一部分而工作。该系统48可以包括具有服务器52(或多个服务器)的通信网络50，该服务器52管理由移动电话10发起的呼叫和目的地为移动电话10的呼叫，向移动电话10发送数据并且执行其它支持功能。服务器52经由传输媒介与移动电话10进行通信。传输媒介可以是任何适当的装置或组件，包括例如通信塔(例如，小区塔)、另一移动电话、无线接入点、卫星等。网络的一部分可以包括无线传输路径。网络50可以支持多个移动电话10和其它类型的终端用户设备的通信活动。
应理解的是，服务器52可以被配置为用于实施服务器功能的普通计算机系统，并且可以包括被配置为执行包含了具体实施服务器52的功能的逻辑指令的软件的处理器。在一实施方式中，服务器存储并执行具体实施音频片段搜索支持功能54的逻辑指令。音频片段搜索支持功能54可以被配置为处理由音频片段搜索功能12生成的音频片段并且向移动电话10返回相应的搜索结果。下面将详细地描述音频片段搜索支持功能54的附加细节和操作。音频片段搜索支持功能54可以具体实施为驻留在服务器52内并由服务器52执行的可执行代码。在一实施方式中，音频片段搜索支持功能54可以是存储在计算机或机器可读介质上的程序。音频片段搜索支持功能54可以是独立的软件应用程序或者构成执行与服务器54的操作相关的附加任务的软件应用程序的一部分。
参照图4，所示出的是由移动电话10在执行音频片段搜索功能12时所进行的逻辑操作。图4的流程图可以看作是示出了由移动电话10执行的方法的步骤。尽管图4示出了执行功能性逻辑块的特定顺序，但是可以相对于示出的顺序改变这些块的执行顺序。而且，可以并发地或部分并发地执行所连续示出的两个或更多个块。还可以省略特定的块。此外，为了增强应用性、计费、性能、测量、故障判断等目的，可以向该逻辑流程增加任意数量的命令、状态变量、信号量或消息。应该理解，所有这些变型都在本发明的范围之内。
音频片段搜索功能12的逻辑流程可以从向用户播放音频内容的块56开始。音频内容可以从例如存储的文件、播客、真正简单整合(RSS：really simple syndication)种子、流业务(例如，移动无线电)等的任何适用源导出。应理解的是，可以由移动电话存储音频内容或由移动电话接收音频内容，以供立即回放。优选的是，用户具有控制音频内容的流动的能力(例如，停止和/或暂停、倒回和恢复回放的能力)。因此，在一实施方式中，音频内容是来自非广播源。在另一实施方式中，来自广播源的音频数据进行缓存、存储或转换，以与音频片段搜索功能12一同使用。
音频内容可以从仅具有音频分量的源或从具有多媒体内容的源(例如具有音频和视频分量的视听源)来导出。在回放期间，音频内容可以转换为可听到的声音，该声音通过扬声器30或与移动电话10接口的耳机(未示出)的扬声器输出给用户。
随着音频内容的回放，用户可以听到短语(例如，单词或一组单词)，用户可能需要更多关于该短语的信息。用户感兴趣的短语可以出现在新闻报道中、歌曲中、播音员(例如流行音乐节目主持人(DJ))的播音中、商业广告中、演讲录音中等。例如，播放的音频内容可以包含地点、人名、法人实体、歌名、艺术家、书籍、历史事件、医疗术语或其它项目。用户可能有兴趣找到更多关于与该播放的短语相关的项目的信息。
如所指出的，音频片段搜索功能12可以用于生成包含用于互联网或数据库搜索的搜索条件的音频片段。下面描述的逻辑功能阐述了从在块56中回放的音频内容生成这种音频片段的示例性方法。
转到块58，当用户听到了可以作为搜索基础的感兴趣的短语时，用户可以指示将音频回放到音频内容中感兴趣的短语之前的点。指示音频内容的步骤可涉及例如暂停音频回放并且将回放倒回。在一实施方式中，用户输入(例如，按下键盘18中的按键或选择菜单选项)可以用于回跳预定时间量的音频内容，例如大约一秒到大约十秒的音频内容。在音频内容是以流传输方式传输到移动电话10的情况下，可以利用例如实时流协议(RTSP：realtime stream protocol)来控制音频内容的回放以允许用户暂停、倒回和恢复流音频内容的回放。
可以恢复回放，因而可以向用户重放该短语。在该重放短语期间，可以在块60和62中对短语进行标记从而标识音频内容中用作音频片段的部分。例如，以按下键盘18中的按键的形式进行的用户输入可以用作标记片段开始的命令输入，而第二次按下按键可以用作标记片段结束的命令输入。在另一实施方式中，按下了按钮可以用作标记片段开始的命令输入，而松开按钮可以用作标记片段结束的命令输入，从而该片段对应于在按下按钮期间所播放的音频内容。在另一实施方式中，用户话音命令或任何其它适当的用户输入动作可以作为标记所期望的音频片段的开始和结束的命令。
在一实施方式中，片段开始的标记可以偏离相应用户输入的时刻以适应回放和用户动作之间的滞后。例如，开始标记可以相对于音频内容定位在内容中当接收到标记片段开始的用户输入时的点之前大约半秒到大约一秒。类似地，片段结束的标记可以偏离相应用户输入的时刻以帮助在开始标记和结束标记之间定位完整的短语，由此来适应过早的用户动作。例如，结束标记可以相对于音频内容定位在内容中当接收到标记片段结束的用户输入时的点之后大约半秒到大约一秒。
一旦已经标记了片段的开始点和结束点，在块64中可以对片段进行捕获。例如，对开始标记和结束标记之间的音频内容部分进行提取、摘录、采样或复制以生成音频片段。在一些实施方式中，可以以音频文件的形式来存储音频片段。
可以向用户回放所捕获的音频片段，使得用户可以确认所捕获的内容对应于属于用户需要更多信息或需要取出相关文件的短语的可听声音。如果音频片段不包含所期望的短语，则用户可以命令音频片段搜索功能12重复步骤58至64以生成包含所期望的短语的新音频片段。
在一些实施方式中，可以给予用户编辑音频片段的机会。例如，可以向用户提供标记音频片段的一部分和去除所标记部分的选项，这可以在更感兴趣的搜索项之间存在额外单词时改善搜索结果。在另一示例中，可以向用户提供合并两个或更多音频片段的选项。在另一示例中，可以向用户提供向音频片段添加用户所说的一个或更多个单词的选项。
另外，音频片段搜索功能12可以配置为处理音频片段。例如，可以处理音频片段以为语音识别处理和/或搜索作准备。该处理可以包括过滤、音频处理(例如，数字信号处理)或提取、进行初步或完全语音识别功能等。因而，所捕获的音频片段可以包含未处理的音频数据，部分处理后的音频数据或完全处理后的音频数据。
在块66中，所捕获的音频片段可以发送到服务器52中。可以利用任何适当的方法来实现音频片段的发送，例如利用文件传输技术将音频片段封装为MMS的一部分、将音频片段封装为呼叫的一部分、或基于例如互联网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、实时协议(RTP)等的协议将音频片段封装为交互式通信会话的一部分。
至此所描述的处理的示例性变型可以包括将音频标记功能(例如，块60和62)配置为在倒回音频内容时自动开始。所标记的音频可以在音频内容中倒回动作所到达的点开始。此外，一些实施方式可以以这样的方式来操作，即，标记音频片段的结束(块62)将启动由移动电话10执行的音频片段的任意处理并且将启动向服务器52发送音频片段。或者，标记音频片段的结束可以生成消息(例如，图形用户接口)，该消息提示用户选择例如发送、编辑或收听所捕获的音频片段的选项。
参照图5，所示出的是服务器52在实现音频片段搜索支持功能54时执行的逻辑操作。图5的流程图可以视为是示出了服务器52实施的方法的步骤。尽管图5示出了执行功能逻辑块的特定顺序，但是可以相对于示出的顺序改变这些块的执行顺序。而且，可以并发地或部分并发地执行所连续示出的两个或更多个块。还可以省略特定的块。此外，为了增强应用性、计费、性能、测量、故障判断等的目的，可以向该逻辑流程增加任意数量的命令、状态变量、信号量或消息。应该理解，所有这些变型都在本发明的范围之内。
音频片段搜索支持功能54的逻辑流程可以从块68开始，在块68中服务器52接收移动电话10在块66所发送的音频片段。如所指出的，所发送的音频片段可以包含未处理的音频数据、部分处理后的音频数据或完全处理后的音频数据。因此，可以由移动电话10来执行一些或全部步骤以将所标记的音频片段处理成音频片段搜索支持功能54的搜索功能可用的形式。
接下来，在块70，可以利用语音识别引擎将音频片段转换为可以由搜索引擎遵循的搜索条件(如果移动电话10还没有完成该步骤)。例如，语音识别引擎可以利用语音-文本转换处理将音频片段转换为文本。或者，语音识别引擎可以尝试从音频片段中提取在“词汇”集方面有意义的模式或特征。在该实施方式中，转换后的音频片段具有可以与可搜索信息的集合匹配的特征。例如，可以把音频数据转换为音频数据的另外的域或表示。语音识别软件正在不断地改进，本领域技术人员将会知道合适的转换引擎。语音识别引擎可以形成为音频片段搜索支持功能54的一部分或者可以是与音频片段搜索支持功能54交互的单独软件应用程序。
一旦音频片段已经转换为搜索条件，音频片段搜索支持功能54可以使用转换后的音频片段利用搜索引擎来进行搜索。在音频片段转换为文本的情况下，搜索引擎可以使用形成该文本的一部分的词或更多个词。可以解析该文本以标识关键词作为搜索条件，或者转换后的文本中的各个词可以用在搜索字符串中。搜索引擎可以形成为音频片段搜索支持功能54的一部分或者可以是与音频片段搜索支持功能54交互的单独软件应用程序。可以由与实现音频片段搜索支持功能54的服务器54不同的服务器来实现语音识别引擎和/或搜索引擎。
在一实施方式中，搜索引擎可以配置为利用从音频片段中导出的搜索条件来搜索互联网，从而标识用户感兴趣的互联网网页和/或网站。例如，可以在用于基于用户输入的文本项进行互联网搜索的服务器中实现搜索引擎，或者以网络50的域或互联网业务提供方(ISP)中所包含的其它功能部件来实现搜索引擎。在其它实施方式中，搜索引擎可以在特定数据库中搜索涉及搜索条件的内容和/或文件。搜索可以是内容的潜在源(例如，互联网或数据库)的全面搜索，或者是对特定类型内容的搜索。因此，可以由服务器52、作为网络50的一部分的另一个服务器、或者在网络50的域外部的服务器来实施搜索。在其它实施方式中，可以由移动电话10来实施搜索，在该情况下搜索支持功能可以驻留在移动电话10中。
搜索引擎可以配置为返回与搜索条件相匹配的全部或部分列表，和/或基于预期的相关性或其它排序技术(例如，Yahoo、Google或其它公共搜索引擎所采用的匹配排序方案)来对匹配进行排序。搜索所返回的匹配项的类型可取决于搜索条件的性质。搜索条件的性质可以利用数据库确定以使搜索条件与一个或更多分类相匹配(例如，歌曲、人物、地点、书籍、艺术家等)，或者搜索条件的性质可以基于搜索产生的内容匹配项的类型来确定(例如，匹配项的一致类型可以揭露搜索条件所属于的一个或多个分类)。作为一个示例，如果搜索条件涉及歌曲，所返回的匹配项可以是可获得该歌曲的音乐站点的链接，还可以是相关的下载(例如，铃声、艺术家墙纸等)的链接、也可以是该歌曲的艺术家的歌迷网站等的链接。作为另一个示例，如果搜索条件涉及书，则所返回的匹配项可以是可以购买到该书的书籍售卖方的链接，还可以是该书的评论的该链接、也可以是有关该书的博客等的链接。作为另一个示例，如果搜索条件涉及地点，则所返回的匹配项可以是具有关于该地点旅行博客、旅行预订业务、新闻报道网站等的链接。
在以使所获得的搜索条件是文本或元数据(metadata)的方式处理音频数据的实施方式中，搜索引擎可以以普通互联网和数据库搜索引擎所使用的方式来游历(scour)互联网或目标数据库。在以使所获得的搜索条件是提取的模式或特征(例如，与机器可用词汇相对应的值或音素)的方式处理音频数据的实施方式中，搜索引擎可以尝试使搜索条件与基准源(例如，互联网网页或数据库内容)相匹配，其中该基准源已经具有相对应的描述性元数据或者已转换为可以与搜索条件匹配的格式的内容。
一旦搜索引擎获得搜索结果，在块74，所返回的搜索结果可以发送到移动电话10。可以以适当的形式来发送结果，例如到站点的链接、到文件的链接等。可以使用任何适当的协议(例如WAP)来发送结果。
回到图4的流程图，在块76中，移动电话可以接收结果。其后，在块78中，可以向用户显示结果并且用户可以例如通过选择所显示的链接与搜索结果交互以取出网页或文件。
在一实施方式中，可以对音频片段进行格式化以供话音可扩展标记语言(VoiceXML)应用程序使用。例如，音频片段搜索支持功能54可以是或可以包括VoiceXML处理功能。VoiceXML是专为网络(例如互联网)上的话音应用程序而开发的标记语言。VoiceXML论坛是通过VoiceXML Specification 2.1将VoiceXML描述为音频接口的产业工作组，通过该音频接口用户可以与互联网内容交互，这与超文本标记语言(HTML)规定这些内容的视觉演示的方式相似。在这点上，VoiceXML包括针对诸如对话流、语法、呼叫传输和嵌入音频文件的任务的固有结构。
在一实施方式中，在块56中播放的视听内容的特定部分可以与元数据相关联，例如所说短语的文本标识。可以显示元数据并且用户可以直接选择元数据，作为用于搜索的搜索条件。或者，用户通过以块58至62的方式来标记音频内容可以间接地选择元数据。在该实施方式中，代替音频片段或除了音频片段之外，可以向服务器52发送元数据作为搜索条件，并且可以使用该元数据作为搜索字符串来执行随后的搜索。
上述的基于捕获音频片段的搜索方法可以应用于基于所捕获的视频片段的搜索。例如，用户可以标记一段视频或图像，并且相关的视频片段可以发送到服务器52以进行处理。图像识别软件可以用于从视频片段中提取搜索项，依据该搜索项来执行搜索。
在另一实施方式中，上述的搜索方法可以应用于基于所捕获的文本的搜索。例如，用户可以从文件、SMS、电子邮件消息等标记一段文本，并且相关的文本片段可以发送到服务器52以进行处理。文本片段可以直接作为搜索项，依据该搜索条件来执行搜索。
在这里所描述的用于进行搜索的技术向用户提供了标出(mark)已有音频内容、可视内容或文本中一段并且将该段提交给搜索引擎的能力，该搜索引擎根据内容中标记出的段执行搜索。如应理解的，标出的内容可以从已经存储在用户设备(例如，通过下载或文件传输)上的内容导出，或者从主动消费的内容(例如，从远程位置以流传输方式传输的内容)导出。以该方式，用户可以方便地通过从现有内容建立用于搜索的搜索条件来使对期望内容的搜索和现有内容关联起来。另外，搜索条件的生成不需要依赖于用户的话音输入或字母数字文本输入。
音频搜索条件的质量可以与搜索结果的质量有关系。例如，通过控制用作音频搜索条件的音频片段的结束点以减少背景噪声和非话音音频内容的存在、减少由捕获音频片段所引起的音频变调和/或瞬变的存在、并且减少由用户对音频流不适宜地加标记所引起的音素中切断的出现，可以改善搜索结果。
参照图6，示出了表示声音信号80的一部分的图。应理解的是，所示出的声音信号80是出于描述的目的而不是准确地反映任何实际的声音内容。该图描述了声音信号80的振幅和时间的对应关系。关于声音信号80所示的是由用户动作确定的音频片段的开始标记82的位置和由用户动作确定的音频片段的结束标记84的位置。标记82、84二者或其中一个可以“早”或“晚”于声音信号80中与用户感兴趣的单词或短语86的开始和结束相对应的点。在示例性说明中，用户的开始标记82相对于单词或短语86来说稍晚，而用户的结束标记84相对于单词或短语86来说稍早。应理解的是，在其它的情况下，取决于用户的反应速度和预见行为和/或电信号的延迟，用户的开始标记82可以早或“准时”，和/或用户的结束标记84可以晚或“准时”。
例如，通过用音频搜索功能12来处理，可以改善用户标记出的音频片段。代替在客户侧(例如，移动电话10)或除了在客户端之外进行处理，处理可以发生在服务器52侧。在一些实施方式中，可以期望的是使用本地的(native)音频内容来进行处理，因而可以处理与声音信号中标记出的一段(包括声音信号中落入标记82和84之间以及标记82和84之外的部分)相关联的最大可能量的音频信息，从而增强随后的搜索性能。因此，由于移动电话10可以访问这种音频信息，因此可以用移动电话10来方便地进行处理。或者，如果由服务器52来进行处理，可能需要将相关音频信息传输到用于处理的服务器52，该相关音频信息包括落在标记82和84之外的音频信息。
参照图7，所示出的是处理音频数据以生成将被用作搜索条件的音频片段的逻辑操作。该逻辑操作可以由移动电话10在执行音频片段搜索功能12时执行，或由服务器52在执行音频片段搜索支持功能54时执行。因此，图7的流程图可以视为是示出了移动电话10或服务器52所执行的方法的步骤。尽管图7示出了执行功能逻辑块的特定顺序，但是可以相对于示出的顺序改变执行这些块的顺序。而且，可以并发地或部分并发地执行所连续示出的两个或更多个块。还可以省略特定的块。此外，为了增强应用性、计费、性能、测量、故障判断等目的，可以向该逻辑流程增加任意数量的命令、状态变量、信号量或消息。应该理解，所有这些变型都在本发明的范围之内。
图7的流程图表示了处理声音信号以生成音频搜索条件的示例性方法。如果由移动电话10来执行该处理，则可以在与图4的块62和66相关的操作之间执行该处理。另外，该处理可以包括由块64执行的捕获片段的操作。因而，可以用该处理的逻辑操作来代替或补充块64。如果由服务器52来执行该处理，则可以在与图5的块68和70相关的操作之间执行该处理。
处理可以在块88中开始，在块88中对声音信号进行话音激活检测(VAD：Voice Activity Detection)。可以在声音信号中在用户的开始标记82之前的部分、声音信号中在用户的开始标记82和用户的结束标记84之间的部分、以及声音信号中在用户的结束标记84之后的部分进行VAD。以该方式，可以标识语音特征的开始和结束。例如，可以假设用户的标记82和84紧紧地隶属于用户想要进行搜索的单词或短语86。还可以假设用户设置标记82和84的行为可能已切断与单词或短语86相关的音素的全部或一部分。另外，非话音声音可以存在于标记82和84之间。VAD算法可以标识出在开始标记82之前(如果存在一个或更多个音素)的、在开始标记82和结束标记84之间的、和/或在结束标记84之后(如果存在一个或多个音素)的一个或更多个完整或部分音素。
应理解的是，已知多种合适的VAD算法。VAD可以配置为标识语音缺失的出现和标识语音中的构成音素。例如，VAD可以通过分析声音能量和信号模式而工作。音素一般被认为是语言的声音系统中的最小对比单元，并且不需要参考音素在单词或短语中的位置就可以表示音素。图6所示出的是与声音信号80中标记出的一段相关的音素。图6中的音素由缩写“Ph”与其后的数字来标识，其中数字表示了音素的数值计数。在所示出的图中碰巧有七个音素，但与声音信号中任意给定的一段相关的音素能够少于七个或多于七个。在其它实施方式中，可以用单词检测或其它语音相关特征(例如，词素、音素变形等)的检测来代替或补充音素检测。
在语音特征标识之后，逻辑流程可以前进至块90。在块90中，调整标记82和84的位置以更准确地表示单词或短语86的开始和结束。在所示出的处理的图中，移动了用户的开始标记82，使得调整后的开始标记92大致与音素(Ph1)的开始一致，单词或短语86从该音素(Ph1)开始。类似地，在所示出的处理的图中，移动了用户的结束标记84，使得调整后的结束标记94大致与音素(该示例中为Ph7)的结束一致，单词或短语86在该音素(Ph7)处结束。当所示出的图示出了调整标记82和84以使调整后的标记92和94与单词或短语86的开始和结束一致的时候，调整后的标记92和94能够被定位为捕获单词或短语86开始之前的一些声音信号和/或捕获单词或短语86结束之后的一些声音信号。
可以采用调整标记82和84的几种技术中的一种或更多种。应理解的是，可以使用详细描述的这些技术的另选调整技术和/或附加调整技术。进行标记调整以将缺失音素部分或整个缺失音素添加到音频片段中。标记调整还可以减少声音片段中非语音音频的存在。
现在关注单词或短语86的开始。如果用户的开始标记82位于一个音素的中间，则可以断言用户对开始标记82的定位晚了。在该情形下(图6中所示出的情形)，调整后的开始标记92可以设置在音素的开始处或稍稍早于该音素的开始(例如，包括声音信号中与用户的开始标记82相关的音素之前的一小部分)。效果是，用户的开始标记82被提前而在声音信号的标记部分中包含完整的音素。另外，可以分析在与用户的开始标记82最接近的音素之前的声音信号。例如，如果没有紧接在与用户的开始标记82最接近的音素之前结束的附加音素(例如，不存在在从与用户的开始标记82最接近的音素的开始起的预定时间量之内的音素结束，这种音素结束表示两个相邻的音素属于同一单词)，则可以不对开始标记92做附加的调整。如果存在紧接在与用户的开始标记82最接近的音素之前结束的附加音素(例如，存在在从与用户的开始标记82最接近的音素的开始起的预定时间量之内的音素结束，这种音素结束表示两个相邻的音素属于同一单词)，则可以将开始标记92进一步调整到前面音素的开始处。可以对可能属于单词或短语86的附加音素重复该处理，但是可以对在该技术下可增加的附加音素数量设定限制。
继续关注单词或短语86的开始。如果用户的开始标记82没有出现在一个音素中，则可以断言用户对开始标记82的定位是准确的或早了。在该情形下(没有示出)，调整后的开始标记92可以设置在用户的开始标记82的位置之后出现的第一个音素的开始处，或稍稍在该音素的开始处之前(例如，包括该音素之前的一小部分声音信号)。效果是，用户的开始标记82被延迟以不包括声音信号的额外部分。
现在关注单词或短语86的结束。如果用户的结束标记84位于一个音素的中间，则可以断言用户对结束标记84的定位早了。在该情形下(图6中所示出的情形)，调整后的结束标记94可以设置在音素的结束处或稍稍在该音素的结束处之后(例如，包括声音信号中与用户的结束标记84相关的音素之后的一小部分)。效果是，用户的结束标记84被延迟以在声音信号的标记部分中包含完整的音素。另外，可以对与用户的结束标记84最接近的音素之后的声音信号进行分析。例如，如果没有紧接在与用户的结束标记84最接近的音素之后开始的附加音素(例如，不存在在从与用户的结束标记84最接近的音素的结束起的预定时间量之内的音素开始，这种音素开始表示两个相邻的音素属于同一单词)，则可以不对结束标记94进行附加调整。如果存在紧接在与用户的结束标记84最接近的音素之后开始的附加音素(例如，存在在从与用户的结束标记84最接近的音素的结束起的预定时间量之内的音素开始，这种音素开始表示两个相邻的音素属于同一单词)，则可以将结束标记94进一步调整到后面音素的结束处。可以对可能属于单词或短语86的附加音素重复该处理，但是可以对在该技术下可以增加的附加音素数量设定限制。
继续关注单词或短语86的结束。如果用户的结束标记84没有出现在一个音素中，则可以断言用户对结束标记84的定位是准确的或晚了。在该情形下(没有示出)，调整后的结束标记94可以设置在用户的结束标记84的位置之前出现的第一个音素的结束处，或稍稍在该音素的结束处之后(例如，包括声音信号中跟在该音素之后的一小部分)。效果是，用户的结束标记84被提前以排除声音信号的额外部分。
在已经调整了标记之后，逻辑流程可以前进至块96，在块96中，对声音信号中在调整后的开始标记92处开始并在调整后的结束标记94处结束的部分进行加窗。对声音信号进行加窗可以使实施搜索将依据的音频样本的边缘“平滑”，从而潜在地减少突发音频变调和/或瞬变的出现，并且潜在地减少背景噪声的出现。能够使用向声音信号应用窗函数的多种加窗技术。适当的加窗技术包括例如应用海明窗(Hamming window)函数或应用汉宁(Hann)窗。汉宁窗有时被称为Hanning窗或升余弦窗。其它可能的窗包括矩形窗、高斯(Gauss)窗、巴特利特(Bartlett)窗、三角窗、巴特利特-汉宁(Barlett-Hann)窗、布莱克曼(Blackman)窗、凯泽(Kaiser)窗等。合适的海明窗可以由式1来给出，其中N表示离散时间窗函数在采样中的总宽度，而值n是范围为0至N-1的整数。
w ( n ) = 0.53836 - 0.46164 cos ( 2 πn N - 1 ) ]]> 式1
合适的汉宁窗可以由式2来给出，其中N表示离散时间窗函数在采样中的总宽度，而值n是范围为0至N-1的整数。
w ( n ) = 0.5 ( 1 - cos ( 2 πn N - 1 ) ) ]]> 式2
其后，逻辑流程可以前进至块98。在块98中，对声音信号中加窗的部分进行编码以向服务器52发送(例如，图4的块66)。
可以将上述描述的处理应用于可容易地得到处于标记82和84之外的音频信息(例如从存储的音频文件得到，或从已经成功存储或缓存的接收音频信号中得到)的音频内容部分。在其它情形中，可以将该处理应用于可使用附加的动作来使得标记82和84以外的音频信息可用的音频内容。例如，可以将该处理应用于响应于用户动作而捕获的音频内容(例如，在按下开始捕获和结束捕获的按钮之间由麦克风32所捕获的音频内容)。为了使音频信息可用于这里所描述的处理，移动电话10可以配置为在用户启动了包括处理音频数据以将音频窗扩展到用户已经明确标记的音频窗之外的处理的功能或应用(例如，通过菜单选择)后、立即开始捕获由麦克风32或其它源生成的音频信号。可以触发“预捕获”音频缓存的另一情形包括利用浏览器应用程序访问特定的互联网网站(例如，支持基于音频的互联网搜索的网站)。作为另一示例，如果可以使用该处理的应用程序为“总是活动的”并且移动电话10平台是“翻开”(例如，翻盖)型的电话，则电话的打开可以触发该预捕获功能。
在一种方法中，可以利用滚动音频样本缓存器来捕获音频信号。缓存器的大小(所缓存的音频的时间长度)可以是通过该处理所分析的最长的可能语音特征(例如，音素)的长度或更长的持续时间。在一实施方式中，被分析的语音特征是音素，并且缓存器具有大约20毫秒固定长度的大小。当检测到设置开始标记的用户动作时，可以把所缓存的音频数据加至音频内容的标记的窗口之前。此外，当检测到设置结束标记的用户动作时，可以捕获结束标记后的附加音频数据。例如，可以通过固定长度缓存器来对在用户选择的窗口之后的音频数据进行缓存，并且可以把所缓存的音频数据加至音频的标记部分的结束之后。
在这里所描述的处理涉及控制音频片段的端点，并且其可以导致提高语音处理和/或基于语音的搜索引擎的性能。该处理可应用于基于由用户已标记了的部分音频内容进行的搜索。应理解的是，该处理可以应用于其它环境，例如基于用户产生的口述话语的搜索。
尽管已针对特定的优选实施方式来示出并描述了本发明，但是应理解的是本领域的其他技术人员在阅读并理解了本说明书后会想到这些实施方式的等同实施方式或修改。本发明包括所有这些等同实施方式和修改，并本发明仅通过所附权利要求的范围来限定。