搜索系统.pdf

摘要
申请专利号：	CN200510093899.7	申请日：	2005.08.31
公开号：	CN1783073A	公开日：	2006.06.07
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回\|\|\|公开
IPC分类号：	G06F17/30(2006.01)	主分类号：	G06F17/30
申请人：	创新科技有限公司;
发明人：	吴祥程; 廖运钦
地址：	新加坡新加坡市
优先权：	2004.09.01 US 60/606,247
专利代理机构：	北京东方亿思知识产权代理有限责任公司	代理人：	王怡
PDF下载：	PDF下载

内容摘要

本发明公开了一种用于搜索数字媒体信息的搜索系统，所述系统包括：将数字媒体信息转换为文本数据的转换模块；从文本数据中提取搜索项以在至少一个数据库中搜索记录的提取模块；以及将搜索获得的至少一个匹配记录经由便携式设备呈现给用户的呈现模块。

权利要求书

1.  一种用于搜索数字媒体信息的搜索系统，所述系统包括：
将所述数字媒体信息转换为文本数据的转换模块；
从所述文本数据中提取搜索项以在至少一个数据库中搜索记录的提取模块；以及
将所述搜索获得的至少一个匹配记录经由便携式设备呈现给用户的呈现模块。

2.  如权利要求1所述的系统，其中，所述数据库中每个记录被映射到至少一个搜索项或多个搜索项的集合。

3.  如权利要求1所述的系统，还包括用户接口，所述用户接口使得用户能够浏览所述匹配记录，并且经由到所述数据库中其他相关记录的链接来导航，并且使得用户能够输入附加的信息。

4.  如权利要求1所述的系统，还包括导入模块，所述导入模块使得用户能够将附加的已记录数字媒体信息导入到数据库中。

5.  如权利要求1所述的系统，其中，数字媒体信息包括照片、视频剪辑或音频剪辑。

6.  如权利要求5所述的系统，其中，所述数字媒体信息由便携式设备记录，所述便携式设备为移动电话或移动计算设备中的至少一个。

7.  如权利要求6所述的系统，其中，所述便携式设备是从以下组中选出的至少一个：捕获图像的集成数码相机、捕获视频剪辑的集成数码相机和记录音频剪辑的集成麦克风。

8.  如权利要求7所述的系统，还包括选自以下组中的至少一个引擎：将以照片或视频剪辑的图形形式捕获的基于文本的信息转换为文本数据的光学特性识别引擎、将图像信息转换为文本数据的图像识别引擎、将音频剪辑形式的口语单词转换为文本数据的语音识别引擎、面部识别引擎和音乐引擎。

9.  如权利要求8所述的系统，其中，图像信息包括动物、著名的地标、交通工具和聋哑人使用的手语。

10.  如权利要求8所述的系统，其中，提供辅助输入以减少搜索时间，所述辅助输入包括选自以下组中的输入：位置、温度、湿度、亮度、次数和环境分析。

11.  如权利要求10所述的系统，其中，位置由小区位置和全球定位系统坐标中的一个来确定。

12.  如权利要求8所述的系统，其中，所述音乐引擎用于将音乐转换为MIDI文件或音频信号的指纹。

13.  如权利要求6所述的系统，其中，所述数据库存储在本地便携式设备上。

14.  如权利要求1所述的系统，其中，所述数据库存储在远端服务器上。

15.  如权利要求6所述的系统，还包括在所述便携式设备与所述数据库之间实现通信的通信模块。

16.  如权利要求6所述的系统，其中，所述结果经由所述便携式设备的显示器被呈现给用户。

17.  如权利要求1所述的系统，其中，所述结果以音频形式被呈现给用户。

18.  如权利要求1所述的系统，其中，使用多于一项的已记录数字媒体信息来增强所述搜索的准确性。

19.  一种用于搜索数字媒体信息的方法，所述方法包括：
将所述数字媒体信息转换为文本数据；
从所述文本数据中提取搜索项以在至少一个数据库中搜索记录；以及
将所述搜索获得的至少一个匹配记录经由便携式设备呈现给用户。

20.  如权利要求19所述的方法，其中，所述数据库中每个记录被映射到至少一个搜索项或多个搜索项的集合。

21.  如权利要求19所述的方法，还包括记录数字媒体信息的初始步骤。

22.  如权利要求19所述的方法，还包括将所述文本数据翻译为另一种语言的步骤。

23.  如权利要求19所述的方法，其中，当所述数字媒体信息是照片或视频剪辑时，所述方法还包括集中于所述照片的特定区域或所述视频剪辑的一帧画面以限制所述搜索的范围，所述集中操作是取景或变焦中的至少一种。

24.  如权利要求19所述的方法，其中，如果所述数字媒体信息是音频剪辑，则所述方法还包括集中于所述音频剪辑的特定部分以限制所述搜索的范围的步骤。

25.  如权利要求19所述的方法，其中，如果所述数字媒体信息是音乐文件，则所述音乐文件被转换为MIDI文件或音频信号的指纹中的至少一种。

26.  如权利要求19所述的方法，其中，基于来自辅助输入的数据来限制搜索，所述来自辅助输入的数据包括所述便携式设备的位置、和/或记录所述数字信息的时间、温度、湿度、亮度和环境分析中的至少一种。

27.  如权利要求19所述的方法，其中，所述数字媒体信息由便携式设备记录，所述用户与所述便携式设备交互以清除所述搜索获得的不相关记录。

28.  如权利要求27所述的方法，其中，所述用户交互是选择或不选择动态列表中的某些项，以指示数字信息是否与这些项相关。

29.  如权利要求26所述的方法，其中，位置由小区位置和全球定位系统坐标中的一个来确定。

30.  如权利要求24所述的方法，其中，集中于所述特定部分由以下操作中的一种或多种来实现：提取所述特定部分，并抑制环境和背景音频。

31.  如权利要求26所述的方法，其中，所述辅助输入包括用户输入，所述用户输入利用接口，并且包括语音学和记忆术的输入。

32.  如权利要求23所述的方法，其中，集中于特定区域由选自以下组中的至少一种操作实现：变焦、取景以及选择拖放。

33.  如权利要求23所述的方法，其中，运动向量用于所述视频剪辑。

34.  如权利要求19所述的方法，还包括集中于所述数字媒体的特定部分，并将所述特定部分转换为文本数据。

35.  如权利要求34所述的方法，其中，所述数字媒体是音轨，并且生成所述音频的指纹，利用所述指纹搜索。

36.  如权利要求34所述的方法，其中，所述集中于特定部分通过以下操作来实现：选择音轨一部分的起始和结束点以形成音频段，并利用所述音频段搜索。

说明书

搜索系统
技术领域
本发明涉及用于搜索由便携式设备记录的数字媒体信息的搜索系统。
背景技术
允许用户捕获数字信息的消费类产品越来越普遍。这些产品包括带照像功能的移动电话、带照像功能的便携式计算机、数码相机和数字视频刻录机。
这些消费类产品在捕获数字信息方面是非常有效的。然而，利用并处理该信息的用户友好的应用通常却是不可获得的。
发明内容
在第一优选方面，提供了一种用于搜索数字媒体信息的搜索系统。系统包括：将记录的数字媒体信息转换为文本数据的转换模块；从文本数据中提取搜索项以在至少一个数据库中搜索记录的提取模块；以及将搜索获得的至少一个匹配记录经由便携式设备呈现给用户的呈现模块。数据库中每个记录可被映射到至少一个搜索项或多个搜索项的集合。可以提供用户接口，所述用户接口使得用户能够浏览匹配记录，并经由到数据库中其他相关记录的链接来导航。可以提供导入模块，所述导入模块使得用户能够将附加的已记录的数字媒体信息导入到数据库中。
数字媒体信息可包括照片、视频剪辑或音频剪辑，并且可由便携式设备来记录。便携式设备可以是移动电话或移动计算设备。移动电话或移动计算设备可以有集成的数码相机以捕获图像或视频剪辑。移动电话或移动计算设备可以有集成的麦克风以记录音频剪辑。
光学特性识别引擎可用来将以照片或视频剪辑的图形形式捕获的基于文本的信息转换为文本数据。
图像识别引擎可用来将以照片或视频剪辑形式捕获的图像信息转换为文本数据。图像信息可包括人脸、动物、著名的地标、交通工具或其他物体。图像信息还可包括聋哑人使用的手语。
语音识别引擎可用来将音频剪辑形式的口语单词转换为文本数据。
数据库可以存储在本地便携式设备上。例如，如果游客旅游到欧洲，则可以将存储欧洲旅游信息的数据库下载到便携式设备上。
或者，数据库可以存储在远端服务器上。服务器可以通过无线通信经由因特网访问。便携式设备可包括经由因特网通信的通信模块。
结果可以经由便携式设备的显示器被呈现给用户。可以根据用户定义的格式和呈现方式将结果呈现给用户。可以用音频形式将结果呈现给用户。音频形式可以是计算机生成的语音或与匹配记录相关联的预先记录的音频剪辑。
多于一项的已记录数字媒体信息可以一同使用，以增强搜索的准确性。例如，鸟的照片和鸟叫的音频记录一同使用，以识别鸟的物种。因此，鸟的记录经由便携式设备被呈现给用户，该记录包含鸟的生物数据，如迁移模式、寿命跨度和习性。
在第二方面，提供了一种用于搜索数字媒体信息的方法。该方法包括：将记录的数字媒体信息转换为文本数据；从文本数据中提取搜索项以在至少一个数据库中搜索记录；以及将搜索获得的至少一个匹配记录经由便携式设备呈现给用户。
数据库中每个记录可被映射到至少一个搜索项或多个搜索项的集合。
该方法还可包括记录数字媒体信息的初始步骤。
该方法还可包括将文本数据翻译为另一种语言的步骤。
如果数字媒体信息是照片或视频剪辑，则该方法还可包括聚焦于照片的特定区域或视频剪辑的一帧画面以限制搜索范围的步骤。
如果数字媒体信息是音频剪辑，则该方法还可包括聚焦于音频剪辑的特定部分以限制搜索范围的步骤。
集中于特定区域可以是以下操作中的一种：变焦(zooming)、取景(framing)以及选择拖放。运动向量被用于视频剪辑。
该方法还可包括集中于数字媒体的特定部分，并将特定部分转换为文本数据。当数字媒体是音轨并且生成音频的指纹时，搜索可以利用指纹。或者，集中于特定部分通过以下操作实现：选择音轨一部分的起始和结束点以形成音频段，并利用音频段搜索。
下面参考附图描述本发明的示例，在附图中：
图1是系统框图；
图2是用在系统中的设备实施例的透视图；
图3是图1和2设备的一部分的框图；以及
图4是利用该系统搜索的过程的流程图。
图1和下面的讨论试图提供对一种可实现本发明的适当计算环境的概述。尽管并不是必需的，但是本发明将在个人计算机执行的计算机可执行指令的通常环境中描述，如程序模块。通常，程序模块包括执行具体任务或实现具体抽象数据类型的例程、程序、字符、组件、数据结构。本领域的技术人员将意识到，可以其他计算机系统配置来实践本发明，包括手持设备、微处理器系统、基于微处理器的或可编程消费类电子产品、网络PC、迷你计算机、大型计算机等等。也可以在分布计算环境中实践本发明，在分布计算环境中，任务由经由通信网络链接的远程处理设备执行。在分布计算环境中，程序模块既可位于本地存储器存储设备中，也可位于远程存储器存储设备中。
参考图1，其提供了一种用于搜索数字媒体信息的搜索系统10。数字信息可以位于个人计算机、膝上型计算机、笔记本计算机或便携式设备上。信息可由设备20捕获或记录，设备20例如是计算机、便携式计算机或便携式设备。便携式设备20包括移动电话、PDA、平板计算机、笔记本计算机、具有计算机处理器地数码相机或视频刻录机。优选地，便携式设备20有多媒体能力，如高分辨率的显示和音频功能。数字媒体信息包括照片、视频剪辑或音频剪辑。到诸如计算机20之类的设备的输入可以是扫描仪、照相机、网络相机、触摸式屏幕等等。
如图1到3所示，设备20可以有用于捕获音频的麦克风60。模数转换器61将捕获音频从模拟转换为数字。微处理器和/或数字信号处理器将数字音频传输到非易失性存储器69。存储器69可以是硬盘、可移动盘或闪存。
设备20还可具有用于利用成像系统64捕获图像和/或视频的透镜63，或者可以有分离的图像捕获设备，例如网络相机。所捕获的图像和/或视频也被微处理器62处理，并存储在存储器69中。透镜可以是固定的，或者可以有马达驱动器以用于变焦。
小键盘/键盘65和/或操纵杆71可用于用户输入。显示器66显示结果或可能的结果，扬声器68可输出音频结果。放大器67用来在转换器61中转换之后放大输出音频。
微处理器62可用来控制设备20的其他功能(未示出)，也用来控制并操作各种模块21和引擎50。
系统10的模块21包括转换模块22、提取模块23和呈现模块24。这些模块22、23、24在便携式设备20上存储为软件。或者，这些模块被硬件化为专用芯片。优选地，这些模块以Java写成，以促进便携性和实现到其他兼容Java的设备20上的能力。转换模块22将记录的数字媒体信息转换为文本数据。取决于记录的数字信息，转换模块22操作引擎50，引擎50可包括光学特性识别引擎25、图像识别引擎26、语音识别引擎27、面部识别引擎28和音乐引擎29。
光学特性识别引擎25将以照片或视频剪辑形式捕获的基于文本的信息转换为文本数据。语音识别引擎27将音频剪辑形式的口语单词转换为文本数据。图像识别引擎26将以照片或视频剪辑形式捕获的图像信息转换为文本数据。图像信息包括动物、著名的地标、交通工具或其他物体。图像信息还包括聋哑人使用的手语。图像识别利用已知的技术执行。面部识别引擎28用于利用面部识别软件识别面部，面部识别软件例如是由Visionics公司提供的Facelt。音乐引擎29将捕获的音乐转换为MIDI文件，并且可由例如歌曲标题、演唱者和演唱会分类。可以使用用于从唱、哼等发出的曲调中确定曲调的应用程序。此外，也可以使用其他音频指纹技术来生成代表记录音频的数据。例如，US 6,453,252公开了一种基于频率子库的能量内容来生成音频信号指纹的技术，这里通过引用并入了整个公开的内容。然后，可以使用所获得的指纹来帮助识别记录音频。或者，可以在希望获得的音频段的起始和结尾按下“A/B”按键，并基于该音频段进行搜索。
当识别动物或昆虫的声音时，可以使用以下因素中的一种或多种来处理：实际声音、语音学(phonetics)或记忆术(mnemonics)。
随后，文本数据被传输到提取模块23，以提取用来在数据库30中搜索记录的搜索项。数据库30是经由因特网和移动电话网络访问的集中化的网络数据库。优选地，便携式设备20包括经由因特网与数据库30通信的通信模块(70)。或者，轻版本的系统10具有存储在便携式设备20上的本地数据库30，这消除了通信模块存在的必要。这种情况下数据库30可以在存储器69中。在发现至少一个匹配记录之后，呈现模块24经由用户接口(未示出)将匹配记录呈现给用户。用户接口使得用户能够浏览匹配记录，并经由到数据库30中其他相关记录的链接自由导航。数据库30中每个记录被映射到至少一个搜索项或多个搜索项的集合。数据库30中彼此相关或在类似种类中的记录相互链接。
在一个实施例中，系统提供了便携式语言翻译器。例如，在外国遇到了公路标志牌。利用该系统，外国的公路标志牌被翻译为用户理解的语言。导航应用被直观地提供给用户，如交互式地图。
在另一个实施例中，系统10是便携式旅游向导或目标识别器。例如，在博物馆中，带有照像功能的便携式设备捕获目标图像。在数据库30中搜索该目标。如果发现匹配，则翻译为用户理解的语言，并检索关于目标更详细的信息。另一个示例是识别目标或诸如鸟的动物。系统10能够通过其物理特性识别物种，并演示鸟叫的样本和/或为鸟命名。
在另外的实施例中，系统10是便携式多媒体“因特网浏览器”。系统能够识别面部，并检索关于该面部的关联信息。例如，如果图片是比尔盖茨，则系统10检索比尔盖茨的个人传记数据，并将他的个人成就、兴趣爱好、最喜爱的电影等列出，并将其显示在显示器66上和/或利用扬声器68以音频输出。
在另一个实施例中，系统10是便携式的基于视频的手语翻译器。系统10能够将以视频格式捕获的手语翻译为文字或语音，反之亦然。捕获设备可以是视频照相机、静态照相机或移动电话摄像头。或者，可以使用具有微型摄像头的可佩带的帽沿来探索某一场景中的目标及其关联数据库30。
参考图4，在一般场景中，系统10首先在40捕获图像、音频或其他可感知的输入，并且显示形成至少一部分输入的任何一个或多个图像。在41定位到所捕获数字信息中的特定部分或分段。定位聚焦于整个图像中的具体目标或音频记录的片段。这可以通过变焦和/或取景和/或例如使用移动视频的运动向量选择拖放来实现。这可以根据MPEG4实现。然后检测并识别目标。这可以利用MPEG7来实现。在目标识别后，数字信息在42被转换为文本信息。对于音乐文件，对其进行数字化以使能搜索。转换42由转换模块21以及引擎40中的任何一个引擎来执行。例如，如果目标是悉尼海港大桥的照片，则图像识别引擎26将图像转换为短语“悉尼海港大桥”。该短语被提取为关键字短语或搜索项，以用于在43在数据库30中搜索。
由于关键字在数据库30中被映射到与目标有关的数据记录，因此搜索43能够产生有用的数据。在搜索完成后，搜索结果在44被呈现给用户。
用户能够使用下拉菜单栏和/或小键盘来输入信息以排除某些类别的不相关组。例如，用户选择了名为“桥”的组，则路或其他结构就被过滤出搜索。这通过用户交互方式分离并改进了搜索。
在一个实施例中，用户基于逐个组地对不相关结果进行的递归逻辑消除，对目标作出最终判断。为了有助于限制搜索的内容，当数字信息被发送到数据库30以进行搜索时，记录时间以及记录位置被一同发送。记录时间是便携式设备20盖在媒体文件上的时间戳。记录位置假定数字信息的发送从用户捕获照片、视频或音频记录的时刻开始几乎是瞬时的。位置可由移动电话20的小区位置或便携式设备20的GPS坐标识别。
利用前一个示例，如果用户在“悉尼海港大桥”附近的物理区域，则金门大桥或布鲁克林大桥不会被表示为可能的匹配。为了增强定制能力，用户能够定义其用户接口以及结果呈现给用户的方式。
为了增强搜索的准确性，可以使用包括辅助输入的多个输入。即，照片和音频信息被一同使用以用于搜索。例如，可以使用鸟的照片和鸟叫的音频记录来识别鸟的物种。辅助输入例如可包括位置、温度、湿度、亮度等等。这些可以从设备20内合适的功能自动获得。
用户输入可以利用诸如小键盘/键盘66的导入模块，或者利用语音识别技术。如果图像中有多个目标，则可以使用变焦和/或取景和/或拖放来识别正搜索的目标。这可以利用已知的变焦和取景技术、操纵杆和触摸式屏幕技术。在声音中，可以通过提取所需的音频和/或抑制背景或环境信号，从记录的音频中提取要搜索的音频。
如果数据库不能找到正确的匹配，则可以存储接收的数据以创建新条目。其可以存储在分离的数据库中，直到接收到足够的数据以提供结论性的信息为止，然后其可以移动到数据库30。在这一点上编辑者可以进行判断。
此外，可以使用分布对应以用于从多个设备20到数据库30的通信。数据可以先发送到分布服务器以控制数据分布和搜索功能。可以使用超宽频带以用于连接。
数据可以由SMS或MMS从设备20发送到数据库30。
本领域的技术人员将意识到，在不脱离宽泛地所述的本发明的范围或精神的前提下，可以对本发明进行大量的变化和/或修改，如具体实施例中所示。因此，在各种方面本实施例应被视为说明性的而非限制性的。