《基于上下文的搜索查询构成.pdf》由会员分享,可在线阅读,更多相关《基于上下文的搜索查询构成.pdf(19页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104145269A43申请公布日20141112CN104145269A21申请号201380011778622申请日2013020113/408,85320120229USG06F17/30200601G06F17/24200601G06F3/048820130171申请人微软公司地址美国华盛顿州72发明人P白Z陈XD黄X倪JT孙Z张74专利代理机构上海专利商标事务所有限公司31100代理人顾嘉运54发明名称基于上下文的搜索查询构成57摘要通过将从文档选择文本识别为用户希望基于该所选文本发起搜索的指示来辅助搜索。基于所选文本向用户提供查询建议,查询建议基于该文档所提供的上。
2、下文来进行排名。用户可通过使用鼠标、在触屏上围绕文本绘制环、或通过其他输入技术来选择文本。查询建议可基于应用于所选文本的查询重制定或查询扩展技术。该文档所提供的上下文被语言模型和/或人工智能系统用来基于所选文本和该上下文以预测的相关性顺序对查询建议进行排名。30优先权数据85PCT国际申请进入国家阶段日2014082986PCT国际申请的申请数据PCT/US2013/0242472013020187PCT国际申请的公布数据WO2013/130215EN2013090651INTCL权利要求书2页说明书11页附图5页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书11页附图5。
3、页10申请公布号CN104145269ACN104145269A1/2页21一种方法,包括接收一用户作出的对一文档中的文本的选择;获得多个候选查询,所述多个候选查询包括至少部分地通过向所选文本应用一种或多种查询扩展技术而生成的查询;以及由一个或多个处理元件对所述多个候选查询进行排名,所述排名至少部分地基于I从一上下文导出的语言模型,该上下文包括所述文档中包含所选文本和附加文本中的部分或全部的文本,或2用一组文档和查询对训练的人工智能系统,所述文档和查询对已被人类审阅者标识为具有一查询,该查询和与该查询配对的一文档的内容有关。2如权利要求1所述的方法,其特征在于,所述查询扩展技术包括以下至少之一。
4、向一查询日志应用K均值算法、对通过解析一查询日志生成的二分查询文档图进行随机游走、对从一查询日志中生成的查询流图运行页面排名算法、或从一查询日志中挖掘搜索项关联模式。3如权利要求1所述的方法,其特征在于,所述上下文包括所述文档中具有预定数量的单词或字符的一部分文本,该部分文本位于所述文档中使得所选文本大致位于该部分文本的中间。4如权利要求1所述的方法,其特征在于,所述排名至少部分地基于所述语言模型,所述语言模型至少部分地基于所述多个候选查询中的一个候选查询中的单词数量、所选文本中的单词数量、以及所述上下文中的单词数量。5如权利要求1所述的方法,其特征在于,所述排名至少部分地基于所述语言模型,所。
5、述语言模型包括二元语言模型,在所述二元语言模型中,来自所述多个候选查询的一查询中的一单词依赖于该查询中的紧接在前的单词。6如权利要求1所述的方法,其特征在于,还包括在至少部分地根据所述排名进行排序的列表中向所述用户呈现所述多个候选查询;接收所述用户对所述多个候选查询中的一个候选查询的选择;以及将所选的一个候选查询提交给搜索引擎。7具有计算机可执行指令的一个或多个计算机可读介质,所述计算机可执行指令在由处理器执行时使得计算系统将用户对一文档中的文本的选择解释为至少部分地基于所选文本向所述用户提供一个或多个搜索查询的命令;至少部分地基于所选文本获得多个候选查询;至少部分地基于由所述文档提供的上下文。
6、来对所述候选查询进行排名。8如权利要求7所述的一个或多个计算机可读介质,其特征在于,对文本的选择包括所述用户跨触屏显示器上显示的文本来拖动定点工具,或所述用户绕触摸屏显示器上显示的文本以大致环形或椭圆形移动定点工具。9如权利要求7所述的一个或多个计算机可读介质,其特征在于,所述上下文包括来自所述文档的包括所选文本的至少一部分的文本部分,所述排名包括使用二元语言模型,所述二元语言模型至少部分地基于所述候选查询之一以及查询语料库中的单词数量来对候选查询进行排名。10如权利要求7所述的一个或多个计算机可读介质,其特征在于,所述上下文包括来权利要求书CN104145269A2/2页3自所述文档的包括所。
7、选文本的文本部分,所述排名包括使用人工智能系统,所述人工智能系统使用文档/查询元组的数据集,每个文档/查询元组中文档和查询之间的对应性已被人类审阅者验证。权利要求书CN104145269A1/11页4基于上下文的搜索查询构成背景技术0001许多因特网搜索是由用户正在浏览的网页触发的。也就是说,在消费网页上的内容之后,用户决定发起搜索。为了实现该搜索,用户必须离开网页以访问搜索引擎。用户可从网页将单词复制并粘贴到搜索框中,或手动地构成一搜索查询来输入到搜索框或搜索引擎网页中。用于生产该搜索查询的任一种技术可能遭受到以下缺陷,例如缺乏特异性、具有多个含义的搜索项、以及搜索项之间的含糊关系。0002。
8、在搜索结果被返回之后,用户可离开搜索界面并返回到WEB浏览。网页和搜索界面之间的这种交替是低效的。而且,与各种用户界面的交互如文本选择、复制、粘贴等可能变得乏味,尤其是在小形状因子设备或具有有限的输入文本的能力的设备上,例如移动电话、平板计算机、游戏控制台、电视机等。随着越来越多的用户通过除了传统计算机之外的设备访问网页和其他电子文档,将越来越需要平滑地集成文档消费和搜索。能够这么做并额外地提供改进的搜索查询的系统将有益于用户。发明内容0003提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所。
9、要求保护主题的范围。0004本公开解释了用于使用网页或其他文档上用户关注的区域以及周围上下文来生成多个搜索查询并对其进行排名的技术。在浏览网页时,用户从网页选择文本。对文本的选择还生成一命令以使用该文本作为生成候选查询可产生与所选文本相关的结果的搜索查询的起始点。可应用多种类型的搜索查询扩展或搜索查询重制定技术来从所选文本生成多个候选查询。用户然后可选择这些搜索查询中的一个来提交给搜索引擎。从而,浏览动作与搜索动作相组合,创建了一种通过简单地从网页选择文本然后选择候选查询之一来允许“BROWSINGTOSEARCH”浏览以搜索的接口。0005为了将用户引导到该组候选查询中的一搜索查询,文档的上。
10、下文被考虑。根据所浏览的网页所提供的上下文对候选查询进行的评估被用于对各个候选查询进行排名。考虑周围上下文有助于对候选查询进行排名,因为所浏览的网页可能包含可被使用来消歧候选查询中的搜索项的单词可能带有修改并可将候选查询和与同一网页相关的先前的搜索查询相比较。0006对候选查询的排名可由语言模型、分类方法或两者的组合来执行。语言模型可被实现为在给定所选文本和周围上下文的情况下确定一候选查询的概率的模型。分类方法使用包含网页上的所选文本以及相关联的查询的训练数据。人类审阅者确定网页的所选文本是否可能导致用户作出该相关联的搜索查询。如果是,则所选文本和查询的对被机器学习系统使用来学习在给定所选文本。
11、和上下文的情况下预测一候选查询的置信度水平的函数。附图说明说明书CN104145269A2/11页50007参考附图描述具体实施方式。在附图中,附图标记最左边的数字标识该附图标记首次出现于其中的的附图。在不同附图中使用相同的附图标记指示相似或相同的项。0008图1是示出包括查询制定器的信息处理系统的说明性架构。0009图2示出来自图1的架构的说明性数据和组件的示意表示。0010图3示出具有所选文本的说明性文档。0011图4示出用于选择文本的两个说明性用户界面。0012图5是示出响应于对文本的用户选择提供候选查询的排名列表的说明性方法的说明性流程图。具体实施方式0013说明性架构0014图1示出。
12、一架构100,其中用户102可与本地计算设备104交互来获得搜索查询。本地计算设备104可以是任何类型的计算设备,如台式计算机、笔记本计算机、平板计算机、智能电话、游戏控制台、电视机等。本地计算设备104可经网络106与一个或多个网络可访问的计算设备108通信。网络106可以是任何一种或多种类型的数据通信网络,如局域网、广域网、因特网、电话网络、有线网络、对等网络、网状网络等。网络可访问的计算设备108可以被实现为多种类型的计算设备中的任何类型或组合,如网络服务器、WEB服务器、文件服务器、超级计算机、台式计算机等等。网络可访问的计算设备108可包括或可通信上连接到一个或多个搜索引擎110。搜。
13、索引擎110可在由提供搜索服务的某一实体所维护的一个或多个专用计算设备上实现。0015信息处理系统112包含在一个或多个位置上分布的一个或多个处理元件114以及存储器116。处理元件114可包括中央处理单元CPU、图形处理单元GPU、单核处理器、多核处理器、专用集成电路ASIC等等的任何组合。除了硬件实现之外,一个或多个处理元件114可用软件和/或固件实现。处理元件114的软件或固件实现可包括用任何合适的编程语言编写的用于执行所述各种功能的计算机或机器可执行指令。处理元件114的软件实现可整体上或部分地存储在存储器116中。0016存储器116可以存储可在处理元件114上加载并执行的指令的程序。
14、,以及在这些程序的执行期间生成的数据。存储在存储器116上的程序和数据的示例可以包括用于控制对本地计算设备104、网络可访问的计算设备108可用的硬件和软件资源的操作的操作系统、用于与硬件设备交互的驱动程序、用于向网络106以及其它计算设备发送数据和/或从网络106和其它计算设备接收数据的通信协议,以及另外的软件应用。取决于本地计算设备104和/或网络可访问的计算设备108的配置和类型,存储器116可以是易失性的如RAM和/或非易失性的如ROM、闪存等。0017信息处理系统112还可包括附加的计算机可读介质,如可移动存储、不可移动存储、本地存储和/或远程存储。存储器116及任何相关联的计算机可。
15、读介质可提供对计算机可读指令、数据结构、程序模块以及其它数据的存储。计算机可读介质包括至少两种类型的计算机可读介质,即计算机存储介质和通信介质。0018计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。说明书CN104145269A3/11页6计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CDROM、数字多功能盘DVD或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。0019相反,通信介质可在诸如载波之类。
16、的已调制数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的,计算机存储介质不包括通信介质。0020信息处理系统112可整体上或部分地存在于本地计算设备104和网络可访问的计算设备108中的任一个或两者上。从而,信息处理系统112可以是分布式系统,其中各种物理和数据组件存在于一个或多个位置处且一起作用来执行信息处理系统112的角色。在某些实现中,信息处理系统112的所有特征可存在于本地计算设备104上。在其他实现中,本地计算设备104可以是瘦客户机,瘦客户机仅接收显示数据并将用户输入信号传送到诸如网络可访问的计算设备108之类的另一设备,该另一设备包含信息处。
17、理系统112。0021信息处理系统112可包含为用户102制定搜索查询的查询制定器118。在某些实现中,查询制定器118可以整体上或部分地存储在存储器116中。在其他实现中,查询制定器118可以被实现为处理元件114的一部分,如ASIC的一部分。与信息处理系统112本身类似,查询制定器118可整体上或部分地存在于本地计算设备104和网络可访问的计算设备108中的任一个或两者上。在查询制定器118的全部或部分冗余地位于多个计算设备上的实现中,选择哪个计算设备来用于实现查询制定器118可基于相对处理速度、跨网络106的信息传送速度、和/或其他因素。0022图2示出通过图1中所示的架构100的查询制。
18、定器118以及其他部分的信息和数据流。当用户102从一文档选择文本时,这为查询制定器118提供了输入来制定查询。所选文本202和上下文204由搜索发起模块206接收。所选文本202可由与本地计算设备104交互的用户102选择,以通过用于从一文档选择文本的任何常规机制选择或指示出文本的一个段落或多个段落。上下文204可包括该文档中围绕所选文本202或在所选文本202附近的其他文本。上下文204还可包括基于文档的预期用途或可能用途的对文档的分类。例如,如果该文档是网页且该网页被标识为用于销售商品和服务的商家网页,则上下文204可识别出用户102可能正在搜索某一商品或服务来购买。用户102在选择文本。
19、202之前的先前动作也可提供上下文204。例如,用户102提交的近期的搜索查询可提供关于用户102当前正在搜索的话题或区域的上下文204。0023搜索发起模块206可将来自用户的选择所选文本202的单个输入解释为对文本的选择以及解释为基于所选文本202生成搜索查询的命令。例如,如果用户102移动光标来从一文档选择连续的一连串文本,则用户102不需要将该文本粘贴或移动到一不同的界面来接收搜索查询建议。对文本本身的选择可由搜索发起模块206解释为生成一个或多个搜索查询的命令。搜索发起模块206的这种双重角色允许用户仅用与本地计算设备104的单个输入或交互来既选择文本又请求搜索查询。0024搜索发起。
20、模块206将所选文本202、上下文204、以及生成搜索查询的该命令传递给查询制定器118。查询制定器118可包括从所选文本202生成候选查询的候选查询生成器208。候选查询生成器208可向所选文本202应用查询扩展或查询重制定技术。候选查询生成器208可通过包含同义字、添加单词的替代语形学形式、错误拼写的单词的正确拼写、说明书CN104145269A4/11页7和/或提供单词的替代拼写来从所选文本202创建候选查询。当用户不能精确地选择感兴趣的文本时,如当该文本是通过在其周围用手指绘制椭圆来被选择时,某一单词或短语可能被意外地拆分成两部分。后处理工作可包括从所选文本中去除无关字符,或前置/附加。
21、相关字符。在某些实现中,与该文档相关联的查询的查询日志被用于生成候选查询。使用查询日志的查询扩展技术可包括向查询日志应用K均值算法,对通过解析查询日志生成的二分查询文档图进行随机游走,对从查询日志中生成的查询流图运行PAGERANK页面排名算法,或从查询日志中挖掘搜索项关联模式。0025候选查询生成器208可直接生成候选查询,或者候选查询生成器208可将所选文本202传递给查询制定器118外部的另一模块或系统如与搜索引擎相关联的查询重制定器模块。候选查询生成器208可通过将所选文本202传递给另一系统或模块然后从该外部模块或系统接收候选查询来有效地生成候选查询。候选查询生成器208可从所选文本。
22、202生成任何数量的查询。在某些实现中,候选查询生成器208生成的候选查询的数量可被限于预定数量,如3个查询、10个查询等。0026一旦获得了若干候选查询,查询排名模块210可基于那些查询对应于所选文本202和上下文204的似然性或概率来对候选查询进行排名。查询制定器118可执行候选查询的生成和那些候选查询的排名这两者,而不用向搜索引擎110提交询问,从而减少搜索引擎110的负担。0027查询排名模块210可基于一个或多个排名技术来对该一个或多个候选查询进行排名。可被使用的排名技术包括语言模型212和人工智能AI系统214。每一个可被单独地或组合地使用。0028语言模型212可创建上下文204。
23、和所选文本202的二元BIGRAM表示。上下文204可包括该文档的包括所选文本202的一部分文本。从而,上下文204可以是所选文本202加上来自该文档的附加文本。语言模型212可基于每一个相应候选查询中的单词数量、所选文本202中的单词数量、构成上下文204的该部分文本中的单词数量,来确定来自候选查询生成器208的候选查询的相对排名。语言模型212的一个实现的细节在下文讨论。0029人工智能系统214可被实现为任何类型的人工智能或机器系统,如支持向量机、神经网络、专家系统、贝叶斯置信网络、模糊逻辑引擎、数据融合引擎等等。人工智能系统214可从人类标记的训练数据中创建。表示文档以及与那些文档相关。
24、联的从一个或多个用户的过去文档消耗和搜索行为获得的查询的元组的语料库可充当训练数据的全部或一部分。在某些实现中,元组可从来自搜索引擎110的来自已选择向搜索引擎110提供他们的浏览和搜索行为的用户的搜索日志获得。浏览和搜索数据可被匿名化,以保护选择贡献他们的数据的用户的隐私。人类标记者审阅这些元组,以确定文档和查询之间是否有因果关系。换言之,人类标记者基于他们对某一元组中的文档的内容引起用户提交该元组中的查询的概率的主观评估来向每个元组分配标记。人工智能系统214的一个实现的细节在下文讨论。0030一旦查询制定器118制定了查询并对这些查询进行排名,就可向用户102呈现查询的排名列表。与具有较。
25、低排名的那些查询相比,具有更高排名的查询可被更早地列出或处于列表中更显著的位置。用户102可选择候选查询之一来基于该查询在一个或多个搜索引擎110上发起搜索。说明书CN104145269A5/11页80031搜索引擎110可将该查询提交到网络106或另一数据存储,以及基于搜索算法、所选的查询以及网络106中可用的数据来接收搜索结果216。搜索引擎110可使用任何常规搜索技术来处理所选搜索查询。0032说明性语言模型0033语言模型212基于上下文204对候选查询进行排名。候选查询按照条件概率PQ|S,C进行排名,该条件概率表示来自候选查询的查询之一查询Q在给定所选文本202表示为S和上下文20。
26、4表示为C的情况下要被生成的概率。语言模型212假设以及其中QWI、SWI和CWI分别表示查询Q、所选文本S以及上下文C中的第I个单词。在语言模型212中,NQ表示查询Q的单词长度,NS表示所选文本S的单词长度,而NC表示上下文C的单词长度。0034语言模型212包括进一步的假设,即以所选文本S和上下文C为条件,每个查询单词QWI仅依赖于其前面的单词QWI1。该假设类似于对二元BIGRAM语言模型作出的假设。二元表示对于某些实现是所希望的,因为单元UNIGRAM模型可能不捕捉查询内的搜索项级关系。相反地,N元N3方法可能具有高计算复杂性,这可能会对于在线查询建议来说太耗时。然而,由于处理能力持。
27、续增加,3元或更高方法的计算复杂性将可能变得较不耗时,从而考虑到语言模型212可被适用来适应N元N3方法。0035根据上面的定义和假设,来自候选查询的查询之一在给定所选文本202和上下文204的情况下要被生成的可能性可被表示为00360037在上面的公式中,较长的查询趋向于具有较小的概率。为了减轻这种效果,概率被乘以一附加权重,且越长的查询被赋予越大的权重。经修改的概率可按下式计算00380039其中,是比1大的常数。0040计算PQWI|S,C的公式是00410042这里PS,C可被忽略,因为正进行排名的候选查询中的每一个都基于相同的所选文本S和上下文C。0043全局查询语料库可被用于估计P。
28、QWI的值。给定查询语料库Q,PQWI的值可按下式计算00440045其中,|QQWI|表示查询语料库中包含单词QWI的查询数,而|Q|代表全局查询语料库中的查询总数。说明书CN104145269A6/11页90046等式4的平滑版本可被使用00470048其中,A是介于0和1之间的常数。0049等式3中的另一概率可如下被推导。假设以任何查询单词QWI为条件,所选文本S和上下文C是独立的00506PS,C|QWIPS|QWIPC|QWI0051为了简化该函数,语言模型212进一步假设以任何查询单词QWI为条件,所选文本S或上下文C的单词可被独立地生成。从而,005200530054其中,PSW。
29、J|QWI是在QWI存在时SWJ与QWI一起出现的概率。该概率可使用全局查询语料库来估计00550056其中,|QSWJQQWI|是在全局查询语料库中同时包含SWJ和QWI的查询的数量,|QQWI|表示该查询语料库中包含单词QWI的查询数,而0,1被用于平滑。0057PCWJ|QWI的值可被类似地计算。根据等式7和8,PS|QWI和PC|QWI的值是不平衡的,因为NS总是比NC小得多。PS|QWI和PC|QWI的归一化的值可被用于解决此不平衡。0058PS|QWI的归一化的公式是00590060类似地,PC|QWI的归一化的值可按下式计算00610062计算PQWI1|S,C,QWI1的公式是。
30、00630064其中,PQWI1|S,C可按等式3来计算。因为基于相同的所选文本202和相同的上下文204,PS,C对于所有候选查询取相同的值说明书CN104145269A7/11页1000650066其中,PQWI1可按等式5来计算。PQWI|QWI1是在QWI1存在时QWI正好出现在QWI1之后的概率。然而,当使用全局语料库计算该概率时,单词QWI1和QWI可能很少连续出现,因为全局语料库是稀疏的。为了说明该概率,PQWI|QWI1可被估计为在QWI1存在时QWI与QWI1一起出现的概率而不要求QWI与QWI1直接相继出现,这可根据等式9来计算。0067最后,用于计算概率PS,C|QWI,。
31、QWI1的公式在下文提供。为了简化起见,语言模型212假设在两个查询单词QWI和QWI1的条件下所选文本S和上下文C是独立的。这产生了006814PS,C|QWI,QWI1PS|QWI,QWI1PC|QW1,QWI10069类似于等式7,语言模型212假设以两个查询单词QWI和QWI1为条件,所选文本S或上下文C中的单词可被独立地生成。从而,007000710072其中PSWJ|QWI,QWI1可由全局查询语料库估计0073007418L|QQWIQQWI1|10075其中|QSWJQQWIQQWI1|代表全局查询语料库中同时包含单词SWJ、QWI和QWI1的查询数量。|QQWIQQWI1|和。
32、A具有与等式9中类似的含义。0076类似于等式10,概率PS|QWI,QWI1可被归一化00770078PC|QWI,QWI1的值可被类似地计算和归一化。0079说明性人工智能系统0080人工智能系统214可实现用于对候选查询进行排名的分类技术。在该分类技术中,人类审阅者评估文档和与那些文档相关联的查询Q之间的关联性。在由人类审阅者标记之前,可能不知道文档的内容是否造成该查询,或者文档和查询之间的关联性是否仅仅是巧合或与文档无关。0081人类标记者将来自文档查询对之一的查询分类为与文档的内容相关联、与文档的内容不相关联、或者与文档的内容含糊相关。从而,人类标记者审阅元组的说明书CN104145。
33、269A108/11页11语料库。元组可通过用户的实际浏览和搜索行为生成,并存储在一全局查询语料库中。这可以是语言模型212使用的相同全局查询语料库。元组中的每个文档可被表示为来自该文档的所选文本S以及包括所选文本S的上下文C。因此,人类标记者的工作可被表示为标记和Q的对,这些对然后被用作用于人工智能系统214的训练数据。在某些实现中,仅查询被标记为与文档的内容相关联的那些和Q的对可被用作训练数据。0082人工智能系统214使用训练数据来学习函数FQ1,1,。该函数F可被应用于新的数据,如来自图2的所选文本202、上下文204以及查询候选,以预测各候选查询与文档的内容相关联的置信度水平。各种查。
34、询候选的置信度水平可被用于由查询排名模块210对查询候选进行排名。0083对文档查询关系的人工标记可能是乏味的。伪训练数据可被使用来减少人工标记工作以及获得更大量的训练数据以改进函数F的准确性。伪训练数据可通过标识全局查询语料库中的搜索查询来创建,所述搜索查询是由用户在用户查看了与该查询配对的一文档之后不久提交的。该紧密时间关系可暗示出该文档的内容致使用户生成查询Q。搜索查询Q和文档的内容C之间的相似性的自动文本比较可或可不标识该文档中与搜索查询Q类似的短语P。如果短语P由自动分析标识,则假设在给定周围上下文C的情况下,短语P引起或导致搜索查询Q。这生成,Q对而无需人工标记,这些对可被添加到用。
35、于人工智能系统214的训练数据。0084说明性用户界面0085图3示出可被显示在本地计算设备104上的说明性文档300。文档300可以是网页、文本文档、字处理文档、电子数据表文档、或以任何格式包含文本的任何其他类型的文档,包括但不限于以诸如超文本标记语言HTML或可扩展标记语言XML之类的标记语言写的文档。文档300例示出用户102选择的文本的上下文的多个示例。0086用户所选文本302由用户102所选的一个单词或多个单词周围的粗体矩形示出。用户102也可选择部分单词或单独的字符。所选文本302指示出文档300的受到用户的关注的一部分。所选文本302存在于文档300的上下文内。文档300中被语。
36、言模型212或人工智能系统214认为是该上下文的量可变化。0087在某些实现中,整个文档300可为所选文本302提供上下文。整个文档300可包括多页,其中一些页未被显示而一些页可能还未被用户查看。上下文的较窄的视图可仅包括包含所选文本302的句子304。在其他实现中,上下文可被定义为包括所选文本302的段落306、包括所选文本302的栏308或网页布局中的框架、或文档300中包括所选文本302的某一页310。对于任何类型的文档,包括那些不具有句子、段落和/或页的文档,上下文可被定义为整个文档300的相对较大或相对较小的部分。0088上下文还可以是具有预定数量的单词或字符并包括所选文本302的一。
37、部分文本312。例如,文档300中包括所选文本302的60个单词的片段可被用作上下文。该部分文本312可跨多个句子、段落、栏等,且可在句子、段落、栏等的中间开始或结束。60个单词的长度仅仅是说明性的,上下文可以是诸如100个单词、20个单词之类的任何长度,或可替代地基于字符且包括20个字符、100个字符、500个字符或某一其他数量的单词或字符。0089在某些实现中,所选文本302大致位于该部分文档312的中间。例如,如果所选文说明书CN104145269A119/11页12本302具有三个单词而该部分文本312包括60个单词,则所选文本302可位于离开构成该上下文的该部分文本312的开始处大约。
38、23或24个单词处即60357;572235。在某些实现中,所选文本302可位于该部分文本312的中间50即不在前1/4也不在后1/4或文本部分308的中间20即不在前40也不在后40。0090对文本部分308中的单词或字符数的计算可排除无用词,以便使上下文基于可能对于搜索查询排名最有用的单词。例如,以所选文本302为中心的20个单词的上下文在诸如“A”一、“THE”该、“AND”以及、“IT”它以及其他类型的无用词之类的单词被包括在该上下文的该20个单词中时可能在对搜索查询进行排名时不太有帮助。从而,构成该上下文的文本部分302中预定数量的单词可以是排除无用词的预定数量的单词。0091图3还。
39、示出文档300内的预先制定的搜索查询314的位置。预先制定的搜索查询314可与文档中用户对文本的选择之前的一部分相关联。例如,预先制定的搜索查询314可与文档300中的特定单词、句子、段落、栏、页等相关联。该示例将预先制定的搜索查询314示为与紧接在所选文本302之前的句子相关联。取决于文档300中被认为是所选文本302的上下文的范围,预先制定的搜索查询314可能或可能不被包括在文档300中与所选文本302相同的部分中。例如,如果包含所选文本302的句子304是上下文,则预先制定的搜索查询314不与文档300中与所选文本302相同的部分相关联。然而,如果上下文是段落306,则预先制定的搜索查询。
40、314与文档300中与所选文本302相同的部分相关联。0092文档300可包含零个、一个、或多个预先制定的搜索查询314。预先制定的搜索查询314可以是用户在消费文档300的该相关联的部分时将可能进行的查询。预先制定的搜索查询314可由人类作者人工制作,用于嵌入在文档300的特定部分中。作为替代或除此之外,预先制定的搜索查询314中的一个或多个可基于对来自查看该文档300并随后生成搜索查询的其他用户的查询日志的分析来确定。0093图2中所示的候选查询生成器208可获得预先制定的搜索查询314以及从所选文本302生成的其他搜索查询。在某些实现中,候选查询生成器208可将与文档300相关联的所有预。
41、先制定的搜索查询314包括在呈现给用户的搜索查询的列表中。在其他实现中,候选查询生成器208可仅包括与文档300中与所选文本302相同部分基于上下文的定义相关联的预确定的搜索查询314。在又一实现中,仅和文档300中最接近于所选文本302的位置的位置相关联的阈值数量如1、2、3的预确定的搜索查询314被包括在呈现给用户的搜索查询的列表中。0094一旦用户从候选查询的列表中选择了一查询,该所选查询可被用作预确定的搜索查询314用于文档300的后续呈现。该预确定的搜索查询314可与原始生成该搜索查询的所选文本302的位置相关联。从而,与文档300相关联的预确定的搜索查询314的数量可随着系统的使用。
42、的增加而增加。0095图4示出用于在触屏设备上选择文本的两个说明性用户界面400和402。来自图1的本地计算设备可被实现为具有触屏显示器的设备。在第一用户界面400中,用户拖动他的或她的手指或诸如指示笔之类的其他定点工具从文本的起始位置处的点404跨过触屏的表面来选择到达点406,即他或她希望选择的文本的结束位置。用户可拖动他的手指通过文本的中间、沿着文本的底部就好像他或她正在对文本加下划线、或通常符合文本流向如对于英语来说从左向右,但移动的方向可能对于不同的语言而不同的另一运动。说明书CN104145269A1210/11页13系统从所选文本中制定搜索查询的信号可以是在手指在终点406处停止。
43、移动时手指移动的停止、手指从触屏的表面提起、在终点406处对触屏的轻敲等。0096用户也可如第二用户界面402中所示那样通过以围绕用户意图选择的文本的大致环形形状来移动指示笔或诸如手指之类的其他定点工具来选择文本。大致环形形状在形状上可比环形更为成卵形,且可以是起始点408和终点410接触的闭合环或者是起始点408在不同于终点410的位置处的开口弧形。0097在该示例中,以从位于所选文本的右下角的点408开始顺时针环绕移动到所选文本的右上角处的点410来绘制环。在某些实现中,顺时针或逆时针方向绘制的环都可造成相同结果。然而,在其他实现中,对搜索查询的生成的发起可仅在环形以顺时针或替代地为逆时针。
44、方向绘制时发生。系统从所选文本中制定搜索查询的信号可以是在指示笔在终点410处停止移动时指示笔移动的停止、指示笔从触屏的表面提起、指示笔返回到起始点408时环闭合、在终点410处对触屏的轻敲、或表示文本选择的结束以及请求发起搜索查询生成的其他姿势。0098图4中所示的用户界面402和404中的任一个为用户提供了一种方便的方法来发起搜索过程,而无需多个命令、使用键盘或切换到除了他或她正在消费的文档之外的界面。0099说明性过程0100为易于理解,本公开中讨论的过程被描绘为由各独立框所表示的分开的操作。然而,这些分开示出的操作不应被解释为必须依赖于其执行的顺序。描述过程的次序并不旨在解释为限制,并。
45、且任何数量的所述过程框都可以按任何次序组合以实现该过程或实现替代过程。此外,修改或省略所提供的操作中的一个或多个也是可能的。0101这些过程被示为逻辑流程图中的框的集合,它们表示可以用硬件、软件、或硬件和软件的组合来实现的一系列操作。出于讨论的目的,参考图14所示的架构、系统以及用户界面来描述这些过程。然而,这些过程可以使用不同的架构、系统和/或用户界面来执行。0102图5示出用于标识候选查询并向用户呈现候选查询的过程500的流程图。在502,接收用户对文档中文本的选择。用户可以是图1中所示的用户102,而该选择可由信息处理系统112接收。所选文本可以是连续的一连串文本,如某一行中的一个、两个。
46、、三个、四个等单词,或是从文档中的多个位置处对多个单词或多组单词的选择。文档可以是网页、文本文档、字处理文档、电子书、或任何其他类型的文档。0103在504,获得多个候选查询。候选查询可直接或间接地从候选查询生成器208获得。候选查询是通过将一个或多个查询扩展技术应用于502处所选的文本而生成的。查询扩展技术可包括将所选文本与先前的查询日志进行比较以基于所选文本从所述先前的查询日志标识一个或多个查询的任何技术。说明性的技术包括向查询日志应用K均值算法,对通过解析查询日志而生成的二分查询文档图进行随机游走,对从查询日志中生成的查询流图运行PAGERANK页面排名算法,或从查询日志中挖掘搜索项关联。
47、模式。0104在506,确定是否有与该文档相关联的任何预先制定的查询。预先制定的查询可基于过去的搜索行为的查询日志来被标识、由人类编辑者创建、或由用于创建搜索查询的任何其他技术生成。预先制定的查询可与文档的特定部分相关联,如特定的单词、句子、段落、页等,如图3所示的预构成的查询314等。当用户选择的文本来自该文档中与预先制定的说明书CN104145269A1311/11页14查询相同的部分时,过程500沿着“是”分支进行到508。然而,如果该文档不与任何预先制定的查询相关联,或者如果与该文档相关联的预先制定的查询不与该文档中包括所选文本的该部分相关联,则过程500沿“否”分支进行到510。01。
48、05在508,预先制定的查询被包括在504处获得的该组候选查询中。预先制定的查询可比504处获得的其他查询更快速地被获得,因为它是预先制定的且可能不要求处理或分析来生成。0106在510,对在504处获得的候选查询,包括508处标识的任何预先制定的查询进行排名。对候选查询的排名对基于在502处选择的文本更可能返回用户所希望的结果的那些查询提供了更高的排名。排名可基于考虑文档所提供的上下文的语言模型512。上下文可由文档中包括在502处用户选择的文本以及附加文本即包括比用户所选的文本多至少一个额外的单词或字符的上下文的文本来表示。排名可附加地或替代地基于人工智能系统514。人工智能系统514是用。
49、人类审阅来验证的一组文档和查询对即训练数据训练的。人类审阅者评估文档和查询对以标识具有某一查询的那些对,该查询与和该查询配对的文档的内容相关。0107在516,候选查询在根据排名来排序的排名列表中被呈现给用户。排名列表可在也显示用户从中选择文本的文档的界面中示出给用户,使得用户在选择搜索查询的同时可以查看文档以及所选文本。替代地,文档可不再被示出,但是相反文档可被该列表替换如在具有太小而不能示出两者的显示区域的设备上。用于显示该列表的额外的技术也被考虑,如在弹出框、下拉菜单等中呈现该列表。从而,在502处对文本的选择可引起以基于所选文本和周围上下文的相关性顺序来进行排名的建议查询列表的显示。0108在518,接收到用户对来自该列表的候选查询之一的选择。用户可通过用于从一列表中选择某一项的任何常规技术来作出该选择。从而,在502处选择单词时,用户能够从该列表中取最接近地表示他的或她的意图的搜索查询来搜索。0109在520,用户选择的查询被提交给一个或多个搜索引擎,如搜索引擎110。用户然后可从搜索引擎接收到搜索结果。从而,利用该方法500,用户可基于比简单地搜索从文档选择的单词来说更好地被设计成生成有效结果的搜索查询来获得搜索结果,并且用户可仅用与文档和/或搜索引擎界面最少的交互就接收到那些结果。0110结论0111上述。