包括确信结果的突出显示的文档搜索引擎.pdf

上传人:1*** 文档编号:1014695 上传时间:2018-03-25 格式:PDF 页数:15 大小:727.77KB
返回 下载 相关 举报
摘要
申请专利号:

CN200480016198.7

申请日:

2004.06.08

公开号:

CN1806240A

公开日:

2006.07.19

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30公开日:20060719|||实质审查的生效|||公开

IPC分类号:

G06F17/30(2006.01)

主分类号:

G06F17/30

申请人:

GOOGLE公司;

发明人:

西门·汤

地址:

美国加利福尼亚州

优先权:

2003.06.10 US 10/457,488

专利代理机构:

中国国际贸易促进委员会专利商标事务所

代理人:

吴丽丽

PDF下载: PDF下载
内容摘要

搜索引擎包括确定响应于用户搜索查询返回的文档是否可能是与该搜索查询非常相关的判定部件。引用搜索引擎确定为可能非常相关的文档的链接可以利用帮助用户浏览这些链接的视觉提示进行显示。判定部件可以将它的判定基于多个参数,包括:(1)在搜索结果的排名列表中文档的位置,(2)文档的点击通过率,(3)响应于该搜索查询作为点击返回的、该文档和其它文档的相关性计分,以及(4)该文档是否被归类为色情文档(搜索引擎可以制止为潜在的色情文档显示视觉提示)。

权利要求书

1、  一种执行文档搜索的方法,包含:
生成到与用户提交的搜索查询相关联的文档集合的链接;
确定在该文档集合中的一个或多个文档是否可能对应于用户认为是与搜索查询非常相关的文档;
将视觉提示与到在文档集合中被确定为是非常相关的文档的链接相关联;以及
将所生成的链接和相关联的视觉提示返回给用户。

2、
  如权利要求1所述的方法,其特征在于:该文档是网络文档。

3、
  如权利要求2所述的方法,其特征在于:该视觉提示是与该视觉提示相关联的文档的缩略图表示。

说明书

包括确信结果的突出显示的文档搜索引擎
技术领域
本发明通常涉及文档搜索引擎,并且尤其涉及突出显示从搜索引擎返回的选择文档。
背景技术
万维网(“web”)包含巨量的信息。然而,定位信息的期望部分是具有挑战性的。因为在web上的信息量和在web搜索方面没有经验的新用户的数量快速增长,所以这个问题变得复杂。
搜索引擎试图返回给用户感兴趣的网页的超链接。通常,搜索引擎将它们对用户兴趣的确定基于由用户输入的搜索项(称为搜索查询)。搜索引擎的目标是基于搜索查询、向用户提供到高质量的、相关结果的链接。通常,搜索引擎通过将在搜索查询中的项目与预先存储的网页的语料库(corpus)进行匹配,来实现它。“命中(hit)”包含用户搜索项的网页,并且将该网页返回给用户。
为了提高返回给用户的网页的相关性和质量,搜索引擎可以试图对命中列表进行排序,以便使最相关和/或最高质量的页面处于返回给用户的命中列表的顶端。例如,搜索引擎可以向每个命中分配排名或者记分,其中记分被设计为对应于网页的相关性或者重要性。确定相关性的已有技术基于网页的内容。更高级的技术不仅仅基于网页的内容确定网页的重要性。例如,在Sergey Brin和Lawrence Page所著的、标题为“The Anatomy of Large-Scale Hypertextual SearchEngine”的文章中描述了一种已知的方法,其基于网页的链接结构向网页分配重要性程度。换句话说,Brin和Page的算法试图不仅仅基于网页的内容来量化网页的重要性。
搜索引擎的目标是为任何特定的搜索查询返回最期望的链接集。然而,除仅仅返回最期望的链接集之外,还以清楚并且快速地向用户通知与每个链接相关联的内容的方式向用户给出链接集也是有益的。
一种向用户通知与特定链接相关联的内容的方法是还与该链接一起显示文本的“片断(snippet)”。理想地,文本片断应该概述链接的内容。实际上,这些片断一般从由该链接所引用的文档的文本中提取。虽然文本片断在概述链接方面是有用的,但是在准确地概述链接方面的片断质量能够基于诸如片断生成的自动化特性以及基础文档的质量之类的因素而发生改变。此外,为了让片断有用,用户必须花费时间读取该片断。
在本技术领域中需要有改进的、用于响应于搜索查询而向用户通知返回的链接内容的技术。
发明内容
搜索引擎返回到与搜索查询相关的文档的链接列表。引用搜索引擎确定为与用户查询非常相关的文档的链接可以用帮助用户浏览链接的视觉提示(visual cue)进行显示。
附图说明
并入并且构成这个说明书一部分的附图,举例说明了本发明的实施例,而且连同该说明书文字部分一起用来解释本发明。在附图中,
图1为说明其中可以实现依据本发明的概念的示例系统的图示;
图2为说明响应于搜索查询而显示的、包括到网络文档的链接的文档的图示;
图3为流程图,说明了依据本发明一个方面的搜索引擎的操作;以及
图4为一个框图,在概念上说明了对一个文档是否与用户搜索查询非常相关地确定过程。
具体实施方式
以下对本发明的详细说明参考附图。该详细说明不用于限制本发明。相反,本发明的范围由附加的权利要求以及等效含义所定义。
如此处描述的那样,搜索引擎可以确定它确信特定的链接是用户意图查找的链接。搜索引擎然后可以用视觉提示突出显示这个链接。视觉提示允许用户快速地定位和确定突出显示的链接是否是用户意图查找的链接。
系统概述
图1为说明其中可以实现依据本发明的概念的示例系统的图示。该系统包括多个客户机设备102、服务器设备110、以及网络101,该网络可以是例如Internet。客户机设备102每个都包括诸如随机存取存储器之类的计算机可读介质109,其连接到处理器108。处理器108执行存储在存储器109中的程序指令。客户机设备102还可以包括多个额外的外部或者内部设备,诸如而不是限制于鼠标、CD-ROM、键盘、和显示器。
通过客户机设备102,用户105能够在网络101上互相进行通信,以及与连接到网络101的其它系统和设备、诸如服务器设备110进行通信。
类似于客户机设备102,服务器设备110可以包括连接到计算机可读存储器112的处理器111。服务器设备110另外可以包括诸如数据库130之类的辅助存储单元。
客户机处理器108和服务器处理器111可以是多个众所周知的计算机处理器中的任一个。通常,客户机设备102可以是连接到网络并且与应用程序交互的任意类型的计算平台,诸如数字助理或者“智能”蜂窝电话或者传呼机。服务器110,虽然被描述为单个计算机系统,但是可以实现为计算机处理器网络。
存储器112包含搜索引擎程序120。搜索引擎程序120响应于来自用户105的搜索查询定位相关的信息。具体地,用户105发送搜索查询到服务器设备110,服务器设备110通过返回相关信息列表给用户105而进行响应。典型地,用户105要求服务器设备110定位与特定主题相关、并且存储在连接到网络101的其它设备或者系统处的网页。搜索引擎120包括文档定位器121和排名(ranking)部件122。通常,文档定位器121查找内容与用户搜索查询匹配的文档集。排名部件122可以基于相关性对所定位的文档集进行排名,并且可以为每个文档生成指示相关性等级的相关性记分。搜索引擎120然后可以返回指向由文档定位器121所确定的文档集的链接列表。链接列表可以基于由排名部件122所确定的相关性记分进行排序。
文档定位器121最初可以通过将用户搜索查询中的项与存储在数据库130中的文档语料库中的文档进行比较,来从该文档语料库中定位文档。通常,用于对网络文档进行索引、并且搜索该网络文档的已索引语料库以返回包含搜索项的文档集的处理在本领域中是众所周知的。因此,将不在此处进一步描述文档定位器121的这个功能。
排名部件122通过对由文档定位器121所识别的文档集进行排名,帮助搜索引擎120向用户返回相关文档。这个排名可以采取分配称为相关性记分的数值的形式,该相关性记分对应于由文档定位器121所识别的每个文档的已计算的相关性。在本技术领域有多种已知的恰当排名算法,如在这个公开的发明背景技术部分中所提及的那样,其中之一在Brin和Page的文章中进行了描述。做为选择,可以将排名部件122和文档定位器121的功能进行组合,以便文档定位器121产生每个都具有排名值的相关文档集。
如此处使用的,文档被广泛地解释为包括任何机器可读和机器可存储的作品。文档可以是电子邮件、文件、文件组合、具有到其它文件的嵌入式链接的一个或者多个文件等。在Internet的环境中,常见的文档是网页。网页经常包括内容而且可以包括嵌入的信息(诸如元信息、超链接等)和/或嵌入的指令(诸如Javascript等)。
搜索引擎120的操作。
按照本发明的一个方面,除描述网络文档的文本片断之外,到由搜索引擎120返回的网络文档集的链接可以还包括向用户通知该网络文档很可能与用户的搜索查询相关的视觉提示。视觉提示可以包括图形信息,通过该图形信息,用户可以快速且容易地验证该链接是否是用户意图定位的链接。在本发明的一个方面,用视觉提示显示与被确定为与用户搜索查询“高度相关”(即,高度确信该文档是用户将最有兴趣查看的文档)的文档相对应的链接。
图2为说明文档200的图示,该文档200包括到可以响应于搜索查询而在客户机设备102处向用户显示的网络文档的链接。该文档可以由搜索程序120响应于用户搜索查询而生成,并且由网络浏览器在客户机设备102之一处显示。
在图2所示的示例文档中,由用户输入的搜索查询201为“Stanford”。文档200包括多个到诸如网页之类的网络文档的链接210、211、212、213、和214,这些网络文档由搜索引擎120确定为潜在地与搜索查询201相关。除返回的链接210-214之外,文档200可以包括其它的信息,诸如与搜索查询201相对应的一般类别215和时事/新闻链接216。
用户可以选择任何链接210-214,以由此引导网络浏览器返回由该链接所指向的网络文档。每个链接210-214还可以包括,例如,描述所链接的网络文档的文本片断220,和将该网络文档分类在其中的类别的描述221。
按照本发明的一个方面,一个或多个链接210-214可以包含与该链接相对应的视觉提示230。在图2所示的示例中,视觉提示230是与链接210相对应的网页的小型化(“缩略图”)再现。在这个示例中,搜索查询201是“Stanford”。搜索引擎120确定对“Stanford”的最高排名链接是到斯坦福(Stanford)大学网站(stanford.edu)的链接。因此,搜索引擎120在文档200中包括视觉提示230。
在某些实现中,搜索引擎120可以仅仅当确定一个链接与搜索查询“非常相关”时才显示视觉提示230,其中“非常相关”由用于确定相关性的客观标准所定义。例如,假定大多数“斯坦福(Stanford)”搜索查询最终导致用户选择链接stanford.edu。在这个情况下,搜索引擎120可以意识到stanford.edu是非常相关的链接,因此在文档200中包括视觉提示230。
通过包括具有非常相关的链接的视觉提示230,用户可以了解到将该视觉提示与搜索引擎120确信与用户的意图相匹配的链接相关联。随着用户开始信任视觉提示230,该视觉提示允许用户更快地导向相关搜索结果,因为用户不一定要读取相应的片断220。这可以因此导致让用户“获得满足所需的时间”减少,并且搜索引擎满意度随之增加。
图3为流程图,说明了依据本发明一个方面的搜索引擎程序120的操作。搜索引擎程序120可以通过从用户105之一接收搜索查询而开始(动作301)。基于该搜索查询,文档定位器121可以生成到与该搜索查询相关的文档的链接集(动作302)。可以基于从排名部件122返回的、用于每个文档的相关性度量,对该链接集进行排序(动作303)。
搜索引擎程序120可以确定由文档定位器121返回的任何链接是否与“非常相关”的文档相关联(动作304)。被确定为非常相关的文档可以与诸如视觉提示230之类的视觉提示相关联(动作305)。服务器设备110然后可以把该链接集返回给输入了搜索查询的用户(动作306)。所返回的链接集可以作为以类似于文档200的方式设定格式的网络文档传输,而且可以特别包括与该非常相关的文档相关联的视觉提示230。
图4为一个框图,在概念上说明了由搜索引擎程序120所进行的、对一个文档是否非常相关的确定。
一个特定的文档D是否非常相关可以取决于多个参数。在一种实现方式中,这些参数可以由搜索引擎程序120计算并且在图4中显示为部件401-404。这些部件包括文档D在文档的排名列表中的位置(部件401),在文档的排名列表中、与其它文档相比所观察到的历史用户点击通过率(click through rate)(部件402),在文档的排名列表中、相对于其它文档的相关性计分的、该文档的相关性计分(部件403),以及该文档是否被检测为色情文档(部件404)。
可以基于从排名部件122返回的、已排序的链接集直接确定部件401。通常,与在该排序列表较下游的文档相比,在该排序列表顶部的文档更有可能为非常相关的文档。
部件402可以基于响应于在所返回链接集中的链接的其它用户的历史点击通过率。例如,搜索引擎程序120可以计算在文档D和在返回的链接集中的每个其它文档之间的比率。对于每个其它文档E,这个比率可以计算为:
D ^ E ^ . - - - ( 1 ) ]]>
其中表示用户已经选择了文档D的总次数,而且表示用户已经选择了文档E的总次数。因此,对于每个文档E,该比率给出了文档D相对于文档E的流行度(popularity)。在用于测量历史点击通过率的公式(1)的替换实现方式中,可以定义为对于特定查询Q、用户已经选择文档D的总次数,而且可以定义为对于查询Q、用户点击任何文档的次数。部件403可以将如从排名部件122返回的、文档D的相关性计分与每个文档E的相关性计分相关联。例如,部件403可以存储在文档D的相关性计分和其它文档的相关性计分之间的差。
部件404可以存储文档D是否为色情文档的确定。这个确定可以基于,例如关键字比较、域名匹配、人工输入的信息等进行。
基于由部件401-404存储的一个或多个参数,判定部件410确定是否将文档D归类为非常相关。这个归类可以基于使用由部件401-404存储的参数的多个功能。在一种实现方式中,当:(1)文档D的位置在结果的已排名列表中是第一个(基于部件401确定),(2)文档D具有高点击通过率,如可以由预先选定的点击通过阈值确定(基于部件402确定),以及(3)文档D的相关性计分显著大于在返回的文档集中的下一个最高相关性记分(基于部件403确定)时,判定部件410确定文档D是非常相关的。在某些实现方式中,判定部件410可能另外要求(4)文档D没有被归类为色情文档(基于部件404确定)。用于高点击通过率(2)和在相关性记分(3)之间的差的特定阈值可以由本领域普通技术人员经由反复试验的技术确定。
基于一个或多个部件401-404,其它的函数可以由判定部件410使用来确定文档是否是非常相关的。例如,在文档D的点击通过率应该多高以及文档D的相关性计分应该多高之间可以进行折衷。文档D的高相关性计分通常是文档D为好结果的良好指示。因此,当文档D具有高相关性记分而且处于在已排名的列表中的第一位置时,判定部件410可以接受文档D的中等点击通过率,并且仍然将该文档归类为非常相关。另一方面,如果文档D的相关性计分低的话,则判定部件410在将该文档归类为非常相关之前,可以要求高很多的点击通过率以及该文档处于第一位置。可以利用点击通过率,以及在文档D和在已排名列表中第二位置的文档之间的相关性记分的差进行类似的折衷。通常,本领域的普通技术人员将认识到,基于与部件401-404相关联的参数、或者基于其它参数的其它函数可用于确定文档是否是高度相关的。
此外,本领域的普通技术人员将认识到,对于显示用于选择文档的视觉提示的上述技术来说,多种修改是可能的。例如,不是实时再现缩略图,而是可以为具有高点击通过率的文档预再现缩略图。因此,可以快速地将可能用视觉提示显示的文档返回给用户,而不用必须首先生成缩略图。此外,可以向用户呈现除了缩略图之外的视觉提示。例如,可以使用诸如徽标、被设计为突出的对比文本字体(例如,按大小、颜色、或者粗细对比的文本)、对比背景、或者文本标记之类的其它突出显示形式,来代替缩略图。
另外,除了上述参数之外的参数可以由判定部件410使用。例如,与点击通过率相关的参数可以定义为在提交了查询之后用户已经选择文档D的次数与提交查询的总次数的历史比率。
可以由判定部件410使用的其它参数基于连接网络文档的超链接的文本。特别地,这个参数可以基于指向文档D的链接数目,其中描述该链接的文本与搜索查询相匹配。这个数目可以与指向在返回的文档集中的其它文档的链接数目进行比较,其中该链接的文本与搜索查询相匹配。
总结
如此处所描述的,搜索引擎包括确定文档是否高度相关的判定部件。高度相关的文档可以指示搜索引擎确信输入了搜索查询的用户将对该文档感兴趣。这样的文档然后可以与视觉提示相关联,该视觉提示吸引用户的注意,并且帮助用户分析响应于该搜索查询而返回的链接。
本领域的普通技术人员显然可知,如上所述,在附图所说明的实现方式中,本发明的各个方面可以以软件、固件、和硬件的许多不同形式实现。用于实现按照本发明的各个方面的实际软件代码或者专门的控制硬件不是对本发明的限制。因此,没有引用特定的软件代码描述各个方面的操作和动作——应当理解,基于此处的描述,本领域的普通技术人员将能够设计软件和控制硬件以实现这些方面。
本发明的优选实施例的上述描述提供了举例说明和描述,但是不是用于穷举或者将本发明限制为所公开的准确形式。根据上述教义,修改和变化是可能的,或者可以从本发明的实践中获取这些修改和变化。
任何在当前申请的描述中所使用的要素、动作、或者指令都不应该被看作是本发明关键和必要的,除非它们被明确地描述为这样。此外,如此处使用的,冠词“一”意图包括一或多项。在意图表示仅仅一项的地方,使用术语“一个”或者类似的语言。
本发明的范围由权利要求以及它们的等效含义所定义。

包括确信结果的突出显示的文档搜索引擎.pdf_第1页
第1页 / 共15页
包括确信结果的突出显示的文档搜索引擎.pdf_第2页
第2页 / 共15页
包括确信结果的突出显示的文档搜索引擎.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《包括确信结果的突出显示的文档搜索引擎.pdf》由会员分享,可在线阅读,更多相关《包括确信结果的突出显示的文档搜索引擎.pdf(15页珍藏版)》请在专利查询网上搜索。

搜索引擎包括确定响应于用户搜索查询返回的文档是否可能是与该搜索查询非常相关的判定部件。引用搜索引擎确定为可能非常相关的文档的链接可以利用帮助用户浏览这些链接的视觉提示进行显示。判定部件可以将它的判定基于多个参数,包括:(1)在搜索结果的排名列表中文档的位置,(2)文档的点击通过率,(3)响应于该搜索查询作为点击返回的、该文档和其它文档的相关性计分,以及(4)该文档是否被归类为色情文档(搜索引擎可以。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1