《结合搜索结果进行踪迹识别的系统和方法.pdf》由会员分享,可在线阅读,更多相关《结合搜索结果进行踪迹识别的系统和方法.pdf(19页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102007494A43申请公布日20110406CN102007494ACN102007494A21申请号200980113376022申请日2009040112/103,52720080415USG06F17/30200601G06F17/0020060171申请人雅虎公司地址美国加利福尼亚州72发明人维克辛格74专利代理机构北京东方亿思知识产权代理有限责任公司11258代理人李晓冬南霆54发明名称结合搜索结果进行踪迹识别的系统和方法57摘要公开了用于识别和生成潜在用户踪迹的系统和方法。踪迹可以是用户的基于当前和/或历史浏览数据的预期浏览路径,所述浏览数据包括搜索日志、浏。
2、览历史和其他数据。踪迹可响应于接收到搜索查询而被显示为搜索结果概要和/或结合各个搜索结果一起显示。30优先权数据85PCT申请进入国家阶段日2010101586PCT申请的申请数据PCT/US2009/0390962009040187PCT申请的公布数据WO2009/129048EN2009102251INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书10页附图6页CN102007508A1/2页21一种用于提供至少一个潜在目的地的踪迹的方法,包括接收原始查询;为所述原始查询确定至少一个搜索结果;提供包括所述至少一个搜索结果的搜索结果页面;基于所述原始查询识别至少一。
3、个潜在链接,其中所述至少一个潜在链接构成所述踪迹;以及在所述搜索结果页面上提供所述踪迹。2如权利要求1所述的方法,其中,所述至少一个潜在目的地包括至少一个预测的浏览位置。3如权利要求1所述的方法,其中,识别至少一个潜在链接包括识别来自所述至少一个搜索结果的一个或多个字词;基于所识别的字词生成加权文档向量;搜索所述搜索结果页面的多个级别以识别链接;为所识别的链接打分;以及提供所述至少一个潜在链接,其中所述至少一个潜在链接基于得分而包括所识别的链接中的至少一个。4如权利要求3所述的方法,其中,来自所述至少一个搜索结果的字词包括所述至少一个搜索结果的通用资源定位符URL、标题、摘要和/或概要。5如权。
4、利要求3所述的方法,其中,搜索还包括利用广度优先搜索来进行搜索。6如权利要求3所述的方法,其中,打分包括确定特定的所识别的链接将被选择的概率。7如权利要求6所述的方法,其中,所述概率是根据搜索日志数据、工具条日志数据、相关度、可链接度、用户意图、新近度或其组合中的至少一个来确定的。8如权利要求3所述的方法,其中,搜索包括在所述搜索结果页面的多个级别上搜索以识别链接,其中每个级别与来自每个搜索结果的至少一个页面相对应。9如权利要求8所述的方法,其中,搜索包括在四个级别上搜索并且在每个级别上搜索十个链接,其中每个级别上的链接包括若干个搜索结果。10一种踪迹识别系统,包括搜索引擎,该搜索引擎经由网络。
5、接收查询;与所述搜索引擎通信的搜索日志数据库,该搜索日志数据库存储由所述搜索引擎接收到的历史查询数据;以及与所述搜索引擎通信的踪迹生成器,该踪迹生成器利用接收到的查询和所述历史查询数据来生成踪迹,其中,所述历史查询数据基于所述接收到的查询而标识出至少一个潜在目的地,并且其中所述踪迹包括至少一个潜在目的地。11如权利要求10所述的系统,其中,所述历史查询数据标识出所述至少一个潜在目的地的相对流行度,其中所述踪迹标识出具有较高流行度的至少一个潜在目的地。12如权利要求10所述的系统,其中,所述至少一个潜在目的地构成用户基于所述接收到的查询而可能采取的预测浏览路径。13如权利要求10所述的系统,还包。
6、括与所述搜索引擎和所述踪迹生成器通信的工具权利要求书CN102007494ACN102007508A2/2页3条日志数据库,该工具条日志数据库存储用户的浏览数据。14如权利要求13所述的系统,其中,所述工具条日志数据库中存储的用户的浏览数据被所述踪迹生成器用于识别所述踪迹。15如权利要求10所述的系统,其中,所述踪迹生成器包括接收器,该接收器接收所述查询和历史查询;与所述接收器相耦合的分析器,该分析器分析所述查询和所述历史查询;以及与所述分析器相耦合的识别器,该识别器基于来自所述分析器的分析而识别所述踪迹。16如权利要求15所述的系统,其中,所述接收器还接收被所述分析器所分析以便识别所述踪迹的。
7、数据,该数据包括搜索日志数据、工具条日志数据、流行度、相关度、可链接度、用户意图、人口统计数据和/或新近度数据。17在一种存储有表示可由编程的处理器运行以便预测踪迹的指令的数据的计算机可读存储介质中,该存储介质包括可用于进行以下操作的指令接收查询;收集踪迹识别因素;分析所述踪迹识别因素;基于对所述踪迹识别因素的分析来识别所述踪迹,其中所述踪迹包括预测的浏览路径;以及结合针对所接收的查询的搜索结果页面显示所述踪迹。18如权利要求17所述的存储介质,其中,所述踪迹识别因素包括所述查询、搜索日志数据、工具条日志数据、流行度、相关度、可链接度、用户意图、人口统计数据、新近度、查询扩展和/或图理论。19。
8、如权利要求17所述的存储介质,其中,所述预测的浏览路径包括在所述搜索结果页面上显示的至少一个链接。20如权利要求19所述的存储介质,其中,分析所述踪迹识别因素包括为所述踪迹确定潜在链接。权利要求书CN102007494ACN102007508A1/10页4结合搜索结果进行踪迹识别的系统和方法背景技术0001在线搜索和广告对于从事电子商务的企业可能是重要的收入来源。与诸如超文本标记语言HTML和超文本传输协议HTTP之类的技术相关联的过程使得网页能够被配置来显示搜索结果和/或广告。在线搜索是消费者定位因特网上的信息、商品或服务的方式。消费者可使用在线搜索引擎来键入一个或多个关键字也称为搜索字词或。
9、搜索查询,以便搜索具有与该一个或多个关键字有关的信息的页面或网站。在搜索引擎页面上示出的搜索结果包括去往具有与该一个或多个关键字有关的内容的页面或站点的链接。提供给用户的搜索结果可能包括也可能不包括用户正在搜索的信息。因为在线广告可受到搜索引擎提供最相关结果的能力的影响,搜索引擎可尝试基于查询而向用户提供与该用户最相关的信息和页面。附图说明0002参考以下附图和说明书可更好地理解系统和方法。参考以下附图描述非限制性且非穷尽性的实施例。附图中的组件不一定是按比例的,重点则在于图示本发明的原理。在附图中,相似的标号在不同的视图中始终指代对应的部件。0003图1是示例性网络系统的示图;0004图2是。
10、示例性浏览踪迹的示图;0005图3是踪迹生成器的示图;0006图4是示例性踪迹识别因素的示图;0007图5是示例性搜索屏幕;0008图6是用于识别踪迹的过程;0009图7是另一示例性搜索屏幕;并且0010图8是用于产生具有多个链接的踪迹的过程。具体实施方式0011作为介绍,描述了用于识别和生成潜在用户踪迹的系统和方法。该踪迹可以是用户的基于搜索查询的预期浏览路径,例如所建议或预期的一系列链接或URL序列,用户可能按顺序选择这些链接或URL以便查看一系列相关联的网页。该踪迹也可以是基于当前和/或历史浏览数据来确定的,所述浏览数据包括搜索日志、浏览历史和其他数据。该踪迹可响应于接收到搜索查询而被显。
11、示为搜索结果概要和/或与各个搜索结果相关联地显示。在查阅以下附图和详细描述后,其他系统、方法、特征和优点对于本领域的技术人员将是清楚的或者将变得清楚。希望所有这种额外的系统、方法、特征和优点都被包括在本说明书内、在本发明的范围内并且被以下权利要求所保护。本部分中的记载不应被理解为对这些权利要求的限定。另外的方面和优点在下文中论述。0012图1提供了网络系统100的简化视图,在该网络系统100中可实现本系统和方法。然而,并非所有示出的组件都是必需的,一些系统可包括附图中没有示出的额外组件、不同说明书CN102007494ACN102007508A2/10页5组件或更少组件。可对这些组件的布置和类。
12、型做出变化,而不脱离这里记载的权利要求的精神或范围。0013图1是示出用于踪迹识别和分析的示例性网络系统100的框图。具体而言,系统100包括踪迹生成器112,踪迹生成器112可从搜索引擎106接收搜索查询,并且基于来自搜索日志数据库108和/或工具条日志数据库110的数据来为该搜索查询生成踪迹。客户端设备102通过网络104与搜索引擎106相耦合,用于请求搜索查询。搜索引擎106与搜索日志数据库108、工具条日志数据库110和/或踪迹生成器112相耦合。这里,短语“与相耦合”可以指直接连接或者通过一个或多个中间组件间接连接。这种中间组件既可包括基于硬件的组件也可包括基于软件的组件。可对这些组。
13、件的布置和类型做出变化,而不脱离这里记载的权利要求的精神或范围。0014客户端设备102可以是允许用户连接到网络104例如因特网的计算设备。用户设备的示例包括但不限于个人计算机、个人数字助理“PDA”、蜂窝电话或者其他有线或无线电子设备。客户端设备102可被配置为利用WEB浏览器例如INTERNETEXPLORER或FIREFOX经由网络104访问网页以及其他数据/信息。客户端设备102可以使得用户能够经由网络104例如因特网查看页面。0015客户端设备102可被配置为使用户可与搜索引擎106、踪迹生成器112或系统100的其他组件交互。客户端设备102可以接收并显示由搜索引擎106提供的站点。
14、或页面,例如搜索页面或包括搜索结果的页面。客户端设备102可包括键盘、小键盘或光标控制设备例如鼠标、或者控制杆、触摸屏显示器、遥控器或任何其他可操作来使用户可与由搜索引擎106提供的一个或多个页面交互的设备。0016搜索引擎106通过网络104与客户端设备102相耦合,并且还与踪迹生成器112、搜索日志数据库108和/或工具条日志数据库110相耦合。搜索引擎106可以是WEB服务器或者可由WEB服务器提供。搜索引擎106可提供可经由诸如网络104或因特网之类的网络得到的站点或页面。站点或页面可以指可经由网络接收或查看的一个或多个网页。站点或页面不限于网页,而可包括任何可经由网络访问的、可在客户。
15、端设备102处显示的信息。站点可以指通过站点地图链接或以其他方式相关联的一系列页面。例如,WWWYAHOOCOM的网站由SUNNYVALE,CALIFORNIA的YAHOOINC运营可包括数千页面,这些页面被包括在YAHOOCOM处。以下,页面将被描述为网页、网站或任何其他可经由网络访问的站点/页面。客户端设备102的用户可经由网络104访问由搜索引擎106提供的页面。如下所述,搜索引擎106提供的页面可以是搜索页面,该搜索页面可操作来接收来自客户端设备102的搜索查询并且使得基于接收到的搜索查询例如经由一个或多个搜索结果页面提供搜索结果,并且还可使得提供与搜索查询相关联的广告。0017搜索引。
16、擎106可包括用于搜索可经由网络104访问的其他页面的界面,比如网页,例如可在万维网上的YAHOOCOM处访问的网页。客户端设备102可自主地或者在用户的指导下经由该界面向搜索引擎106输入搜索查询也称为用户查询、原始查询、搜索字词或搜索关键字。单个搜索查询可包括多个单词或短语。搜索引擎106可针对该搜索查询执行搜索并且在客户端设备102上显示搜索的结果。搜索的结果可包括由搜索引擎106响应于接收到该搜索查询而提供的有关页面或站点的列表。0018在另一种系统中,广告服务器未示出可与搜索引擎106和/或踪迹生成器112说明书CN102007494ACN102007508A3/10页6相耦合。广告。
17、服务器可被配置为向搜索引擎106提供广告。或者,搜索引擎106和广告服务器可以是共同的组件,并且/或者搜索引擎106可以选择并提供广告。广告服务器可包括广告数据库或与之相耦合,该广告数据库包括可用来供搜索引擎106针对赞助搜索而显示的广告。此外,广告可与一个或多个搜索关键字或查询相关联。搜索关键字可被广告主购买或出价。因此,当搜索关键字或有关查询被搜索时,已出价的广告主被排列,以竞争对其广告的显示。广告主的排名顺序可由各种因素来决定,其中一些可包括广告的质量以及广告主的出价额。0019搜索日志数据库108包括在一段时间中在搜索引擎106中输入的搜索查询的至少一个子集的记录或日志,并且也可被称为。
18、搜索查询日志、搜索字词数据库、关键字数据库或查询数据库。搜索日志数据库108可存储广告服务器108在为特定搜索查询选择广告时使用的搜索关键字。搜索日志数据库108可包括在任何时间段中来自任何数目的用户的搜索查询。搜索日志数据库108中存储的查询可包括与查询相关联的相关浏览踪迹。0020图2是示例性浏览踪迹200。浏览踪迹200可包括一系列页面或网站,用户可沿着这一系列页面或网站前进。踪迹也可被称为路径或轨迹,并且可包括用户查看或选择的项目的列表。这些项目可以是诸如用户查看的网页之类的页面,或者可以指在踪迹中标识的特定产品、服务或广告。或者,踪迹可包括标识产品、服务或广告的页面。踪迹可包括用户接。
19、连访问的页面的通用资源定位符URL的列表。列表中的每个项目可由列表中的先前项目链接。项目的列表可被称为导览列BREADCRUMB。导览列可提供返回到用户为了到达当前页面而浏览过的每个先前页面的链接,对于层次结构而言,这些先前页面可以是当前页面的父页面。导览列可提供一踪迹,用户可沿着该踪迹而回到网站的起点/入口点。0021踪迹200可源自于一搜索查询,并且该踪迹是用户在该搜索之后可去往的目的地的记录或列表。在块202中,接收搜索查询,并且显示包括至少一个搜索结果的搜索结果页面。搜索结果页面和/或各个搜索结果可包括在这些页面上用户可选择的链接。例如,与搜索结果一起显示的特定广告可能是流行的并且可以。
20、是在浏览踪迹内选择的项目。或者,对来自搜索结果页面的搜索结果之一的选择可以是踪迹中的第一项目,像块204中那样。从该页面起,可能有去往第二页面的额外链接,该第二页面可表示踪迹中的下一项目,像块206中那样。类似地,可能有去往第三页面的额外链接,该第三页面可表示踪迹中的下一项目,像块208中那样。踪迹可包括用户点击了的页面的列表,其可包括N个项目,像块210中那样。或者,额外的链接第二页面可能不是从第一页面链接来的。0022踪迹可包括用户的潜在浏览会话以及用户可能查看的页面。浏览会话可包括多个踪迹。例如,用户可能具有一踪迹,该踪迹包括搜索和检阅数码相机。该用户也可具有另一踪迹,该另一踪迹包括搜索。
21、和选择棒球比赛的票证。该踪迹可能开始于接收到的搜索查询以及随后的搜索结果页面,如图2中所示。用户查看的、与该查询有关的页面可被认为是该查询的踪迹。如上所述,可以基于接收到的查询以及额外的数据或因素来为用户识别和预测踪迹。0023工具条日志数据库110包括在一段时间中一个或多个用户的浏览历史的至少一个子集的记录或日志,并且也可被称为工具条日志、浏览数据库或浏览日志。客户端设备102可包括跟踪或监视机制,该机制记录客户端设备102的用户的浏览历史。在一个系统中,该踪迹/监视机制可以是结合WEB浏览器而安装在客户端设备102上的搜索工具条。该说明书CN102007494ACN102007508A4/。
22、10页7工具条可允许用户选择提供可被存储在工具条日志数据库110中的使用情况统计数据。这些使用情况统计数据可包括搜索历史和浏览历史。这些统计数据可包括用户考察过的踪迹并且可用于识别用户可执行的常见踪迹。在一个示例中,用户在提交查询后所遵循的踪迹可被记录在工具条日志数据库110中。0024搜索日志数据库108或工具条日志数据库110也可与单元字典未示出相耦合。单元字典可以是以单元UNIT的形式相互耦合的用户查询或搜索关键字的数据库。单元也可被称为概念或主题,并且是出现在搜索查询中的一个或多个单词的序列。例如,搜索查询“NEWYORKCITYLAWENFORCEMENT”可包括两个单元,例如“NE。
23、WYORKCITY”可以是一个单元,而“LAWENFORCEMENT”可以是另一单元。单元是标识单个概念的常见单词的短语。又例如,搜索查询“CHICAGOARTMUSEUMS”可包括两个单元,例如“CHICAGO”和“ARTMUSEUMS”。“CHICAGO”单元是单个单词,而“ARTMUSEUMS”是双单词单元。单元标识常见的关键字群组,以使搜索结果的效率和相关性最大化。单元字典和将搜索查询分成单元的分类可用于分析由搜索引擎106接收到的查询。搜索查询可被分解成单元,这些单元用于分析搜索历史,以便识别和生成踪迹。将搜索查询分成单元的分类在与本申请属于同一所有者的、于2006年5月23日授权公。
24、告的题为“SYSTEMSANDMETHODSFORGENERATINGCONCEPTUNITSFROMSEARCHQUERIES”的美国专利NO7,051,023中有所论述,特此通过引用将该专利并入。0025踪迹生成器112可以是用于基于搜索查询和额外数据和/或因素来分析和识别踪迹的计算设备。客户端设备102、搜索日志数据库108和/或工具条日志数据库110可与踪迹生成器112相耦合。踪迹生成器112可接收来自客户端设备102和/或搜索引擎106的用户查询,并且基于对该用户查询的分析来识别潜在踪迹。0026踪迹生成器112包括处理器120、存储器118、软件116和接口114。踪迹生成器112。
25、可以是与搜索引擎106分开的组件,或者可以结合为单个组件或设备。接口114可与客户端设备102、搜索引擎106、搜索日志数据库108和/或工具条日志数据库110中的任何一个通信。接口114可包括被配置为使用户可与踪迹生成器112的任何组件交互的用户接口。例如,用户可以在踪迹中编辑、添加或删除项目,或者更新被踪迹生成器112所使用的使用情况统计数据。0027踪迹生成器112中的处理器120可包括中央处理单元CPU、图形处理单元GPU、数字信号处理器DSP或其他类型的处理设备。处理器120可以是多种系统中的任何一种中的组件。例如,处理器120可以是标准个人计算机或工作站的一部分。处理器120可以是。
26、一个或多个通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列、服务器、网络、数字电路、模拟电路、其组合、或者其他现在已知的或以后开发出的用于分析和处理数据的设备。处理器120可与软件程序例如手工生成即,编程的代码协同工作。0028处理器120可与存储器118相耦合,或者存储器118可以是单独的组件。接口114和/或软件116可被存储在存储器118中。存储器118可包括但不限于计算机可读存储介质,例如各种类型的易失性和非易失性存储介质,包括随机存取存储器、只读存储器、可编程只读存储器、电可编程只读存储器、电可擦除只读存储器、闪存、磁带或磁盘、光介质等等。存储器118可包括用于处理器120。
27、的随机存取存储器。或者,存储器118可以与处理器说明书CN102007494ACN102007508A5/10页8120分开,例如处理器的缓存存储器、系统存储器或其他存储器。存储器118可以是用于存储所记录的图像数据的外部存储设备或数据库。示例包括硬盘驱动器、压缩盘“CD”、数字视频盘“DVD”、存储卡、记忆棒、软盘、通用串行总线“USB”存储设备、或者任何其他可操作来存储图像数据的设备。存储器118可操作以存储可由处理器120运行的指令。0029附图中示出或在这里描述的功能、动作或任务可通过编程的处理器运行存储器118中存储的指令来执行。这些功能、动作或任务独立于特定类型的指令集、存储介质、。
28、处理器或处理策略,并且可通过单独或组合工作的软件、硬件、集成电路、固件、微代码等等来执行。类似地,处理策略可包括多处理、多任务、并行处理等等。处理器120被配置为运行软件116。软件116可包括用于基于接收到的查询来分析和识别踪迹以便显示的指令。0030接口114可以是用户输入设备或显示器。接口114可包括键盘、小键盘或光标控制设备例如鼠标、或者控制杆、触摸屏显示器、遥控器或者任何其他可操作来与踪迹生成器112交互的设备。接口114可包括与处理器120相耦合并被配置为显示来自处理器120的输出的显示器。该显示器可以是液晶显示器LCD、有机发光二极管OLED、平板显示器、固态显示器、阴极射线管C。
29、RT、投影仪、打印机或其他现在已知或将来开发出的用于输出所确定的信息的显示设备。该显示器可以充当供用户看到处理器120的运作的接口,或者充当与软件116的接口,用于提供输入参数。尤其,接口114可允许用户与踪迹生成器112交互以查看或修改对与用户查询有关的踪迹的分析和识别。0031系统100中的任何组件都可通过网络相互耦合。例如,踪迹生成器112可经由网络与搜索引擎106、搜索日志数据库108或工具条日志数据库110相耦合。系统100中的任何组件都可包括被配置为与网络相连接的通信端口。本公开设想到了计算机可读介质,该计算机可读介质包括指令或者接收并运行响应于传播的信号的指令,使得连接到网络的设。
30、备可以经由网络传输语音、视频、音频、图像或任何其他数据。这些指令可以经由通信端口通过网络来发送或接收,或者可以是单独的组件。该通信端口可以用软件来创建或者可以是硬件形式的物理连接。该通信端口可被配置为与网络、外部介质、显示器或系统100中的任何其他组件或其组合相连接。与网络的连接可以是物理连接,例如有线以太网连接,或者可以无线地建立,如下所述。类似地,与系统100的其他组件的连接可以是物理连接或者可以无线地建立。0032可连接系统100中的任何组件以使能设备之间的数据通信的一个或多个网络可包括有线网络、无线网络或其组合。无线网络可以是蜂窝电话网络、根据诸如由电气和电子工程师学会发布的IEEE8。
31、0211、80216、80220之类的标准化协议工作的网络、或者WIMAX网络。另外,该一个或多个网络可以是公共网络例如因特网、专用网络例如内联网或者其组合,并且可以利用现在可得或以后开发出的多种联网协议,包括但不限于基于TCP/IP的联网协议。该一个或多个网络可包括局域网LAN、广域网WAN、直接连接例如通过通用串行总线USB端口等等中的一种或多种,并且可包括构成因特网的一组互连网络。该一个或多个网络可包括任何通信方法,或使用任何形式的机器可读介质,用于将信息从一个设备传输到另一个设备。例如,搜索引擎106可经由网络例如网络104向客户端设备102提供页面。0033搜索引擎106、搜索日志数。
32、据库108、工具条日志数据库110、踪迹生成器112和/或客户端设备102可表示各种计算设备。这种计算设备一般可包括任何被配置为执行计算说明书CN102007494ACN102007508A6/10页9并能够通过一个或多个有线和/或无线通信接口来发送和接收数据通信的设备。这种设备可被配置为根据如上所述的多种网络协议中的任何一种来通信。例如,客户端设备102可被配置为运行浏览器应用,该浏览器应用使用HTTP来向搜索引擎106请求信息,比如网页。本公开设想到了计算机可读介质,该计算机可读介质包括指令或者接收并运行响应于传播的信号的指令,使得任何连接到网络的设备可以经由网络传输语音、视频、音频、图像。
33、或任何其他数据。0034图3示出了示例性踪迹生成器。如针对图1所述,踪迹生成器112可接收搜索查询并且分析与该查询和/或搜索结果有关的潜在浏览踪迹。相关或流行的踪迹可结合搜索结果被显示。踪迹生成器112可包括接收器302、分析器304和识别器306。踪迹生成器112或其任何组件可表示各种计算设备。图3所示的任何组件可以用软件116来实现、存储在存储器118中并由处理器120运行,如图1所示。0035接收器302可以从搜索引擎106接收用户查询,搜索引擎106可以从客户端设备102接收该用户查询。接收器302还可接收可用于识别踪迹的信息或数据。踪迹和踪迹信息可被分析器304所分析。图4示出了可被。
34、接收器302接收并被分析器304分析的踪迹识别因素400。踪迹识别因素400可用于响应于接收到的查询而生成踪迹。在其他实施例中,在识别和生成踪迹时可使用更多或更少的因素400。0036原始用户查询402是第一踪迹识别因素。所生成的踪迹可至少部分基于原始用户查询402。此外,踪迹可基于原始用户查询402的搜索结果。来自搜索日志数据库108的搜索日志数据404可提供历史搜索数据,以及历史浏览数据。类似地,来自工具条日志数据库110的工具条日志数据406可提供历史搜索数据和/或历史浏览数据。数据404、406可用于识别相关踪迹并且可包括其他因素400。0037点进率CLICKTHROUGHRATE,。
35、CTR和/或流行度408可以是另一种踪迹识别因素。页面上的更加流行的项目或链接可用于建立踪迹。例如,某一查询的搜索结果可导致用户点击这些结果或者点击来自这些搜索结果的链接或站点。更流行的目的地可被识别为该搜索查询的潜在踪迹。流行度可以基于根据搜索日志数据404和/或工具条日志数据406测量的点击。0038图5是示例性搜索屏幕500。搜索查询是针对“IPHONE”的并且搜索结果502被显示。如图所示,搜索限于域站点TECHMEMECOM,然而搜索可以在任何域上,而不是必须要受限。踪迹504可包括先前用户点击过的流行链接。这些链接可以是从搜索结果的页面链接的。例如,第一踪迹链接506是与ZUNE2。
36、有关的博客文章,第二踪迹链接508是关于IPHONEEXTREME的。搜索/工具条数据可指示出第一踪迹链接506是搜索过“IPHONE”并且点进过一些搜索结果的用户的流行目的地。在一个示例中,第一踪迹链接506可以是来自第一搜索结果510内的链接。换言之,用户可以点击以查看第一搜索结果510,并最终从第一搜索结果510的页面中查看第一踪迹链接506的链接。0039返回参考图4,相关度410是额外踪迹识别因素。相关度410可涉及潜在的踪迹是否与原始搜索查询有关。例如,生成搜索结果的搜索技术可用于判定潜在踪迹是否与查询有关。该关系可基于潜在踪迹与搜索结果之间的比较。该关系可基于该查询与搜索结果和潜。
37、在链接之间的比较。该比较可包括考虑搜索结果的标题、概要、URL和描述。0040可链接度412和用户意图414可以是额外的踪迹识别因素。可链接度412可以指说明书CN102007494ACN102007508A7/10页10其他页面链接到特定站点的数量或频率。与很少被链接的站点相比,被频繁链接的站点可以是踪迹的更好候选者。用户意图414可以是关于用户或客户端利用每个查询要搜索什么的度量。用户意图414可以基于搜索查询和/或用户在查看搜索结果之后的浏览路径来确定。此外,用户意图414可以是基于先前搜索查询或过去搜索数据的,该过去搜索数据标识出用户基于搜索查询的常见目标。用户意图414在下述专利申请。
38、中有进一步描述,该专利申请描述了可以是用户意图414的任务和目标,特此通过引用将其并入与本申请转让给同一受让人的、于2007年12月14日提交的、KRISTINALISAKLINKNER和ROSIEJONES的题为“SEGMENTATIONOFSEARCHTOPICSINQUERYLOGS”的美国专利申请NO11/957,150、现在为美国专利公布NO_/_,_,代理人案卷号12729/339、Y02729US00。0041人口统计数据416可以是用于识别踪迹的一种考虑因素。例如,用户的位置或性别可以是用来识别潜在踪迹的一种因素。链接的新近度或新鲜度418也可被考虑。在踪迹中显示较新的链接或者。
39、避免显示去往较旧的信息或已经有一段时间没有更新的站点的链接,可能是有益的。另外,踪迹可被显示在各搜索结果附近。例如,在一个示例中,潜在踪迹可被显示在每个搜索结果下方。0042查询扩展420和图理论422可以是踪迹识别的另外的考虑因素。图理论422可以贡献出一种算法,例如广度优先搜索,用于从起始网页起高效地遍历和发现网站链接。查询扩展420可以取得用户的查询,将其发布给搜索引擎,并且检阅来自WEB搜索结果的文本,以为该查询构建代表性文档。传统的信息检索IR算法可用于根据该文档来计算字词频率逆文档频率TERMFREQUENCYINVERSEDOCUMENTFREQUENCY,TFIDF加权型词袋B。
40、AGOFWORDS式字词向量。例如,搜索结果的标题、URL、概要和描述可用于为特定搜索提供加权词袋。利用此查询文档,系统可计算该查询文档与踪迹的候选WEB文档之间的余弦或杰卡德相似度。该相似度得分可表示用户的查询与网站的相关度。踪迹选择可以最大化WEB链接的查询相关度和流行度。0043返回参考图3,识别器306接收经分析的踪迹识别因素400。尤其,识别器306可使用来自分析器304的经分析的因素400来识别潜在踪迹链接。如上所述,潜在踪迹链接可以结合搜索结果一起显示,如图5所示。0044图6是用于识别踪迹的过程。在块602中,在搜索引擎106处从客户端设备102的用户接收查询。该查询可被发送到。
41、踪迹生成器112的接收器302。在块604中,可为分析器304收集踪迹识别因素信息400。在块606中,分析器304可分析踪迹识别因素400。基于对因素400的分析,像块608中那样,识别踪迹。此踪迹随后可结合搜索结果一起显示。在块610中,可重复来自块606的分析,以便识别要结合搜索结果一起显示的额外的踪迹。踪迹可包括被显示的一个或多个链接。在一个示例中,图5示出了具有两个链接的踪迹;然而,也可显示更多或更少链接。0045图7是另一示例性搜索屏幕700。屏幕700示出了搜索查询框701中接收到的针对“YAHOOSEARCH”的用户查询。如图所示,该搜索限于域站点TECHMEMECOM,然而,。
42、搜索也可在任何域上,而是不必受限。搜索结果702示出了与该查询相关的WEB链接。所识别出的第一和第二踪迹706可表示用户的潜在未来路径。踪迹704、706可以是用户可浏览到的、来自搜索结果702中的任何一个的链接。如上所述,对踪迹的识别可以基于对因素的分析。在另外的实施例中,不是显示多个踪迹,而是可以显示控制框,该控制框可包括前进或说明书CN102007494ACN102007508A8/10页11倒退按钮,该按钮使得用户可以滚动经过可能相关的潜在链接/踪迹。从而,用户可以利用这些功能来滚动经过或查看所预测的踪迹。0046在覆盖模型环境中,踪迹可以出现在各搜索结果下。踪迹中的起始页面可以是其下。
43、显示了该踪迹的搜索结果页面。或者,踪迹也可以被显示在YAHOOSEARCHASSISTANCE层中,该层可以是显示在搜索框下的下拉菜单。SEARCHASSISTANCE层可被称为查询建议框,并且可向用户提供查询建议或有关字词,以及建议的踪迹。搜索屏幕700在屏幕700的“ALSOTRY”还可尝试708部分附近显示了额外的搜索推荐。ALSOTRY708部分可以被可为用户提供额外推荐的YAHOORESEARCHASSIST所替换。RESEARCHASSIST中的推荐的至少一部分可包括潜在踪迹。0047在一个实施例中,将描述用于识别潜在踪迹的示例性快进算法。该快进算法尝试预测用户的未来浏览位置,例如。
44、来自图7的踪迹704、706。该快进算法可以接收两个输入,包括原始查询和起始页面的通用资源定位符URL。起始页面可以是基于针对该查询的搜索的搜索结果页面中的任何一个,或者可以是与该查询相关联的另一页面。可以对查询执行查询扩展。查询扩展可包括从针对该查询的WEB搜索的顶部结果中检索URL、摘要、概要和标题。可基于这些项来加权向量。0048可以通过一函数来识别路径路径BFSSTART_URL,BRANCH_FACTOR10,DEPTH4,GRAPH_MODELPATH_SCORE,QUERY_MODELQE。BFS函数可以指广度优先搜索,这种搜索是一种用于逐级别遍历图的算法。该遍历可以限于等于10。
45、个链接的分支因子和等于4的深度。QUERY_MODELQE可以指原始查询的查询扩展。又例如,0049例如,可以爬过来自搜索结果页面的前10个链接。例如,如果第一链接是图像,则在该图像页面上,来自该页面的前十个链接或结果被识别,并且其中每一个被爬过。或者,更多或更少的链接可用作查询的搜索结果的数目和被爬过的链接的数目。爬过来自该图像页面的链接可表示第三级别。示例性的算法可爬过四个级别的深度。所爬过的全部链接是104个链接。这些页面可能已经被爬过或保存在来自WEB搜索爬行过程的表格中。在此遍历期间,图的边缘可以被收集并用BFS算法来打分并被保存在邻接列表结构表格中。0050示例性的打分函数可以是P。
46、ATH_SCOREPREV_URL,NEXT_URL,QERETURNPR_VISITPREV_URL,NEXT_URLWEIGHTSIMQE,NEXT_URL。PR_VISIT可以是从PREV_URL页面点击NEXT_URL的概率。此概率可以基于搜索数据、工具条数据、ISP日志或其他数据来确定。PR_VISIT函数可以使用以上所述的踪迹识别因素400中的任何一种来确定踪迹链接。SIM可以是取入查询向量和NEXT_URL页面函数将其转换为文档向量并且计算它们的相似度的函数。该相似度可以是关于该查询与NEXT_URL页面有多相关的度量。该相似度函数可以计算两个向量的余弦距离内积,并且返回0至1之。
47、间的得分,其中1是100相似或者说相同。被传递给SIM函数的两个向量可以对应于字词频率逆文档频率TFIDF加权型词袋式查询扩展文档向量QE和TFIDF加权型词袋式网页文档向量NEXT_URL。权重可以是遵循衰减模型的比例因子,其中,随着页面的度深度增大,对于查询相关度的重视就变得越轻。当用户从一WEB搜索结果点出去并向外浏览了十个页面时,该用户可能已经不再关注该查询了。0051排序函数可以根据示例性打分函数来确定哪些路径踪迹具有最高得分。得分较高的路径可用作结合搜索结果一起显示的快进踪迹的链接。说明书CN102007494ACN102007508A9/10页120052图8是用于产生具有多个链。
48、接的踪迹的过程。在块802中,可以分析踪迹识别因素400以识别第一踪迹链接,像块804中那样。在块806中,所识别的第一踪迹链接可用于对因素400的后续分析,以识别第二踪迹链接,像块808中那样。尤其,如果第二踪迹链接像块514中那样是从第一踪迹链接页面起的后续踪迹,则可以利用第一踪迹链接来识别第二踪迹链接。在块516中,除了第一和第二踪迹链接外,还可识别额外的踪迹。第二踪迹链接可以是从第一踪迹链接页面到达的后续页面。从而,第二踪迹链接可以是从第一踪迹链接起的常见目的地。在块510中,所识别出的第一踪迹链接可能是死路,而没有从该页面起的任何进一步链接,在此情况下,像块512中那样,独立于所识别。
49、出的第一踪迹链接来识别后续踪迹。换言之,踪迹中的链接可能不是相互有关或链接的。或者,像块514中那样,踪迹链接是相互链接的。第一踪迹链接可提供到第二踪迹链接的链接。0053所描述的系统和过程可被编码在信号承载介质、计算机可读介质例如存储器中、编程在设备例如一个或多个集成电路,以及一个或多个处理器内、或者由控制器或计算机所处理。如果方法是用软件执行的,则软件可存在于存储器其存在于存储设备中或与存储设备相接口、同步器、通信接口或与发送器通信的非易失性或易失性存储器中。电路或电子设备被设计来发送数据到另外的位置。存储器可包括用于实现逻辑功能的可运行指令的有序列表。所描述的逻辑功能或任何系统元件可以通过光学电路、数字电路、通过源代码、通过模拟电路、通过诸如模拟电气、音频或视频信号之类的模拟源或其组合来实现。软件可被包含在任何计算机可读或信号承载介质中供可运行指令的系统、装置或设备使用,或者与这些系统、装置或设备相联系地被包含在任何计算机可读或信号承载介质中。这种系统可包括基于计算机的系统、包含处理器的系统、或者可以从可运行指令的系统、装置或设备这些系统、装置或设备也可运行指令选择性地取得指令的另一系统。0054“计算机可读介质”、“机器可读介质”、“传播信号”介质和/或“信号承载介质”可包括任何这样的设备该设备存储、传输、传播或传送软件以供可运行指令的系统、装置或设备使。