使用历史搜索结果生成改进的文档分类数据.pdf

上传人:1*** 文档编号:4418655 上传时间:2018-09-30 格式:PDF 页数:39 大小:1,007.11KB
返回 下载 相关 举报
使用历史搜索结果生成改进的文档分类数据.pdf_第1页
第1页 / 共39页
使用历史搜索结果生成改进的文档分类数据.pdf_第2页
第2页 / 共39页
使用历史搜索结果生成改进的文档分类数据.pdf_第3页
第3页 / 共39页
点击查看更多>>
资源描述

《使用历史搜索结果生成改进的文档分类数据.pdf》由会员分享,可在线阅读,更多相关《使用历史搜索结果生成改进的文档分类数据.pdf(39页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102859516 A (43)申请公布日 2013.01.02 C N 1 0 2 8 5 9 5 1 6 A *CN102859516A* (21)申请号 201080024788.X (22)申请日 2010.04.07 12/420,775 2009.04.08 US G06F 17/30(2006.01) (71)申请人谷歌公司 地址美国加利福尼亚州 (72)发明人比尔盖汗乌伊加尔厄兹泰金 丘佩文 (74)专利代理机构中原信达知识产权代理有限 责任公司 11219 代理人周亚荣 安翔 (54) 发明名称 使用历史搜索结果生成改进的文档分类数据 (57) 摘要。

2、 一种服务器系统,其分别访问用于具有对应 于第一信息项和第二信息项的搜索结果的查询的 历史查询信息以及所述第一信息项的分类数据。 最初,所述第一信息项被分类而所述第二信息项 未被分类。基于所述第一信息项的分类数据以及 所述历史查询信息,所述服务器系统为所述第二 信息项生成分类数据并且将所生成的分类数据存 储于其中。响应于来自客户端设备的对服务的请 求,所述服务器系统使用所述第二信息项以及为 所述第二信息项所生成的相对应分类数据向所述 客户端设备提供定制服务。 (30)优先权数据 (85)PCT申请进入国家阶段日 2011.12.05 (86)PCT申请的申请数据 PCT/US2010/0302。

3、79 2010.04.07 (87)PCT申请的公布数据 WO2010/118162 EN 2010.10.14 (51)Int.Cl. 权利要求书6页 说明书18页 附图14页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 6 页 说明书 18 页 附图 14 页 1/6页 2 1.一种计算机实现的方法,包括: 在具有一个或多个处理器以及存储器的服务器系统处, 分别访问用于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信 息,其中所述第一信息项最初被分类而所述第二信息项最初未被分类; 访问所述第一信息项的分类数据; 基于所述第一信息项的所述分类数据以及所。

4、述历史查询信息为所述第二信息项生成 分类数据; 将所生成的分类数据存储在所述服务器系统中;以及 使用存储在所述服务器系统中的相对应分类数据向多个客户端设备提供与所述第二 信息项相关联的定制服务。 2.如权利要求1所述的计算机实现的方法,其中为最初未分类的信息项生成分类数据 包括: 识别所述历史查询信息中的查询集合,其中所述查询的至少子集均具有与所述最初未 分类的信息项相对应的相关联搜索结果; 基于所述第一信息项的所述分类数据以及所述查询集合的所述历史查询信息为所述 查询集合生成分类数据;以及 通过将所述查询子集的所生成的分类数据进行组合而生成所述最初未分类的信息项 的分类数据,所述查询子集中的。

5、每一个具有与所述最初未分类的信息项相对应的相关联搜 索结果。 3.如权利要求2所述的计算机实现的方法,进一步包括: 更新所述历史查询信息;以及 重复进行下述步骤:在所述历史查询信息中识别查询、对所述查询生成分类数据、以及 使用经更新的历史查询信息为所述最初未分类的信息项生成分类数据。 4.如权利要求2或3所述的计算机实现的方法,其中为所述查询集合生成分类数据包 括: 对于所述查询的至少子集中的每一个, 识别与该查询相对应的搜索结果的集合以及与该搜索结果的集合相对应的所述第一 信息项的集合; 依据它们的相应预定义的信息检索分值、它们的相对应搜索结果在该搜索结果的集合 中的位置以及与相对应搜索结果。

6、的用户交互信息对所识别的第一信息项的分类数据进行 加权;以及 将所识别的第一信息项的加权分类数据聚集为所述查询的分类数据。 5.如权利要求2或3所述的计算机实现的方法,其中为最初未分类的信息项生成分类 数据包括: 对于所述查询子集中的每一个, 识别与所述查询相对应的搜索结果的集合,其中所述搜索结果的集合包括与所述最初 未分类的信息项相对应的至少一个搜索结果; 依据所述最初未分类的信息项的预定义的信息检索分值、其相对应搜索结果在所述搜 索结果集合中的位置以及与相对应搜索结果的用户交互信息对所述查询的分类数据进行 权 利 要 求 书CN 102859516 A 2/6页 3 加权;以及 将所述查询。

7、子集的加权分类数据聚集为所述最初未分类的信息项的分类数据。 6.如权利要求1-5中任一项所述的计算机实现的方法,其中所述历史查询信息包括用 于用户群体所提交的查询的历史查询信息。 7.如权利要求1-6中任一项所述的计算机实现的方法,其中提供定制服务包括: 从相应客户端设备处的用户接收查询,其中所述用户具有相关联的用户简档;并且 通过以下步骤对所述查询进行响应: 识别与所述查询相对应的搜索结果的集合,其中所述搜索结果中的一个与所述第二信 息项中的一个相关联; 通过将所述第二信息项的所存储的分类数据与所述用户简档相比较来确定所述搜索 结果的分值; 依据所确定的分值将所述搜索结果关于其它搜索结果进行。

8、排序;以及 向所述客户端设备提供表示至少经排序的搜索结果的数据。 8.如权利要求1-6中任一项所述的计算机实现的方法,其中提供定制服务包括: 在所述历史查询信息中识别用户所提交的查询集合以及相对应的搜索结果,其中所述 搜索结果对应于所述第一和第二信息项中的一个或多个; 通过聚集所述一个或多个信息项的分类数据为用户生成用户简档; 将所生成的用户简档存储在所述服务器系统中;以及 响应于来自客户端设备处的用户对服务的请求,使用所存储的用户简档定制所请求的 服务。 9.如权利要求8所述的计算机实现的方法,其中定制所请求的服务包括: 响应于服务请求准备独立于用户的服务,其中所述独立于用户的服务包括所述第。

9、一和 第二信息项中的一个或多个; 通过将所述信息项的分类数据与所存储的用户简档相比较来确定所述一个或多个信 息项中每一个的分值;以及 依据它们相应的分值对所述服务中的所述一个或多个信息项进行重新排列。 10.如权利要求1-9中任一项所述的计算机实现的方法,其中所述信息项中的至少一 个是网页。 11.如权利要求1-10中任一项所述的计算机实现的方法,其中所述信息项中的至少一 个是包括多个网页的网站。 12.一种计算机系统,包括: 一个或多个处理器; 存储器;和 一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述 一个或多个处理器执行,所述一个或多个程序包括: 用于分别访问。

10、用于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查 询信息的指令,其中所述第一信息项最初被分类而所述第二信息项最初未被分类; 用于访问所述第一信息项的分类数据的指令; 用于基于所述第一信息项的所述分类数据以及所述历史查询信息为所述第二信息项 权 利 要 求 书CN 102859516 A 3/6页 4 生成分类数据的指令; 用于将所生成的分类数据存储在所述服务器系统中的指令;以及 用于使用存储在所述服务器系统中的相对应分类数据向多个客户端设备提供与所述 第二信息项相关联的定制服务的指令。 13.如权利要求12所述的计算机系统,其中用于为最初未分类的信息项生成分类数据 的指令包括: 用。

11、于识别所述历史查询信息中的查询集合的指令,其中所述查询的至少子集均具有与 所述最初未分类的信息项相对应的相关联搜索结果; 用于基于所述第一信息项的所述分类数据以及用于所述查询集合的所述历史查询信 息为所述查询集合生成分类数据的指令;以及 用于通过将所述查询子集的所生成的分类数据进行组合而为所述最初未分类的信息 项生成分类数据的指令,所述查询子集中的每一个具有与所述最初未分类的信息项相对应 的相关联搜索结果。 14.如权利要求13所述的计算机系统,进一步包括: 用于更新所述历史查询信息的指令;和 用于重复进行下述步骤的指令:在所述历史查询信息中识别查询、对所述查询生成分 类数据、以及使用经更新的。

12、历史查询信息为所述最初未分类的信息项生成分类数据。 15.如权利要求13或14所述的计算机系统,其中用于为所述查询集合生成分类数据的 指令包括: 用于识别与所述查询的至少子集中的每一个相对应的搜索结果的集合以及与该搜索 结果的集合相对应的所述第一信息项的集合的指令; 用于依据它们的相应预定义的信息检索分值、它们的相对应搜索结果在该搜索结果的 集合中的位置以及与相对应搜索结果的用户交互信息对所识别的第一信息项的分类数据 进行加权的指令;以及 用于将所识别的第一信息项的加权分类数据聚集为所述查询的分类数据的指令。 16.如权利要求13或14所述的计算机系统,其中用于为所述最初未分类的信息项生成 分。

13、类数据的指令包括: 用于识别与所述查询子集中的每一个相对应的搜索结果的集合的指令,其中所述搜索 结果的集合包括与所述最初未分类的信息项相对应的至少一个搜索结果; 用于依据所述最初未分类的信息项的预定义的信息检索分值、其相对应搜索结果在所 述搜索结果的集合中的位置以及与所述相对应搜索结果的用户交互信息对所述查询的分 类数据进行加权的指令;以及 用于将所述查询子集的加权分类数据聚集为所述最初未分类的信息项的分类数据的 指令。 17.如权利要求12-16中任一项所述的计算机系统,其中用于提供定制服务的指令包 括: 用于从相应的客户端设备处的用户接收查询的指令,其中所述用户具有相关联的用户 简档; 用。

14、于识别与所述查询相对应的搜索结果的集合的指令,其中所述搜索结果中的一个与 权 利 要 求 书CN 102859516 A 4/6页 5 所述第二信息项中的一个相关联; 用于通过将所述第二信息项的所存储的分类数据与所述用户简档相比较来确定所述 搜索结果的分值的指令; 用于依据所确定的分值将所述搜索结果关于其它搜索结果进行排序的指令;以及 用于向所述客户端设备提供表示至少经排序的搜索结果的数据的指令。 18.如权利要求12-16中任一项所述的计算机系统,其中用于提供定制服务的指令包 括: 用于在所述历史查询信息中识别用户所提交的查询集合以及相对应的搜索结果的指 令,其中所述搜索结果对应于所述第一和。

15、第二信息项中的一个或多个; 用于通过聚集所述一个或多个信息项的分类数据为所述用户生成用户简档的指令; 用于将所生成的用户简档存储在所述服务器系统中的指令;以及 用于响应于来自客户端设备处的用户对服务的请求,使用所存储的用户简档定制所请 求的服务的指令。 19.如权利要求18所述的计算机系统,其中用于定制所请求的服务的指令包括: 用于响应于服务请求准备独立于用户的服务的指令,其中所述独立于用户的服务包括 所述第一和第二信息项中的一个或多个; 用于通过将所述信息项的分类数据与所存储的用户简档相比较来确定所述一个或多 个信息项中每一个的分值的指令;以及 用于依据它们相应的分值对所述服务中的所述一个或。

16、多个信息项进行重新排列的指 令。 20.如权利要求12所述的计算机系统,其中所述一个或多个程序包括用于执行如权利 要求1-10中任一项所述的方法的指令。 21.一种计算机可读存储介质以及实现于其中的一个或多个计算机程序,所述一个或 多个计算机程序包括指令,当被计算机系统执行时,所述指令使得所述计算机系统: 分别访问用于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信 息,其中所述第一信息项最初被分类而所述第二信息项最初未被分类; 访问所述第一信息项的分类数据; 基于所述第一信息项的所述分类数据以及所述历史查询信息为所述第二信息项生成 分类数据; 将所生成的分类数据存储在所述服务器系。

17、统中;以及 使用存储在所述服务器系统中的相对应分类数据向多个客户端设备提供与所述第二 信息项相关联的定制服务。 22.如权利要求21所述的计算机可读存储介质,其中用于为最初未分类的信息项生成 分类数据的指令包括: 用于识别所述历史查询信息中的查询集合的指令,其中所述查询的至少子集均具有与 所述最初未分类的信息项相对应的相关联搜索结果; 用于基于所述第一信息项的所述分类数据以及用于所述查询集合的所述历史查询信 息为所述查询集合生成分类数据的指令;以及 用于通过将所述查询子集的所生成的分类数据进行组合而为所述最初未分类的信息 权 利 要 求 书CN 102859516 A 5/6页 6 项生成分类。

18、数据的指令,所述查询子集中的每一个具有与所述最初未分类的信息项相对应 的相关联搜索结果。 23.如权利要求22所述的计算机可读存储介质,进一步包括: 用于更新所述历史查询信息的指令;和 用于重复下述步骤的指令:在所述历史查询信息中识别查询、对所述查询生成分类数 据、以及使用经更新的历史查询信息为所述最初未分类的信息项生成分类数据。 24.如权利要求22或23所述的计算机可读存储介质,其中用于为所述查询集合生成分 类数据的指令包括: 用于识别与所述查询的至少子集中的每一个相对应的搜索结果的集合以及与该搜索 结果的集合相对应的所述第一信息项的集合的指令; 用于依据它们的相应预定义的信息检索分值、它。

19、们的相对应搜索结果在该搜索结果的 集合中的位置以及与相对应搜索结果的用户交互信息对所识别的第一信息项的分类数据 进行加权的指令;以及 用于将所识别的第一信息项的加权分类数据聚集为所述查询的分类数据的指令。 25.如权利要求22或23所述的计算机可读存储介质,其中用于为最初未分类的信息项 生成分类数据的指令包括: 用于识别与所述查询子集中的每一个相对应的搜索结果的集合的指令,其中所述搜索 结果的集合包括与所述最初未分类的信息项相对应的至少一个搜索结果; 用于依据所述最初未分类的信息项的预定义的信息检索分值、其相对应搜索结果在所 述搜索结果的集合中的位置以及与所述相对应搜索结果的用户交互信息对所述。

20、查询的分 类数据进行加权的指令;以及 用于将所述查询子集的加权分类数据聚集为所述最初未分类的信息项的分类数据的 指令。 26.如权利要求21所述的计算机可读存储介质,其中用于提供定制服务的指令包括: 用于从相应的客户端设备处的用户接收查询的指令,其中所述用户具有相关联的用户 简档; 用于识别与所述查询相对应的搜索结果的集合的指令,其中所述搜索结果中的一个与 所述第二信息项中的一个相关联; 用于通过将所述第二信息项的所存储的分类数据与所述用户简档相比较来确定所述 搜索结果的分值的指令; 用于依据所确定的分值将所述搜索结果关于其它搜索结果进行排序的指令;以及 用于向所述客户端设备提供表示至少经排序。

21、的搜索结果的数据的指令。 27.如权利要求21-26中任一项所述的计算机可读存储介质,其中用于提供定制服务 的指令包括: 用于在所述历史查询信息中识别用户所提交的查询集合以及相对应的搜索结果的指 令,其中所述搜索结果对应于所述第一和第二信息项中的一个或多个; 用于通过聚集所述一个或多个信息项的分类数据为所述用户生成用户简档的指令; 用于将所生成的用户简档存储在所述服务器系统中的指令;以及 用于响应于来自客户端设备处的用户对服务的请求,使用所存储的用户简档定制所请 权 利 要 求 书CN 102859516 A 6/6页 7 求的服务的指令。 28.如权利要求27所述的计算机可读存储介质,其中用。

22、于定制所请求的服务的指令包 括: 用于响应于服务请求准备独立于用户的服务的指令,其中所述独立于用户的服务包括 所述第一和第二信息项中的一个或多个; 用于通过将所述信息项的分类数据与所存储的用户简档相比较来确定所述一个或多 个信息项中每一个的分值的指令;以及 用于依据它们相应的分值对所述服务中的所述一个或多个信息项进行重新排列的指 令。 29.如权利要求21所述的计算机可读存储介质,其中所述一个或多个计算机程序包括 用于执行如权利要求1-10中任一项所述的方法的指令。 权 利 要 求 书CN 102859516 A 1/18页 8 使用历史搜索结果生成改进的文档分类数据 技术领域 0001 所公。

23、开的实施例一般地涉及在客户端-服务器环境上提供的在线服务,更具体地 涉及用于对信息进行分类并且使用分类的信息提供定制在线服务的系统和方法。 背景技术 0002 借助于如Google的搜索引擎,互联网已经成为了人们接收信息的主要场所。但是 找到并派发与特定个人的需求和搜索兴趣最佳匹配的信息已经成为了搜索引擎所面临的 挑战。首先,不同的个人对于信息具有十分不同的偏好,并且难以准确识别个人的搜索兴 趣。这个问题由于人的兴趣经常是动态的且随时间变化而更为复杂。其次,互联网上的许 多网页是未分类或错误分类的。没有对网页所提供的信息建立简档所必需的分类数据,搜 索引擎的服务质量会由于在搜索结果中包括较不相。

24、关的网页同时错失更为相关的网页而 受到不利的影响。 发明内容 0003 在一些实施例中,在远离客户端设备的服务器系统处,所述服务器系统分别访问 关于具有对应于第一信息项和第二信息项的搜索结果的查询的历史查询信息以及所述第 一信息项的分类数据。最初,所述第一信息项被分类而所述第二信息项未被分类。基于所 述第一信息项的分类数据以及所述历史查询信息,所述服务器系统为所述第二信息项生成 分类数据并且将所生成的分类数据存储于其中。响应于来自客户端设备的对服务的请求, 所述服务器系统使用所述第二信息项以及为所述第二信息项所生成的相应分类数据向所 述客户端设备提供定制服务。 0004 在一些实施例中,一种远。

25、离客户端设备的服务器系统包括一个或多个处理器、存 储器以及一个或多个程序。所述程序存储在所述存储器中并且被配置为由所述处理器执 行。所述程序包括用于分别访问关于具有对应于第一信息项和第二信息项的搜索结果的查 询的历史查询信息以及所述第一信息项的分类数据的指令。所述第一信息项最初被分类而 所述第二信息项最初未被分类。所述程序还包括用于基于所述第一信息项的分类数据以及 所述历史查询信息为所述第二信息项生成分类数据的指令;用于将所生成的分类数据存储 在所述服务器系统中的指令;以及用于使用所述服务器中存储的相应分类数据向多个客户 端设备提供与所述第二信息项相关联的定制服务的指令。 0005 在一些实施。

26、例中,一种其中存储有指令的计算机可读存储介质,当被服务器系统 的一个或多个处理器执行时,所述指令使得所述服务器系统分别访问关于具有对应于第一 信息项和第二信息项的搜索结果的查询的历史查询信息以及所述第一信息项的分类数据。 所述第一信息项最初被分类而所述第二信息项最初未被分类。当被所述服务器系统的一个 或多个处理器执行时,所述指令还使得所述服务器系统基于所述第一信息项的分类数据以 及所述历史查询信息为所述第二信息项生成分类数据,将所生成的分类数据存储在所述服 务器系统中,并且使用所述服务器中存储的相应分类数据向多个客户端设备提供与所述第 说 明 书CN 102859516 A 2/18页 9 二。

27、信息项相关联的定制服务。 附图说明 0006 图1是根据本发明一些实施例的包括信息服务器系统的分布式客户端-服务器计 算系统的框图。 0007 图2A是依据一些实施例的查询日志数据库用来存储用户集合的历史查询信息的 数据结构的框图。 0008 图2B是依据一些实施例的查询简档数据库用来存储查询简档集合的信息的数据 结构的框图。 0009 图2C是依据一些实施例的信息分类数据库和信息分类种子数据库用来存储信息 项集合的信息的数据结构的框图。 0010 图2D是依据一些实施例的用户简档数据库用来存储用户简档集合的信息的数据 结构的框图。 0011 图3A是图示依据一些实施例的用于构建查询简档数据库。

28、的示例性过程的流程 图。 0012 图3B是图示依据一些实施例的用于构建信息分类数据库的示例性过程的流程 图。 0013 图3C是图示依据一些实施例的用于构建用户简档数据库的示例性过程的流程 图。 0014 图3D是图示依据一些实施例的使用其它信息项的分类数据对信息项进行分类的 示例的框图。 0015 图4是图示依据一些实施例的用于处理查询并且使用用户简档和信息分类数据 对相应查询结果进行排序的示例性过程的框图。 0016 图5A是图示依据一些实施例的用于生成分类数据并且使用所述分类数据提供定 制服务的示例性过程的流程图。 0017 图5B是图示依据一些实施例的用于使用用户的用户简档和分类数据。

29、向远程客户 端设备处的用户提供个性化搜索结果的示例性过程的流程图。 0018 图6是依据一些实施例的示例性客户端设备的框图。 0019 图7是依据一些实施例的示例性服务器系统的框图。 具体实施方式 0020 现在将详细参见实施例,其示例在附图中进行图示。虽然将结合所述实施例对本 发明进行描述,但是将要理解的是,本发明并不局限于这些特定实施例。相反,本发明包括 落入所附权利要求的精神和范围之内的替换、修改和等同形式。给出多种特定细节是为了 提供对这里所呈现的主题的全面理解。但是对于本领域技术人员显而易见的是,所述主题 可以在没有这些特定细节的情况下进行实践。在其它实例中,没有对已知的方法、过程、。

30、组 件和电路进行详细描述以免不必要地对实施例的多个方面造成混淆。 0021 图1是根据本发明一些实施例的分布式客户端-服务器计算系统100的框图,其 包括信息服务器系统130。信息服务器系统130通过一个或多个通信网络120连接到多个 说 明 书CN 102859516 A 3/18页 10 客户端104和网站102。 0022 网站102可以包括与互联网上的域名相关联的网页114的集合。每个网站(或网 页)具有内容位置标识符,例如统一资源定位符(URL),其唯一地识别网站在互联网上的位 置。 0023 客户端104(有时被称作“客户端系统”或“客户端设备”或“客户端计算机”)可 以是客户端1。

31、04的用户能够通过其向信息服务器系统130提交服务请求并从信息服务器 系统130接收搜索结果或其它服务的任意计算机或类似设备。示例包括台式计算机、膝上 计算机、平板计算机、诸如移动电话的移动设备、个人数字助理、机顶盒,或者以上的任意组 合,但是并不局限于此。各客户端104可以包含至少一个用于向信息服务器系统130提交 请求的客户端应用106。例如,客户端应用106可以是web浏览器或者允许用户在网站102 进行搜索、浏览和/或使用信息(例如,网页和web服务)的其它类型的应用。在一些实施 例中,客户端104包括一个或多个客户端助理108。该客户端助理108可以是执行与协助用 户关于客户端应用1。

32、06和/或其它应用的活动相关的一个或多个任务的软件应用。例如,客 户端助理108可以协助客户端104处的用户浏览网站102所托管的信息(例如,文件),处 理从信息服务器系统130所接收的信息(例如,搜索结果),并且监视用户针对搜索结果的 活动。在一些实施例中,客户端助理108被嵌入在一个或多个网页(例如,搜索结果网页) 或者从信息服务器系统130下载的其它文档中。在一些实施例中,客户端助理108是客户 端应用106的一部分(例如,web浏览器的插件)。 0024 通信网络120可以是有线或无线的局域网(LAN)和/或广域网(WAN),诸如内联 网、外联网、互联网,或者这些网络的组合。在一些实施。

33、例中,通信网络120使用超文本传输 协议(HTTP)和传输控制协议/互联网协议(TCP/IP)在不同网络之间传输信息。HTTP允许 客户端设备经由通信网络120访问可在互联网上获得的各种信息。然而,本发明的各个实 施例不局限于使用任何特定的协议。如该说明书通篇使用的术语“信息项”是指可经由内容 位置标识符(例如,URL)进行访问的任意信息片段或服务,并且例如可以是网页、包括多个 网页的网站、文档(例如,图片、图像、绘图、书籍、XML文档、文字处理文档、电子表单文档、 展示文档,或者可以使用搜索引擎进行索引并且被用于搜索的任意其它文档)、视频/音频 流、数据库或数据库记录、计算对象、搜索引擎,或。

34、者其它在线信息服务。 0025 在一些实施例中,信息服务器系统130包括前端服务器122、查询处理器124、搜索 引擎126、简档管理器128、信息分类器136、查询日志数据库140、用户简档数据库132、信息 分类种子数据库138和信息分类数据库134。在一些实施例中,信息服务器系统130还包括 查询简档数据库142,而在其它一些实施例中,由于在查询简档被用来跨相应查询的搜索结 果“传播”分类信息之后不被保留而并不需要该数据库142。信息服务器系统130从客户端 104接收查询,对所述查询进行处理以产生搜索结果,并且将所述搜索结果返回进行查询的 客户端104。(由进行请求的客户端104或者客。

35、户端104处的相应请求者所发送的)相应 查询的搜索结果至少部分地基于来自信息分类数据库134的信息分类数据以及从用户简 档数据库132所获得的查询请求者的用户简档而被进一步处理以产生要返回给进行请求 的客户端104的搜索结果的有序集合。 0026 前端服务器122被配置为从客户端104接收查询。该查询由搜索引擎126和查询 处理器124进行处理以产生搜索结果的集合。查询处理器124被配置为使用信息分类数据 说 明 书CN 102859516 A 10 4/18页 11 库134中所存储的分类数据以及用户简档数据库132中所存储的用户简档信息来确定用于 显示的搜索结果的顺序。可选地,查询处理器1。

36、24被实现为搜索引擎126的一部分;可替选 地,查询处理器124被实现为单独的服务器或服务器集合。 0027 在从信息服务器系统130接收了搜索结果之后,客户端104向用户显示所述搜索 结果。在一些实施例中,客户端助理108监视用户针对搜索结果的活动并且生成相应的搜 索结果使用数据。所述搜索结果使用数据可以包括以下的一个或多个:用户对一个或多个 搜索结果的选择(也被称作“点击”数据)、选择持续时间(用户选择搜索结果中的URL链 接和用户从搜索结果文档退出或者选择搜索结果中另一个URL链接之间的时间量),以及 关于搜索结果的指示器活动。在一些实施例中,所述搜索结果使用数据被发送到信息服务 器系统。

37、130,并且连同闪现(impression)数据一起存储在查询日志数据库140中以更新用 户简档数据库132和信息分类数据库134。典型地,关于历史搜索查询的闪现数据包括所列 出的每个搜索结果的一个或多个分值,诸如信息检索分值,以及指示搜索查询的搜索结果 的顺序或者等同地每次搜索在搜索查询的搜索结果集合中的位置的位置数据。 0028 查询日志数据库140存储历史查询信息,对于各查询而言,所述历史查询信息包 括查询的查询词语(206,图2A)、搜索结果(210-1,图2A)、闪现数据(例如,搜索结果的一 个或多个信息检索(IR)分值和(指示所显示的搜索结果的顺序的)搜索结果的位置数据, 以及搜索。

38、结果的点击数据(搜索结果的用户选择)。在一些实施例中,关于各查询的存储 在查询日志数据库140中的历史查询信息还包括搜索结果的用户导航统计数据。可选地, 各查询的历史查询信息进一步包括其它信息,诸如搜索请求者的位置信息(例如,城市、 州、国家或地区)以及查询语言。其信息被存储在查询日志数据库140中的查询是来自用 户群体的查询,诸如对应搜索引擎126的所有用户。在一些实施例中,所述系统包括多个查 询日志数据库,或者查询日志数据库140被分区,其中每个查询日志数据库或分区存储与 从相应用户群体接收的查询相对应的记录,所述用户群体诸如以特定语言(例如,英语、日 语、中文、法语、德语等)提交查询的所。

39、有用户,从特定国家或其它司法管辖区或者从特定 IP地址范围提交查询的所有用户,这些标准的任意适当组合。 0029 用户简档数据库132存储多个用户简档,每个用户简档对应于相应的用户。在一 些实施例中,用户简档包括多个子简档,每个子简档依据预定义的标准对用户的相应方面 进行分类。在一些实施例中,用户简档对应于用户组(例如,共享特定客户端104的用户, 或者从特定网站或网页访问搜索引擎的所有用户)。用户简档数据库132至少可由查询处 理器124和简档管理器128访问。简档管理器128创建并维护信息服务器系统130的用户 的至少一些用户简档。如以下更为详细描述的,简档管理器128使用查询日志数据库1。

40、40 中所存储的用户的搜索历史来确定用户的搜索兴趣。 0030 信息分类数据库134存储互联网上各种信息项的分类数据,并且至少可由查询处 理器124和信息分类器136访问。如以下结合图5A所讨论的,信息分类器136被配置为对 信息项进行分类或归类并且将分类数据存储在信息分类数据库134中。在一些实施例中, 信息分类器136使用查询日志数据库140中所存储的历史查询信息(例如,闪现数据和结 果使用数据)和信息分类种子数据库138中所存储的一些分类信息项的分类种子数据为那 些还没有分类的信息项生成分类数据。 0031 信息分类器136依赖于查询日志数据库140中的历史查询信息来构建并维护信息 说 。

41、明 书CN 102859516 A 11 5/18页 12 分类数据库134。如以下将参考图3C所描述的,信息分类器136还被配置为使用信息分类 数据库134中的分类数据和历史查询信息来生成用户简档信息。 0032 图2A图示了依据一些实施例的用于存储涉及用户集合的历史查询信息的数据结 构200。数据结构200包括多个查询记录202-1-202-N,每个记录对应于相应用户在相应时 间从相应位置提交的信息服务器系统130针对其维护查询相关信息的查询。在一些实施例 中,查询记录202可以包括以下中的一个或多个:用户ID(识别提交与记录202相对应的查 询的用户)和会话ID 204;查询的查询词语2。

42、06;以及包括表示所述查询的搜索结果的多 个URL ID(例如,210-1.210-Q)的查询历史信息208,以及关于搜索结果中的URL ID的 附加信息(212-1.212-Q)。在一些实施例中,相应查询的查询记录202仅存储前Q个(例 如,40或50个)搜索结果的信息,即使查询可能生成数目远大于此的搜索结果。 0033 在一些实施例中,查询历史信息中相应URL ID的附加信息包括URL的闪现数据 (例如,IR(信息检索)分值,其是URL与查询的相关度的量度,以及URL在搜索结果中的位 置);URL的导航率(URL的用户选择和诸如查询提交之前的一周或一个月的特定时间段内 针对相同查询的搜索结。

43、果中所有URL的用户选择之间的比率);以及指示URL是否被用户 在所有URL中选择的点击数据。注意,URL的导航率指示其在已经提交相同查询的用户之 间关于其它URL的流行度。可选地,与URL相关联的附加信息识别包含该URL的信息项,诸 如其它网页、图像、视频、书籍等。在一些实施例中,查询记录202还包括查询的地理和人口 统计信息,如提交查询的国家/地区以及查询的语言。例如,对于从不同国家或者在不同时 间提交的相同查询词语集合,搜索结果可能有所不同。如以下将会解释的,查询日志数据库 中的信息可以被用来对大量URL生成准确的分类数据。 0034 用户ID 204是用于识别提交查询的用户(有时是客户。

44、端)的唯一标识符。在许 多实施例中,为了保护系统用户的隐私,用户ID 204唯一地识别用户或客户端,但是不能 被用来识别用户的姓名或其它识别信息。这同样应用于以下关于图2D所讨论的用户简档 记录242的用户ID244。在一些实施例中,在用户第一次登录到信息服务器系统或者在之前 的会话期满之后再次登录到系统时,在客户端104和信息服务器系统130之间建立网络通 信会话。在任一种情况下,都为会话创建唯一的会话ID 204,并且其成为查询记录202的一 部分。查询词语206可以是用户原始提交的那些词语或者被规格化为服务器系统所采用的 格式的那些词语。 0035 对于每个查询,信息服务器系统130识别。

45、对应于该查询的一组搜索结果。典型地, 搜索结果包括URL(或IP地址)、来自URL所识别的网页的文本摘录以及其它辅助项。搜索 结果的集合依据它们对于查询的相应相关度进行排序,以使得更加相关的结果在较不相关 的结果之前显示。例如,如果存在每页显示不超过10个结果的限制,则45个搜索结果的集 合被划分为5个结果页面。在第一页面上显示的结果被认为与第二页面上的结果相比与查 询更加相关并且因此被首先显示。在一些实施例中,所显示的搜索结果页面也被称作搜索 结果的闪现。在一个结果页面或者搜索结果的一个闪现内,处于浏览器窗口顶端或顶端附 近的位置被保留给更为相关的结果,这是因为其通常比窗口中的其它地方受到更。

46、多关注。 0036 在客户端104,客户端助理108监视用户针对所显示的搜索结果的活动,诸如用户 访问的闪现、用户花费在不同搜索结果上的时间量(例如,通过追踪用户光标在搜索结果 上的位置)以及用户所点击的URL链接。该用户交互信息以及表征搜索结果使用的其它数 说 明 书CN 102859516 A 12 6/18页 13 据被发送回信息服务器系统130并且连同相应的URL ID 210一起存储在数据结构200中 (在查询历史信息208中)。 0037 图2B描绘了依据一些实施例的用于存储查询简档的示例性数据结构220的框图。 与图2A的数据结构类似,数据结构220包括多个查询简档记录214-1。

47、至214-P,其中的每一 个对应于一个用户所提交的查询。当许多用户提交了相同的查询时,单个查询简档214存 储该查询的简档信息。在一些实施例中,每个查询简档记录214包含识别特定查询的查询 ID 215、查询中的相应查询词语集合216以及用于对查询分类的类别列表217。可选地,查 询简档214可以被分配整体查询权重221,其不仅反映类别列表217中类别权重的总和,而 且还反映指示查询简档有多可靠或者查询简档与查询结果的简档关联多强的一个或多个 附加因素或量度。这在以下更为详细地进行讨论。 0038 在一些实施例中,类别列表217包括一个或多个配对(类别ID 218,权重219)。类 别ID 2。

48、18可以对应于特定类型的信息,诸如新闻、体育、旅行、金融等,而权重219是衡量查 询和相应信息类型之间的相关性的数字。例如,查询词语“golf(高尔夫)”可能对于体育 和运动商品的类别具有相对高的权重,而对于信息技术(IT)的类别则具有低权重。在一些 实施例中,类别ID 218对应于“概念集群”,其可以通过集群过程产生,例如,其可以或可以 不被轻易标记以类别名称。如以下将结合图3A进一步描述的,信息分类器136从查询日志 数据库140中的历史查询信息以及来自信息分类种子数据库138的分类数据来构建查询简 档。 0039 在以下所描述的一些实施例中,生成、使用并接着处理单独的查询简档214而并 。

49、不在数据库或其它收集性数据结构220中存储查询简档。 0040 图2C是依据一些实施例的用于存储信息项集合的分类数据的示例性数据结构 240的框图。数据结构240的一个实例可以被用来存储信息分类种子数据库138的分类数 据,而该数据结构240的另一个实例可以被用来存储信息分类数据库134的分类数据。 0041 数据结构240包括多个分类数据记录222-1至222-N(这里也被称作URL简档记 录或文档简档记录),其中每一个对应于互联网上的信息项(例如,网页或网站)。在一些 实施例中,每个分类数据记录222包含诸如URL 224的信息项定位符、一个或多个属性(例 如URL文本、锚标签、页面排名等)、用于对信息项进行分类的类别列表228,并且可选地用 于对信息项进行分类的其它简档230。类别列表228包括一个或多个(类别ID 228,权重 229)的配对。如以下将结合图3B进一步描述的,信息分类器136使用来自查询日志数据库 140的历史查询信息以及来自查询简档数据库142的查询简档为信息项生成分类数据。 0042 图2D是依据一些实施例的用于存储用户集合的用户简档的示例性数据结构260 的框图。数据结构260包括。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1