分布式数据库的文档分类和展示的方法与装置.pdf

上传人:111****11 文档编号:1044337 上传时间:2018-03-28 格式:PDF 页数:39 大小:1.64MB
返回 下载 相关 举报
摘要
申请专利号:

CN03137000.4

申请日:

2003.05.26

公开号:

CN1462005A

公开日:

2003.12.17

当前法律状态:

授权

有效性:

有权

法律详情:

专利权的转移IPC(主分类):G06F17/30变更事项:专利权人变更前权利人:雅虎公司变更后权利人:飞扬管理有限公司变更事项:地址变更前权利人:美国加利福尼亚州变更后权利人:英属维尔京群岛托托拉岛登记生效日:20150331|||授权|||实质审查的生效|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

奥维丘尔服务有限公司;

发明人:

费恩·C·丹尼尔; 雷恩·T·鲍尔; 萨维奇·彼特

地址:

美国加利福尼亚州

优先权:

2002.05.24 US 10/155,290

专利代理机构:

中原信达知识产权代理有限责任公司

代理人:

顾红霞;钟强

PDF下载: PDF下载
内容摘要

一种创建分类文档、将分布式数据库中的文档分类和将结果页分类的方法,以及一种用于搜索分布式数据库的装置。创建分类文档的方法包括:最初假定所有文档都是类型1;过滤出所有类型2的文档并将它们归入第一分类;过滤出所有类型3的文档并将它们归入第二分类;以及将其余所有的文档定义为类型4的文档并将所有类型4的文档归入第三分类。用于搜索分布式数据库的装置包括至少一个存储设备;一个计算装置;一个索引器;一个交易性分数生成器;一个类别分配器;一个搜索服务器;以及一个与搜索服务器通信的用户界面。

权利要求书

1: 一种用于分布式数据库的搜索引擎和数据库,包括: 至少一个存储设备,包括: 至少一个互联网缓存;和 一个互联网索引;; 一个计算装置,包括: 一个与互联网缓存和互联网通信的漫游器; 一个与互联网索引和所述至少一个互联网缓存通信的索引器; 一个与互联网缓存通信的交易性分数生成器;和 一个与互联网缓存通信的类别分配器; 一个与互联网缓存、互联网索引通信的搜索服务器;以及 一个与搜索服务器通信的用户界面,。
2: 如权利要求1所述的用于分布式数据库的搜索引擎和数据库, 其特征在于,互联网缓存至少约30T字节。
3: 如权利要求1所述的用于分布式数据库的搜索引擎和数据库, 其特征在于,互联网索引至少约5T字节。
4: 一种搜索分布式数据库的方法,包括:。 (a)向系统输入搜索词或词组; (b)生成包含有与搜索词或词组匹配的关键词的文档; (c)将结果页根据分类标准分类,以创建分类文档;以及 (d)呈现分类的文档。
5: 如权利要求4所述的搜索分布式数据库的方法,其特征在于, 分类标准由用户选择。
6: 如权利要求5所述的搜索分布式数据库的方法,其特征在于, 类别由用户选择。
7: 如权利要求6所述的搜索分布式数据库的方法,其特征在于, 利用下列步骤选择分类标准: 以预先选定的页面手工地在系统中播种;以及 重复权利要求4中的步骤,在每次迭代中改变步骤(b)的分类 标准直至分类文档被分入基本理想的类别。
8: 如权利要求4所述的搜索分布式数据库的方法,还包括选择 显示偏好,其中显示偏好影响分类文档在步骤(d)中如何呈现。
9: 一种在分布式数据库中对文档进行分类以创建分类文档的方 法,包括: 最初假定所有文档都是类型1; 过滤出所有类型2的文档并将其归入第一分类; 过滤出所有类型3的文档并将它们归入第二分类;以及 将其余所有的文档定义为类型4的文档并将所有类型4的文档归 入第三分类。
10: 如权利要求9所述的在分布式数据库中对文档进行分类的方 法,其特征在于文档是页面而分布式数据库是互联网。
11: 一种将结果页分类的方法,包括: 指定第一分类为商业性页面而第二分类为信息性页面; 为每个结果页确定一个质量分数q(wi); 为每个结果页确定一个交易性等级τ(w i ); 派生一个传播矩阵P; 为每个结果页确定一个商业性分数κ; 过滤出所有满足或超出商业性分数阈值的结果页; 其中满足或超出商业性分数阈值的结果页归入第一分类而其余所 有结果页归入第二分类。
12: 如权利要求11所述的将结果页分类的方法,其特征在于, 为每个页面确定质量分数包括以一组选取的标准评估结果页的一个子 集。
13: 如权利要求12所述的将结果页分类的方法,其特征在于, 选取的标准包括下列项的任意组合:内容的质量,作者或信息来源的 声誉,页面易用性。
14: 如权利要求12所述的将结果页分类的方法,其特征在于, 不包括在结果页子集中的结果页被赋予缺省值。
15: 如权利要求11所述的将结果页分类的方法,其特征在于, 确定交易性等级τ(w i )包括: 确定每个页面是否达到所选标准; 确定每个页面在何种程度上达到所选标准; 为每个页面确定一个交易性分数;以及 由交易性分数为每个页面确定一个交易性等级。
16: 如权利要求15所述的将结果页分类的方法,其特征在于, 分别确定每个结果页在何种程度上达到所选标准,根据所选标准评估 每个结果页,并给每个结果页赋予一个布尔值或权值以反映每个结果 页在何种程度上达到所选标准。
17: 如权利要求15所述的将结果页分类的方法,其特征在于, 为每个页面确定交易性分数包括:为每个结果页创建一个向量 αk(wi),其中每个向量包含多个元素αk n (w i ),每个元素αk n (w i )都是 一个布尔值,反映每个结果页在何种程度上达到每个所选标准。
18: 如权利要求15所述的将结果页分类的方法,其特征在于, 为每个页面确定交易性分数包括:为每个结果页创建一个向量 βk(wi),其中每个向量包含多个元素βk n (w i ),每个元素βk n (w i )都是 一个布尔值,反映每个结果页在何种程度上达到每个所选标准。
19: 如权利要求15所述的将结果页分类的方法,其特征在于, 从交易性分数为每个页面确定交易性等级τ(w i )包括:评估交易性等 级τ(w i )和每个结果页αk(w i )的向量的ρ范数的关系,其中所述关系 由下式定义: τ ( w i ) = | | α ( w i ) | | ρ = ( Σ i = 1 n | α ( w i ) | ρ ) - ρ ]]>
20: 如权利要求19所述的将结果页分类的方法,其特征在于, ρ=2。
21: 如权利要求15所述的将结果页分类的方法,其特征在于, 从交易性分数为每个页面确定交易性等级τ(w i )包括:评估交易性等 级τ(w i )和每个结果页βk(w i )的向量的ρ范数的关系,其中所述关系 由下式定义: τ ( w i ) = | | β ( w i ) | | ρ = ( Σ i = 1 n | β ( w i ) | ρ ) - ρ ]]>
22: 如权利要求21所述的将结果页分类的方法,其特征在于, ρ=2。
23: 如权利要求11所述的将结果页分类的方法,其特征在于, 派生传播矩阵包括: 创建一个包含元素C i,j 的超链接连接性矩阵C; 计算多个权威性分数a i 和多个指引性分数h i ; 为每个结果页计算多个转换计数T i,j 和多个页面浏览量v i ;以及 创建包含传播矩阵元素P i,j 的传播矩阵P。
24: 如权利要求23所述的将结果页分类的方法,其特征在于, 创建超链接连接性矩阵C包括:在矩阵中表示互联网的链接结构。
25: 如权利要求24所述的将结果页分类的方法,其特征在于, 互联网链接结构是通过检查从每个结果页到每个结果页的链接表示 的。
26: 如权利要求23所述的将结果页分类的方法,其特征在于, 所述多个指引性分数h i 和多个权威性分数a i 与所述超链接连接性矩阵 C相关,并且所述多个权威性分数a i 定义为:a i =∑ j C j,i ,而所述多 个指引性分数h i 定义为:h i =∑ j C i,j 。
27: 如权利要求23所述的将结果页分类的方法,其特征在于, 所述多个页面浏览量v i 与所述多个转换计数T i,j 相关,定义为: v i =∑ j T i,j
28: 如权利要求27所述的将结果页分类的方法,其特征在于, 传播矩阵是所述超链接连接性矩阵、多个指引性分数、多个权威性分 数、多个转换计数和页面浏览量的函数。
29: 如权利要求27所述的将结果页分类的方法,其特征在于, 计算传播矩阵还包括对所述多个指引性分数、权威性分数和页面浏览 量进行加权。
30: 如权利要求27所述的将结果页分类的方法,其特征在于, 传播矩阵P是加权函数F(h i )、G(a i )和H(v i )的进退函数,并且定义为: P i , j = f ( C i , j ) + g ( C i , j , a j ) + h ( T i , j , v i ) F ( h i ) + G ( a i ) + H ( v i ) ]]>
31: 如权利要求30所述的将结果页分类的方法,其特征在于, 所述每个加权函数包括一个阶梯函数。
32: 如权利要求31所述的将结果页分类的方法,其特征在于, 递归地确定每个结果页w i 的商业性分数κ。
33: 如权利要求32所述的将结果页分类的方法,其特征在于, 商业性分数κ这样递归地确定,即,t次迭代传播矩阵P T 横截 (transverse)、传播矩阵权重η和商业性分数初始值κ′(0),其中是κ ′(0)通过选择数量A和B来加权,并定义为: κ ′ ( 0 ) = Aτ ( w i ) + Bq ( w i ) + σ ( w i ) A + B + 1 ]]> 以及商业性分数的前次迭代值κ′(t),其中κ′(t)定义为 κ′(t)=ηP T κ′(t-1)+(1-η)κ′(0),而κ=κ′(t′)。
34: 如权利要求11所述的将结果页分类的方法,还包括 指定第三分类为垃圾页面;以及为每个结果页确定一个垃圾分数 σ(w i ); 其中商业性分数κ这样递归地确定,即,t次迭代传播矩阵P T 横 截(transverse)、传播矩阵权重η和商业性分数初始值κ′(0),其中是 κ′(0)通过选择数量A和B来加权,并定义为: κ ′ ( 0 ) = Aτ ( w i ) + Bq ( w i ) + σ ( w i ) A + B + 1 ]]> 以及商业性分数的前次迭代值κ′(t),其中κ′(t)定义为 κ′(t)=ηP T κ′(t-1)+(1-η)κ′(0),而κ=κ′(t′)。
35: 一种将多个结果页分类的方法,包括: 确定所述多个结果页中的每一个是否为垃圾页面; 为所述多个结果页中的每一个确定一个质量分数q(w i ); 为所述多个结果页中的每一个确定一个交易性等级τ(w i ); 派生一个传播矩阵P; 为所述多个结果页中的每一个确定一个商业性分数κ; 从所述多个结果页中过滤出所有带垃圾性的商业性页面; 从带垃圾性的商业性页面中过滤出所有垃圾页面; 将所有商业性页面归入商业性分类中;以及 将其余所有结果页归入信息性分类中。
36: 一种将分布式数据库中的文档分类的方法,包括: 假定分布式数据库中的所有文档都是非商业性的; 从这些文档中过滤出所有商业性文档,其中具有商业属性的文档 为商业性文档;以及 从这些商业性文档创建销售线索。
37: 如权利要求36所述的将分布式数据库中的文档分类的方法, 其特征在于,过滤出所有商业性文档包括将所有商业性文档归入第一 分类。
38: 如权利要求37所述的将分布式数据库中的文档分类的方法, 还包括在将所有商业性文档归入第一分类之后,从第一分类的商业性 页面中过滤出现有广告客户的页面,其中第一分类中剩余的商业性页 面为线索页面。
39: 如权利要求37所述的将分布式数据库中的文档分类的方法, 其特征在于,从所述商业性页面创建销售线索包括从线索页面创建销 售线索,其中从线索页面创建线索包括: 收集线索页面的联系信息;以及 提供线索页面和联系信息的列表。

说明书


分布式数据库的文档分类和展示的方法与装置

    【发明背景】

    通过计算机网络传输信息已成为机构、公司和个人处理业务的越来越重要的手段。这些年计算机网络已从专为满足单独群体的需求的独立的互相隔绝的实体发展成巨大的互联网,其使得物理上分离的网络得以互联,成为一个协同的系统。目前现有的最大的计算机网就是互联网。互联网是利用共同地协议通信的世界范围内互联的计算机网络。成千上万的计算机,从低端个人计算机到高端超级计算机,都连入了互联网。

    互联网成为了一个连接位于世界各地的用户的大电子社区,让这些用户轻松地经常性地交换大量信息。互联网还继续满足其最初的需求,提供对政府部门、图书馆和大学之间的信息访问和交换。另外,互联网还衍生出很多超出最初目的的兴趣组和论坛。特别是,互联网正快速地转变为一个商品和服务以及主意和信息的全球性电子市场。

    互联网向全球性电子市场的转变的驱动力主要来自诸如HTTP(超文本传输协议)和TCP/IP(传输控制协议/网际协议)这些通用协议的引入,它们使得公布和交换信息变得便利。因此,互联网是个独特的分布式数据库,其提供对无限的用户和资源的海量的文档的访问。互联网的数据库记录采取文档的形式,称为“页面”,页面集合称为“站点”。页面和站点驻留在服务器上,可以通过通用的协议来访问。因此互联网是一个巨大的数据库,其信息散布在几乎无数的不断变化的个人计算机系统之上,并且没有集中管理。

    连接到互联网上的计算机可以通过称为浏览器的程序访问页面,浏览器有强大的易学的用户界面,通常是图形的,使得连上互联网的每台计算机都称为信息发布者和信息消费者。另一个浏览器的强大技术称为超链接,使得页面作者能创建对其它页面的链接,用户就可以通过使用例如在浏览器中单击这样的简单命令来获取页面。因此每个页面都存在于一个语义上相关的页面的联结关系之中,因为每个页面都可以是链接的目标和来源,并且这种连接可以在某种程度上通过映射和比较这些链接如何相互关联来捕获。另外,页面可以以诸如超文本标记语言(HTML)或扩展标记语言(XML)之类的多种句法中的任何一种来构造,并且可以包括诸如图形、声音甚至动画的多媒体信息内容。

    因为任何有连上互联网的计算机的人都能发布自己的页面也能访问其它公开的页面,互联网允许以多对多的模式进行信息的生产和消费,这在离线状况下是不可能或不现实的。有效的搜索服务,包括搜索引擎,在多对多模式中的非常重要,使得信息消费者能快速可靠地从大量无关但相似的页面中识别出有关的页面。得益于多对多模式,互联网上的展示能将世界范围的消费者引向那些寻求向潜在消费者广告其产品和服务的公司、个人和机构。而且,数据传输率、计算机处理速度和浏览器功能呈指数级增长,使得越来越复杂的页面设计成为可能,使得互联网除了广告和促成商业交易之外越来越成为一种进行商业交易的媒介。因为互联网允许直接识别一项业务及其目标客户之间的连接,所以其具有成为一种强大的广告媒体的潜力。

    强大的新工具使得互联网内容(包括任何类型、格式的信息)的开发和发布更为便利,导致通过互联网提供的信息、产品和服务增多,并且使用互联网的消费者的数量和类型也大幅增加。国际数据公司(International Data Corporation),一般简称IDC,估计全世界互联网用户将在2002年底达到3亿2千万。另外,互联网上进行的商务活动也在增长并且有望大幅增长。IDC估计在2002年,互联网用户在网上购买商品和服务的比例将增加到约40%,而通过互联网购买的商品和服务的总价值将增长到约4257亿美圆。

    因此,互联网已经成为一种对信息、产品和服务的广告客户(广告者)有吸引力的新媒体,不仅能面向一般消费者,还能根据根据偏好、特征和行为识别消费者中的特定目标群体。但是,互联网由散布于全世界的千千万万的不同计算机系统上的站点构成,因此要找出消费者中可能对其信息、产品和/或服务有兴趣的特定目标群体或子群体对广告者来说是一项令人生畏的任务。

    广告者依赖于搜索服务来帮助消费者定位其广告站点。搜索服务,包括目录和搜索引擎,用于对互联网上的可用信息编索引和进行搜索,从而帮助包括消费者在内的用户定位感兴趣的信息、产品和服务。这些搜索服务使得包括消费者在内的用户可以根据感兴趣的特定关键词、产品或服务用自己的语言搜索站点。因为搜索服务是互联网上除电子邮件外最常用的实用工具,所以提供搜索服务的站点向广告者提供了与互联网受众的重要接触途径,创造了根据关键词或主题搜索请求来找到感兴趣的目标消费者的机会。

    搜索服务一般由搜索引擎提供商创建,其以电子方式查阅互联网页面并根据其查阅创建索引和数据库。搜索引擎提供商可以直接向消费者提供搜索服务或者可以向第三方提供搜索服务,让第三方将搜索服务提供给消费者。通常,数据库的创建方式是漫游(crawling)互联网并对每个页面或部分在存储设备中作一个本地拷贝,或者是收集提供者提交的页面(“结果页”,Resulting Pages)。这可以包括静态和/动态内容,无论是文本、图象、声音、视频或静止图象。或者,仅拷贝页面的特定部分如URL、标题或文本。每个结果页都作了索引以备查。因此当用户请求搜索时,搜索引擎实际上不实时地搜索互联网,而是从自己的索引和数据库中搜索结果页(“搜索结果”或“列表”)。然后搜索结果以实际页面的拷贝和页面列表的形式呈现给用户,通过超链接来访问。

    很多已知的搜索引擎利用自动搜索技术对搜索结果进行编目,这一般依赖不可见的站点描述,称为“元标记(meta tag)”,其由站点创建者编写。因为广告者可以自由地加标记或者根据自己的选择来标记其站点,所以很多页面有类似的元标记,这增加了提供相关搜索结果的难度。另外,多数已知的搜索引擎依赖它们自己的语义分类层次结构来对索引的页面分类。这是一种自上而下分类方式,其类别在语义上相关,但不考虑商业的或者非商业的属性。因此,已知的搜索引擎不提供根据站点的商业相关属性对搜索结果自下而上的、自定义的分类。

    另外,有些广告者和其它站点创建者在其站点的元标记中插入与页面无关的热门搜索词,使得这些页面可以吸引更多消费者的注意力,而只有很少或没有边际成本。这种页面导致很多不理想的结果,被称为“垃圾页面(spam pages)”。一般地,如果页面包括某些欺骗搜索引擎和/或相关排序算法的机制并且将用户引向与用户的搜索无关的站点,就被称为垃圾页面。有很多这种机制和技术,包括但不限于使用不反映页面真实属性的元标记。通常,垃圾页面是商业性的。亦即,试图向用户进行销售。

    很多已知的搜索引擎并不根据消费者的偏好对结果区分优先次序。已知的搜索引擎也不提供任何方式确定列表中的每个页面是否为商业性的,或者根据每个页面的商业属性对列表进行分类。如果这么做了,则可以根据消费者发起搜索的意图(无论是进行商业交易还是寻找信息)更有效地组织搜索结果。例如,寻找给定主题的信息的消费者可能希望将信息属性为主的页面与商业属性为主的页面区分开。另外一个例子,消费者可能希望将商业属性为主的页面以及有关消费者的请求的页面与不需要的或者垃圾页面区分开。

    而且,在已知的搜索引擎中,还会向试图定位一个站点以购买商品或服务的消费者提供大量可能与要购买的东西相关但并无益于购买它的站点。类似的,也会向仅对寻找一样东西的信息站点有兴趣的消费者提供很多能购买该物却不提供所寻找的信息的站点。因此,消费者想要的结果页隐藏在大量与消费者的最终目的无关的页面中,因为已知的搜索引擎不能识别消费者的搜索意图,也不能区分搜索结果是否有商业性质。

    因此,已知的搜索引擎没有向用户提供有效的方式将搜索结果的类型分类为信息性或商业性的,或让广告者控制其信息的披露以及将其信息发布给感兴趣的目标消费者。目前提供搜索结果的范例并不逐页区分信息来源的信息性和商业性,而是仅依赖于赋予它们的关联将两类结果混在一起作为对用户的原始查询的响应。

    广告者控制其信息披露和发布目标采用的已知的方法,诸如广告条,遵循传统的广告范例,不能利用互联网多对多公布模式的独特属性。而且,即使广告条出现在搜索结果中,它们也常常不能吸引消费者的兴趣,因为消费者会直接查找搜索结果不会注意广告条。

    因此,互联网广告和搜索引擎的传统范例不能有效地分类并以及时和节约成本的方式将相关信息传递给感兴趣者。因此,消费者必须手工拣选所有搜索结果以最终确定其感兴趣的结果的类型(商业性或非商业性的)。但因为互联网广告能提供其它媒体通常不具备的一定的目标性、交互性和可测量性,所以将商业性和非商业性结果分类并清楚区分地呈现出来能增加消费者的满意度,并有利于通过减少用户的手工拣选量增加经济效益。

    理想地,广告者应能够让自身在互联网搜索结果列表中更显眼,使得其页面不仅在列表中突出地显露,还不被多数其它非商业性页面掩盖(参见美国专利6,269,361)。同样,消费者应能够将其搜索结果可靠地分类并清楚地按照其信息性或商业性分类。如果没有可靠的方式区分商业性和非商业性页面,已知的搜索引擎就不能利用互联网带来的接近目标市场的潜在便利。

    因此,互联网的搜索引擎功能发展应当向一个促进在线市场的新方向集中,以向消费者提供快速的、相关的并且可定制的搜索结果,同时向广告者提供可靠的、能验证的并且成本效率高的方式以定位目标消费者并将广告者的产品和服务放入结果列表。消费者利用这种促进在线市场的搜索引擎将找到提供所需产品或服务的公司或商户而不被非商业性页面分散注意力。另外,当用户寻找纯信息性的资源时,也不会被垃圾页面或不相关的商业性页面干扰。发明内容

    因此,本发明的目的是提供一种系统和方法,用于将分布式数据库中的记录检查和分类为商业性或非商业性记录,然后响应于用户提交的数据库查询或网络定义的设置,呈现这些记录。

    本发明的另一个目的是向用户提供一个可定制的搜索引擎,使用户能根据搜索结果的商业性属性组织搜索结果列表,并且允许用户根据分类和用户偏好指定呈现规则。

    本发明的又一个目的是向搜索引擎服务客户提供一种可定制的搜索引擎,使每个搜索引擎服务客户能根据搜索结果的商业性属性组织搜索结果列表,并且允许搜索引擎服务客户根据分类和搜索引擎服务客户偏好指定呈现规则。

    本发明的又一个目的是提供一种系统和方法,使搜索引擎提供商或用户能动态地指定各种交易性标准的重要性和阈值以根据一条记录的商业性属性创建一个尺度灵活的值,从而给每条记录赋予一个交易性等级以及商业性或非商业性标志。

    本发明的又一个目的是提供一种系统和方法,将分布式数据库中的文档分类以创建分类文档,其最初假定所有文档都是非商业性的,然后过滤出所有商业性文档将它们归入第一类,并将第一类作为具有为运行搜索引擎付费的前景的广告者集合。

    本发明的又一个目的是提供一种成本效率高的系统和方法,用于管理对运行搜索引擎付费的操作,其通过最初将页面分类为商业性或非商业性的然后进一步将商业性页面分类为现有客户或销售线索(sales leads),从而自动地生成广告者销售线索。

    本发明的又一个目的是提供一种系统和方法,用于对分布式数据库中的记录进行分类以识别商业性记录,并将这些记录与为运行搜索引擎付费者列表进行比较,以进一步将商业性记录分类为参与的广告者和未参与的广告者。

    本发明的又一个目的是提供一种系统和方法,用于通过根据动态指定的标准组织和呈现未参与的商业性记录给为运行搜索引擎付费的销售人员,来为对运行搜索引擎付费的广告者生成销售线索。

    下面描述的是创建分类文档、对分布式数据库中的文档分类和对结果页分类的方法,以及搜索分布式数据库的装置。

    创建分类文档的方法总体上包括:最初假定所有文档都是类型1;过滤出所有类型2的文档并将它们归入第一分类;过滤出所有类型3的文档并将它们归入第二分类;以及将其余所有的文档定义为类型4的文档并将所有类型4的文档归入第三分类。

    对分布式数据库中的文档分类的方法总体上包括:假定分布式数据库中的所有文档都是非商业性的;从这些文档中过滤出所有商业性文档,其中具有商业属性的文档为商业性文档;以及从这些商业性文档创建销售线索。在该方法的一个实施例中,所述文档是页面而所述分布式数据库是互联网。

    对结果页分类的方法总体上包括:指定第一分类为商业性页面而第二分类为信息性页面;为每个结果页确定一个质量分数q(wi);为每个结果页确定一个交易性等级τ(wi);派生一个传播矩阵P;为每个结果页确定一个商业性分数κ;过滤出所有满足或超出商业性分数阈值的结果页;其中满足或超出商业性分数阈值的结果页归入第一分类而其余所有结果页归入第二分类。

    又一种对多个结果页分类的方法,总体上包括:确定所述多个结果页中的每一个是否为垃圾页面;为所述多个结果页中的每一个确定一个质量分数q(wi);为所述多个结果页中的每一个确定一个交易性等级τ(wi);派生一个传播矩阵P;为所述多个结果页中的每一个确定一个商业性分数κ;从所述多个结果页中过滤出所有带垃圾性的商业性页面;从带垃圾性的商业性页面中过滤出所有垃圾页面;将所有商业性页面归入商业性分类;以及将其余所有结果页归入信息性分类。

    一种搜索分布式数据库的方法,总体上包括:(a)向系统输入搜索词或词组;(b)生成包含有与搜索词或词组匹配的关键词的文档;(c)将结果页根据分类标准分类,以创建分类文档;以及(d)呈现分类的文档。

    在此还说明一种用于分布式数据库的搜索引擎和数据库,总体上包括:至少一个存储设备,其又包括至少一个互联网缓存和一个互联网索引;一个计算装置,其又包括一个与互联网缓存和互联网通信的漫游器(crawler),一个与互联网索引和互联网缓存通信的索引器(indexer),一个与互联网缓存通信的交易性分数生成器,一个与互联网缓存通信的类别分配器;一个与互联网缓存、互联网索引通信的搜索服务器;以及一个与搜索服务器通信的用户界面。

    该系统有很多实施例,本领域一般技术人员根据在此披露的内容将能够理解。其中一些将在下面说明并在附图中显示,其中:附图简述

    图1A是的页面分类的框图;

    图1B是根据本发明另一个实施例的页面分类的框图;

    图2是根据本发明一个实施例确定一个页面是否为商业性页面的系统流程图;

    图3是根据本发明一个实施例确定一个页面的交易性等级的系统流程图;

    图4是根据本发明一个实施例创建一个传播矩阵的系统流程图;

    图5是根据本发明一个实施例提供对搜索结果的定制化分类的系统流程图;

    图6是根据本发明一个实施例提供定制的搜索结果以及将其呈现的系统流程图;

    图7是根据本发明一个实施例自动为对运行搜索引擎付费的销售人员收集销售线索的系统流程图;

    图8显示根据本发明一个实施例用于分类和显示搜索结果的装置。实施例详述

    下面说明的是一种用于在分布式数据库中识别文档的方法和装置。其一个实施例包括,一种用于识别商业性页面的试探法(heuristic),并提供一种系统和方法,用于实时地对商业性页面和非商业性页面动态分类并呈现给广告者、搜索引擎提供商或用户。该系统可以用于任何需要根据页面的商业性分类的情况,并且能以多种形式利用,从浏览器插件到独立的应用程序到后台搜索引擎或搜索引擎工具。另外,该系统可以通过使一部分销售循环自动化,并且在广告者和对运行搜索引擎付费的提供商之间建立协作帐户管理环境,来为对运行搜索引擎付费提供独特的操作便利。

    响应于用户定义的查询返回的商业性页面和信息性页面的不同搜索结果集被提供给广告者、搜索引擎服务提供商和用户。系统根据每个页面的商业性属性划分页面,并且因此通过向寻求信息或要进行商业交易的用户提供相关的搜索结果,来提供更多相关结果,而不弄混两类搜索结果。系统还允许对用于搜索结果分类的整套标准、每项标准在确定这种分类时的重要性、以及搜索结果的最终分类和向用户的呈现进行定制。

    在此披露了用于静态和动态地分类并呈现分布式数据库的记录的方法和装置。对特定实施例的说明只是示例性的,其各种修改对于本领域一般技术人员将很明显,并不限于所说明的实施例。附图中对技术特征进行了标号。

    下面说明的是一种可定制的系统,用于对分布式数据库中的记录或搜索记录的结果进行识别和分类,并用于根据记录的商业性属性以更加有序、更加易于理解、更加有用的方式对记录进行分类和呈现。下面的说明详细描述了如何识别搜索互联网的页面或结果并分类为商业性和非商业性的(信息性),易于理解,包括互联网在内的分布式数据库的记录又可以分出无数的类别,包括商业性和非商业性类别的子类。其它的类别可以包括在线购物和传统商铺和服务的广告。或者,分布式数据库中的记录或其搜索结果可以根据地理位置、通过价格范围、和很多对应于用户指定的变量的其它标准来分类呈现。另外,在此披露的方法可以应用于以任何方式连接到任何网络(包括局域网和广域网)的任何分布式数据库,不仅限于互联网。

    下面参照附图,图1A和1B显示对互联网搜索结果如何分类。对互联网的搜索实际上是对通过使用漫游器(crawler)生成的互联网内容数据库进行的搜索。漫游器漫游互联网,将发现的页面的拷贝和其部分(该部分可能包括所发现的每个互联网页面的下列特征:URL、标题、内容、内容简述、超链接或它们的任意组合)的拷贝保存到本地数据库。然后页面或其部分的本地拷贝可能被搜索引擎搜索。这种搜索得到的结果页面或其部分的本地拷贝都称为“结果页”。

    如图1A和1B所示,结果页50可以大体地分类为商业性的和非商业性的。商业性分类中的结果页(“商业性页面”)52、62一般包括给购买和/或出售商品和/或服务提供便利的结果页,或者表明页面发布者进行商业活动的意图(商业性的)的结果页。例如,商业性页面52、62包括通过销售、租借、对换或其它交易提供商品和/或服务的页面,或者提供通过其它诸如传真、电话或面对面的方式进行这些交易的联系方式的页面。非商业性分类中的结果页(“非商业性页面”)54、64一般包括信息性的、并不给购买和/或销售商品和/或服务提供便利的,因此不带商业属性的页面。非商业性页面也可以称为“信息性页面”。

    垃圾性的结果页(“垃圾页面”)一般是商业性页面52、62的子集,因为垃圾页面56通常是商业性的。但是,垃圾页面也可能因为其提供商品和/或服务的信息却不提供购买商品和/或服务的便利而主要是信息性的。因为,垃圾页面欺骗搜索引擎,包括相关性排序试探法,所以通常都是不受欢迎的,可以从搜索结果中排除。通常,垃圾页面被认为是商业性的,因为其提供到其它商业性页面的链接。垃圾页面可以分类为商业性页面,如图1A和1B所示,或者不归入商业性分类。

    在本发明的一个实施例中,结果页还可以分入含另付费内容(premium-content)的类别(“PCC页面”)。PCC页面是要另付费才能访问其内容的页面。某些情况下,有协议或合同规范另付费。有很多PCC页面的例子,如下面站点上的页面:www.law.com和www.northernlight.com。PCC页面可以认为是商业性页面的子集,归入商业性分类,或者是非商业性页面的子集,归入非商业性分类,这依赖于用户或搜索引擎服务提供商的偏好。例如,PCC页面58要求另付费才能访问。因为需要付费,所以具有商业属性,可以认为是商业性页面的子集,如图1A所示。另一方面,PCC页面通常提供信息而不对购买和/或出售除自身所带信息外的商品和/或服务提供便利。因此,其也具有信息性,可以认为是非商业性页面的子集,如图1B所示。

    过滤出商业性页面并将它们归入商业性分类的另一实施例包括如图2所示的标号10所指的步骤。这些步骤包括:确定每个页面是否为垃圾页面12;为每个页面确定一个质量分数14;为每个页面确定一个交易性等级16;派生一个传播矩阵18;为每个页面确定一个商业性分数20;过滤出所有商业性分数达到或超过阈值的页面(“带垃圾性的商业性页面”)22;从带垃圾性的商业性页面中过滤出垃圾页面24;以及将商业性页面归入商业性分类26。

    在一个实施例中,确定一个页面是否为垃圾页面要计算页面的垃圾分数σ(wi)并确定该垃圾分数是否达到或超过指定的阈值。达到或超过垃圾分数阈值的页面就是垃圾页面。确定垃圾分数可以采用已知的技术,诸如人工打分,以及下列论文中提出的自动的技术:ebrandmanagement.com的标题为“The Classification of Search EngineSpam”的白皮书和Danny Sullivan的论文“Search Engine Spam”。前述的以及其它的已知方法包括手工和自动评估方法。这些方法和类似的机器学习技术都可以用于计算(τ),即后述的公式(12)中的初始向量。

    质量分数q(wi)是页面质量的标量值。在一个实施例中,确定页面的质量分数包括以一组选取的标准评估一个页面的子集。评估页面质量的标准包括内容的质量,作者或信息来源的声誉,页面易用性以及其它一些这样的标准。质量分数可以是人工指定的或自动确定的,而不能清楚评估的页面被赋予缺省值。

    交易性等级是代表页面是否对诸如销售、租借、租贷或拍卖等交易提供便利及其程度的标量值。在一个实施例中,确定每个页面的交易性等级的步骤显示在图3中由标号16所指。交易性等级由交易性分数确定。交易性分数是一个代表每个页面是否达到一些特定标准及其程度的向量。

    因此,第一个步骤是确定页面和/或其URL是否达到选择标准32。可以检查很多很多页面特征来最终确定页面是否是交易性的。这些标准包括,确定页面是否包括下列各项:用于输入信用卡信息的字段;用于输入诸如PayPalTM或BidPayTM的在线支付系统的用户名和密码的字段;标有“销售办公室”、“销售代表”、“详情请拨”或其它引导交易的用语的电话号码;具有诸如“点击此处购买”、“One-ClickTM购买”或类似文字,以及诸如“您的购物篮盛有”或“已添加到您的购物篮”等文字和/或诸如用于转换跟踪(conversion tracking)的单象素GIF的标签的链接或按钮。任何匹配文本可能是诸如Unicode或ASCII字符集的文本串,或图象中的光学字符识别所获的文本,或响应于一个http(超文本传输协议)请求呈现的声音记录的语音识别。这些标准可以任意组合使用,可以采用或不采用任何单个标准。另外,这些标准仅仅是示例,并非穷尽性枚举。

    对于每个页面,必须确定在何种程度上达到所选标准,方框34。有多种技术用于确定页面是否达到标准32,以及何种程度上达到这些标准34。例如,可以由编辑人员根据这些标准检查评估每个页面,并赋予一个布尔值或权值。但是这很慢并且主观。快速的自动技术包括:自动检查或累计字符串匹配、图象匹配或字符串长度匹配和/或数据项字段类型(诸如数字或字母)匹配,以及利用语言模式分配一个相似性(log-likelihood)分数。例如,语言模式包括如“Statistical Methodsfor Speech Recognition,Jenek,1999”中说明的n-gram词转换模式。这些方法可以分配一个布尔数或权值。

    利用确定每个页面和/或其URL是否达到选择标准32以及确定页面和/或其URL在何种程度上达到所选标准34所获得的结果,确定出一个交易性分数35。为每个页面确定交易性分数35包括从步骤32和34的结果分别创建一个向量αk(wi)或一个向量βk(wi)。这些向量之一是为每个页面“wi”创建的,其中“i”代表一个特定页,而“k”代表一个评估页面的特定标准。向量中元素的数量“n”(1≤j≤n)由采用的标准的数目决定,而向量的数目由页面的数目“m”决定。交易性分数αn(wi)是一个布尔值向量,其中给定的标准是“0”就代表未达到(false)该标准,而任何整数“p”代表达到(ture)该标准。交易性分数向量βn(wi)的元素数目与α(wi)相同。但是,βn(wi)中的元素可以包括任意范围的实数,其中每个数指示页面在何种程度上达到标准。例如,βn(wi)可以包括0到1之间的实数(尽管其可以包括任何范围的实数),其中“0”代表未达到该标准,而“1”代表完全达到该标准。0到1之间的实数代表达到标准的不同程度。

    交易性分数αKn(wi)和βkn(wi)被用于确定每个页面的交易性等级τ(wi)的替换值,其中:τ(wi)=||α(wi)||ρ=(Σi=1n|α(wi)|ρ)-ρ---(1)]]>或者τ(wi)=||β(wi)||ρ=(Σi=1n|β(wi)|ρ)-ρ---(2)]]>交易性等级τ(wi)是向量αn(wi)或向量βn(wi)的ρ-范数的标量值。“n”是评估每个站点wi的标准的数目。通常ρ=2,从而没有单个标准支配其它标准。但是,如果需要,可以改变ρ以增加最重要的标准的权重。公式(1)和(2)可以替换地用于确定交易性等级。公式(2)反映达到某个标准的程度。

    派生传播矩阵的步骤在图4中显示,由标号18所指。其步骤包括,创建一个超链接连接性矩阵42,计算转换计数(transition counts)和页面浏览量(page views)44,以及创建一个传播矩阵46。一个超链接连接性矩阵是表示互联网、万维网或任何超文档集的链接结构以及相对重要性或每个页面的关联的一种方式。在此实施例中,每个页面的相对重要性是通过检查从每个页面wi到每个页面wj以及从每个页面wj到每个页面wi的链接数确定的。这些链接表示在超链接连接性矩阵中。超链接连接性矩阵“C”有“m”行和“m”列。行数和列数“m”等于页面数,其中“i”表示特定行“j”表示特定列。当且仅当页面wi与另一个页面wj有链接时,这个矩阵Cij中的每个元素都包含值“1”,否则将包含值“0”。

    超链接连接性矩阵随后被用于为每个页面wi计算两个标量值,权威性分数ai和指引性(hub)分数hi。一般地,一个指引性页面是一个带有很多指出去的链接的页面,而权威性页面是有很多指向其的链接的页面。指引性和权威性分数反映一个页面在何种程度上作为引用或被引用。指引性和权威性分数的值分别由下面公式决定:

        hi=∑jCi,j

                                     (3)

        ai=∑jCj,i

                                     (4)

    确定传播矩阵的下一步是确定转换计数和页面浏览量,方框44。在一个实施例中,每个转换计数Tij都代表互联网上用户多少次查看一个页面wi然后直接查看另一个页面wi(不查看任何中间页面)的实际行为。所有转换计数都以矩阵显示表示,其中Tij代表每一次转换计数。页面浏览量表示一个页面被浏览的次数,并且与转换计数相关。

           vi=∑jTi,j

                                      (5)

    然后超链接连接性矩阵、指引性分数、权威性分数、转换计数以及页面浏览量都被用于创建传播矩阵,方框46。传播矩阵P由下面的公式创建:Pi,j=f(Ci,j)+g(Ci,j,ai)+h(Ti,j,vi)F(hi)+G(ai)+H(vi)---(6)]]>

    函数F(hi)、G(ai)和H(vi)提供指引性分数、权威性分数和页面浏览量的权重。这些函数,F(hi)、G(ai)和H(vi),分别是非负整数hi、ai和vi的单调递增标量函数。这些函数每个都对应一个权重函数,诸如阶梯函数。例如:

         F(0)=0;

                                   (7)F(hi)=F′如果1≤∑hi≤x;以及

                                   (8)F(hi)=F″如果∑hi>x

                                   (9)

    其中F’>F”。如果指引性分数低于一个阈值“x”,其重要性就降低,阈值“x”表明积累的数据不够。

    G(ai)和H(vi)以类似的方式确定。但是,G(ai)的阈值将是ai的值“y”,而H(vi)的阈值将是vi的值“z”。

    函数f(Cij,hi)、g(Cij,ai)和h(Tij,vi)代表链接和转换的贡献。每个函数都是其参数的一个加权的商,除非其分母是零。例如,f(Cij,hi):f(Ci,j)=F(hi)Ci,jhi]]>如果hi>0;以及

                                      (10)f(Ci,j,0)=0

                                      (11)函数g(Cij,ai)和h(Tij,vi)以类似的方式确定。

    如图2所示,确定每个页面是否为商业性的下一步是为每个页面20确定一个商业性分数。这不仅涉及传播矩阵P和交易性等级τ(wi),而且涉及垃圾分数σ(wi)和质量分数q(wi)。交易性等级τ(wi)和垃圾分数σ(wi)决定不同分量的权重。每个页面wi的商业性分数以下面公式递归地确定:κ′(0)=Aτ(wi)+Bq(wi)+σ(wi)A+B+1]]>对每个页面wi

                                      (12)κ′(t)=ηPTκ′(t-1)+(1-η)κ′(0)

                                      (13)κ=κ′(t′)

                                      (14)

    其中κ’(0)是交易性等级τ(wi)、垃圾分数σ(wi)和质量分数q(wi)的加权平均值。A和B是分别确定τ(wi)和q(wi)的权重的加权因子。A和B可以由搜索引擎提供商或创建者选择。向量κ’(t)对每个检查的页面wi有一个元素κ’i(t)。η是传播矩阵权重,并且也可以由搜索引擎提供商或创建者设置。η确定传播矩阵在初始迭代中影响商业性分数的程度。符号“t”表示从一开始并且每次迭代递增一的递增整数。每次迭代都有可能影响所有wi。迭代进行预定的次数“t’”或者直至商业性分数的值变化很小:

    ‖κ′(t′)-κ′(t′-1)‖ρ≤Δ

                                                 (15)

    ρ是范数级而Δ是商业性分数变化值。一旦两次连续的迭代的值差别等于或小于该商业性分数变化值,就停止迭代并得到商业性分数22。

    商业性分数大于等于商业性分数阈值的页面都被过滤出来成为带垃圾性的商业性页面22。尽管它们常常可以当作商业性页面的子集,垃圾页面还是从带垃圾性页面中过滤出来24以获得商业性页面,因为垃圾页面通常是不受欢迎的。然后将商业性页面归入商业性分类26。一旦商业性页面和垃圾页面过滤出来,剩余的页面就归入非商业性页面。非商业性分类还可以包括PCC页面。

    在另一个实施例中,页面如上述一样被分类为商业性和非商业性,但没有分出垃圾页面作为一个单独的类别。相反,根据垃圾页面所含的商业性分数和每个类别指定的阈值分数将垃圾页面分入商业性或非商业性页面。因为理论上垃圾页面可以是商业性的也可以是非商业性的,并且因为包含垃圾页面也可能对某些用户和/或某些应用程序有用,所以该实施例不包含识别和过滤出垃圾页面的步骤。没有识别和过滤垃圾页面的步骤,该实施例与现有搜索引擎更加模块兼容,因为很多现有搜索引擎具备识别和去除垃圾页面的功能。在又一实施例中,不从商业性页面中去除垃圾页面,因为垃圾页面具有潜在价值,例如作为对运行搜索引擎付费的销售线索。

    在另一个实施例中,结果页的类别可以由用户(包括消费者、站点提供商和广告者)定制。在这个过程的第一阶段,用户通过系统的用户界面输入其偏好然后修正其选择直至获得满意的类别来定义其类别偏好。类别本身和结果页如何分类都可以定制。可以利用前述方法定制系统以将结果页分入用户指定的类别。选择下列一项或者组合可以影响给定页面分入的类别:PCC页面如何分类,阈级,ρ-范数级,公式(12)中的A和B,计算商业性分数的迭代次数t’,商业性分数变化值Δ,用于确定哪个结果页是商业性的或PCC页面的标准以及每个标准的权重,用于确定交易性分数的标准,以及用于确定交易性等级的交易性分数公式(“分类标准”)。

    分类标准都可以被选择,使得结果页以多种方式分类和呈现以满足用户偏好。一般地,分类标准可以凭经验选取,方法是以预先选定的页面手工地在系统中播种(manual-seeding)然后检查预先选定的页面分入的类别,然后调整分类标准以调整系统,直至得到想要类别。例如,如图5所示,用户手工地以类别已知的预先选定的页面播种系统210。然后用户输入关于页面要分入的类别和分类结果将显示的格式的偏好212。然后用户设置分类标准214。然后系统将分类结果分类呈现给用户216。然后用户确定系统是否将预先选定的页面分入所期望的类别218。如果预先选定页面未分入所期望的类别,可以修改任一分类标准或其组合并设置在系统中214。重复步骤214、216和218直至达到理想的分类。

    在步骤212中,用户可以设置分类结果显示方式的偏好。对结果页分类获得的结果可以以多种方式显示。例如,用户可以指定只有匹配一个关键词搜索的结果页才被分类和呈现,或者一个特定的页面类型或类别总是排出,例如色情内容或债务免除广告。另外或者用户可以以多种方式查看包含在特定分类中的分类页,包括按类别显示或在没有其它类别时仅显示特定类别。另外或者用户可以指定要显示的分类页的顺序。例如,分类页可以按类别显示,而优选类出现在最前面。另外或者也可以显示中间值,诸如转换计数、交易性等级、超链接连接性矩阵、传播矩阵、权威性分数和指引性分数、商业性分数、垃圾分数和质量分数。另外或者用户还可以请求检查链接的anchor文本。如果anchor文本包含关键词,则包含任何数目的关键词的页面都将获得比不含关键词的链接更高的权重。或者,包含关键词数目更多的链接比含得少的链接权重更高。定制分类页面的显示可以用已知的显示和呈现技术完成。

    一旦用户指定了类别、分类标准和显示偏好,就可以执行搜索250。如图6所示,当用户通过用户界面输入搜索的词或词组260时,搜索250就开始了。然后系统将根据各种已知的相关方法生成结果页,包括返回包含有匹配搜索词或词组的关键词的结果页(搜索结果)262。然后系统将搜索结果分入用户指定的类别从而满足用户指定的分类标准264。然后系统根据用户的呈现偏好呈现分类页面266。

    在又一个实施例中,商业性页面可以用于生成销售线索。利用商业性页面的URLs,商业性页面所属的公司的联系信息可以从域名注册项得到。然后就可以编译公司及其联系信息的列表生成销售线索列表。如图7所示,结果页分类的系统270包括下列步骤:(a)假定每个结果页都是非商业性的272;(b)识别并过滤出商业性页面归入第一分类274;(c)从第一分类中识别并过滤出现有广告客户的页面276;(d)收集剩余页面(“线索页面”,lead pages)的联系信息278;以及(e)向例如为运行搜索引擎付费的提供商或其它任何感兴趣的一方,提供线索页面及其相关的联系信息作为销售线索280。

    在另一实施例中,利用美国专利6,269,361中的技术,广告者有机会付费使其列表包含或排除在特定类别中。广告者所支付的费用可以是其列表在一个选定类别中的突出性的函数。在又一实施例中,只有付费了的页面才会出现在商业性(或其它指定的)类别中。在一个实施例中,用于将分布式数据库中的记录或对记录的搜索结果进行分类和呈现的定制的系统,可以配置为帐户管理服务器或者与一数据库搜索装置(诸如美国专利6,269,361中披露的)关联的搜索引擎服务器。此处说明的以及图1-8所示的功能可以以任何适合的方式实现。

    一种实现是控制服务器或其它计算设备执行前述功能的计算机可读源代码或对象代码。计算机可读代码可以实现为包括计算机可读的信号承载介质的物品。在一个实施例中,该介质是一种可记录的数据存储介质,诸如软盘或计算机的硬盘驱动器或者非易失性半导体存储器。在又一实施例中,该介质是调制的载波信号,诸如从包括互联网之类的网络读取的数据。该介质包括用于确定页面是否为交易性的装置,用于为页面派生传播矩阵的装置,以及用于为页面定义一个作为传播矩阵的函数的商业性分数的装置。这些装置可以实现为计算机源代码,计算机可读对象代码或其它任何适合的用于控制处理设备执行前述功能的装置。

    本发明的另一实施例包括一个装置用于将如图8所示的分布式客户-服务器架构上的分布式数据库中的记录或搜索记录的结果进行分类和呈现。图8所示的搜索引擎和数据库100包括计算装置110、114、118、120,存储装置112和116,服务器124以及接口122。计算装置110、114、118、120可以包括任何能进行计算的处理器。漫游器(crawler)110是这样一个计算装置,其通过网络连接到互联网并走遍每个页面(包括静态和/动态内容,无论是文本、图象、声音、视频或静态图象)制作其拷贝(“结果页”)存储到互联网缓存112中。或者仅拷贝结果页某些部分,诸如URL和/或标题,的离散数字并存储在互联网缓存112中。然后索引器114对每个结果页或其部分的拷贝赋予一个互联网缓存112中的地址(“互联网缓存地址”)。索引器还为每个结果页生成搜索词,并将这些搜索词与相关的互联网缓存地址存储在互联网索引器116中。在目前的互联网规模下,互联网缓存和互联网索引器将分别使用大约30T字节和5T字节。

    交易性分数生成器118利用存储在互联网缓存112中的每个结果页(或其部分)的拷贝中所含的信息来生成交易性分数。然后这些交易性分数被存储到互联网缓存112中与其相关的结果页一起。类别分配器120利用交易性分数和存储在互联网缓存112中的其它信息来生成传播矩阵并为每个结果页指派类别。每个页面的交易性分数、商业性分数、质量分数、垃圾分数和类别都与其相关页面一起存储在互联网缓存112中。可定制的阈值p,范数参数ρ,商业性分数变化值Δ等可以存储在系统的客户端或服务器端,这是本领域公知的。搜索服务器124连接到互联网索引器116和互联网缓存112,并使得这些装置能通过系统的用户界面122连接到用户。系统的用户界面122可以是一个浏览器或者也可以是代理或应用程序。

    要搜索互联网的用户利用系统用户界面122通过互联网连接到搜索服务器124。如果系统用户界面122是浏览器,其将用户的搜索请求通过互联网发送到搜索服务器124。或者,如果用户界面122是代理软件,则该代理通过互联网发送一个自动的搜索请求。另外,用户界面122可以同时包括浏览器和代理软件并通过互联网发送一个自动的搜索请求给搜索服务器124。然后搜索服务器124利用互联网索引器116以确定哪些结果页与用户搜索词相关。然后从互联网缓存112中检索出这些结果页并通过用户界面122以用户指定的方式呈现给用户。

    由上所述,所披露的实施例提供了一种方法和装置,用于分类和呈现分布式数据库中的选定的元素。更多的优点包括向广告者、搜索服务提供商和用户提供了一种允许定制搜索结果的分类的搜索引擎和数据库,以及提供一种方法和装置,用于过滤搜索结果,使得仅返回或显示想要的类别或搜索结果类别。

    所披露的实施例的更多好处包括:向用户、广告者、搜索站点提供商和搜索引擎提供商提供了一种定制搜索以根据分类标准来搜索和/或显示搜索结果的方法,并向广告者提供了一种方法用于控制广告者的产品和/或服务与其它哪个链接一起被分类和显示。而且,所披露的实施例提供了一种识别站点属性的方法并提供一种能将搜索结果分类的搜索引擎,并且提供了一种可由用户和广告者定制的搜索引擎。

    尽管本发明是用特定的实施例和应用持续来说明的,本领域的一般技术人员仍可以根据披露的内容得出更多实施例而不超出本发明要求保护的范围或背离本发明的精神。例如,本发明提出的方法和系统可以不仅应用于通过互联网的数据库访问,而且可以应用于分布式数据库。而且,页面或文档可以归入大量的类别,并有很多标准用于将它们归入这些类别。因此,可以理解,在此披露的说明和附图仅用于帮助理解本发明而不限制本发明的范围。

分布式数据库的文档分类和展示的方法与装置.pdf_第1页
第1页 / 共39页
分布式数据库的文档分类和展示的方法与装置.pdf_第2页
第2页 / 共39页
分布式数据库的文档分类和展示的方法与装置.pdf_第3页
第3页 / 共39页
点击查看更多>>
资源描述

《分布式数据库的文档分类和展示的方法与装置.pdf》由会员分享,可在线阅读,更多相关《分布式数据库的文档分类和展示的方法与装置.pdf(39页珍藏版)》请在专利查询网上搜索。

一种创建分类文档、将分布式数据库中的文档分类和将结果页分类的方法,以及一种用于搜索分布式数据库的装置。创建分类文档的方法包括:最初假定所有文档都是类型1;过滤出所有类型2的文档并将它们归入第一分类;过滤出所有类型3的文档并将它们归入第二分类;以及将其余所有的文档定义为类型4的文档并将所有类型4的文档归入第三分类。用于搜索分布式数据库的装置包括至少一个存储设备;一个计算装置;一个索引器;一个交易性分。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1