《分布式搜索方法和系统.pdf》由会员分享,可在线阅读,更多相关《分布式搜索方法和系统.pdf(12页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102339292A43申请公布日20120201CN102339292ACN102339292A21申请号201010237815322申请日20100727G06F17/3020060171申请人中国电信股份有限公司地址100032北京市西城区金融大街31号72发明人王爱宝张涛杨德利李屹74专利代理机构中国国际贸易促进委员会专利商标事务所11038代理人孙宝海54发明名称分布式搜索方法和系统57摘要本发明公开了一种分布式搜索方法和系统。其中,该方法包括网站建立关键词到包含关键词的内容源的URL的索引;将索引返回给搜索平台。本发明由内容源来自建索引,这样一方面将建立索引的工。
2、作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引关系,从而大大提升了搜索引擎的效率,并减少了对被搜索网站的过度干扰。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书6页附图4页CN102339305A1/1页21一种分布式搜索方法,其特征在于,所述方法包括网站建立关键词到包含所述关键词的内容源的URL的索引;将所述索引返回给搜索平台。2根据权利要求1所述的方法,其特征在于,所述方法还包括所述网站定期或不定期地从所述搜索平台获取所述关键词。3根据权利要求1所述的方法,其特征在于,所述方法还包括判断所述网站中的。
3、内容源是否有内容更新,如果有内容更新,则准备建立所述索引。4根据权利要求1所述的方法,其特征在于,所述方法还包括所述搜索平台利用排序规则对所述返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。5根据权利要求1所述的方法,其特征在于,通过下述方式将所述索引返回给搜索平台爬虫主动抓取的方式;或所述网站主动上报的方式。6一种分布式搜索系统,其特征在于,所述系统包括索引建立装置,用于建立关键词到包含所述关键词的内容源的URL的索引;索引发送装置,与所述索引建立装置相连,用于将所述索引返回给搜索平台。7根据权利要求6所述的系统,其特征在于,所述系统还包括关键词获取装置,与所述索引建立装置相连,。
4、用于定期或不定期地从所述搜索平台获取所述关键词。8根据权利要求6所述的系统,其特征在于,所述系统还包括判断装置,与所述索引建立装置相连,用于判断内容源是否有内容更新,如果有内容更新,则准备建立所述索引。9根据权利要求6所述的方法,其特征在于,所述系统还包括所述搜索平台,与所述索引发送装置相连,用于利用排序规则对所述返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。10根据权利要求6所述的系统,其特征在于,所述索引发送装置通过下述方式将所述索引返回给搜索平台爬虫主动抓取的方式;或所述网站主动上报的方式。权利要求书CN102339292ACN102339305A1/6页3分布式搜索方法和。
5、系统技术领域0001本发明涉及信息检索领域,更具体地,涉及一种分布式搜索方法和系统。背景技术0002近年来,随着社会性网络服务SOCIALNETWORKINGSERVICES,SNS、博客等网站的盛行,大众对此类网站信息越来越感兴趣,而同时,网站出于宣传和盈利的目的,也非常愿意将信息及时地提供出去。这样就在搜索服务提供商例如,GOOGLE、BAIDU等和SNS、博客类网站之间形成了一种可信的合作关系,共同为用户提供及时的有价值的信息。0003但是,由于目前的搜索技术多是利用爬虫将互联网上的信息抓取之后,在搜索平台上进行信息分类并建立关系索引,最后入数据库供使用者查询搜索,所以这种方法存在如下几。
6、个问题00041在信息抓取过程中,诸如信息分类、建立索引、入库等主要工作均在搜索平台上进行,极大地影响了搜索引擎的效率;00052在信息抓取过程中,爬虫需要将所抓取的信息送回搜索引擎,以便引擎对信息进行分类、甄别、保留有用信息以及剔除无用信息。在这个过程中,需要进行全文搜索,同样地影响到搜索引擎的效率。发明内容0006本发明要解决的一个技术问题是提供一种分布式搜索方法,能够显著提高搜索引擎的效率。0007本发明提供了一种分布式搜索方法,包括网站建立关键词到包含关键词的内容源的通用资源定位器UNIVERSALRESOURCELOCATOR,URL的索引;将索引返回给搜索平台。0008根据本发明方。
7、法的一个实施例,该方法还包括网站定期或不定期地从搜索平台获取关键词。0009根据本发明方法的另一实施例,该方法还包括判断网站中的内容源是否有内容更新,如果有内容更新,则准备建立索引。0010根据本发明方法的又一实施例,该方法还包括搜索平台利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。0011根据本发明方法的再一实施例,通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。0012本发明的分布式搜索方法,由内容源来自建索引,这样一方面将建立索引的工作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引。
8、关系,从而大大提升了搜索引擎的效率,并减少了对被搜索网站的过度干扰。0013本发明要解决的另一技术问题是提供一种分布式搜索系统,能够显著提高搜索引擎的效率。说明书CN102339292ACN102339305A2/6页40014本发明提供了一种分布式搜索系统,包括索引建立装置,用于建立关键词到包含关键词的内容源的URL的索引;索引发送装置,与索引建立装置相连,用于将索引返回给搜索平台。0015根据本发明系统的一个实施例,该系统还包括关键词获取装置,与索引建立装置相连,用于定期或不定期地从搜索平台获取关键词。0016根据本发明系统的另一实施例,该系统还包括判断装置,与索引建立装置相连,用于判断内。
9、容源是否有内容更新,如果有内容更新,则准备建立索引。0017根据本发明系统的又一实施例,该系统还包括搜索平台,与索引发送装置相连,用于利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。0018根据本发明系统的再一实施例,索引发送装置通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。0019本发明的分布式搜索系统,由内容源来自建索引,这样一方面将建立索引的工作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引关系,从而大大提升了搜索引擎的效率,并减少了对被搜索网站的过度干扰。附图说明0020此处所说。
10、明的附图用来提供对本发明的进一步理解,构成本申请的一部分。在附图中0021图1是本发明方法的第一实施例的流程示意图。0022图2是本发明方法的第二实施例的流程示意图。0023图3是本发明方法的第三实施例的流程示意图。0024图4是本发明方法的第四实施例的流程示意图。0025图5是本发明方法的第五实施例的流程示意图。0026图6是本发明方法的第七实施例的流程示意图。0027图7是本发明系统的第一实施例的结构示意图。0028图8是本发明系统的第二实施例的结构示意图。0029图9是本发明系统的第三实施例的结构示意图。0030图10是本发明系统的第四实施例的结构示意图。0031图11是本发明系统的第五。
11、实施例的结果示意图。具体实施方式0032下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。0033为了提高搜索引擎的效率,本发明针对可信任的网站信息,提出了一种基于内容源自建索引的分布式搜索方法和系统。其将建立索引的工作交由可信任的内容源,由内容源利用从搜索平台获取的关键词建立索引后,把关键词同内容源的URL索引返回给搜索平台,从而建立了分布式的搜索架构。0034图1是本发明方法的第一实施例的流程示意图。说明书CN102339292ACN102339305A3/6页50035如图1所示,该实施例可以包括。
12、以下步骤0036S102,网站建立关键词到包含关键词的内容源的URL的索引,其中,该关键词可以来自搜索平台的关键词词库;0037S104,将索引返回给搜索平台。0038可选地,该索引中还可以包括网页的标题、网页最后更新的时间、网页的类型、主要内容的长度以及网页的主要内容。0039该实施例由内容源来自建索引,这样一方面将建立索引的工作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引关系,从而大大提升了搜索引擎的效率。另外,传统意义上的搜索一般是利用爬虫对被搜索网站内容进行全文抓取,而不管所抓取的内容是否是搜索平台所关心的信息。而本发明只要求可信。
13、任网站根据协议要求提供满足条件的关键词到内容源的URL的索引,只是部分内容的有条件访问,所以可以减少对被搜索网站的过度干扰。0040图2是本发明方法的第二实施例的流程示意图。0041如图2所示,该实施例可以包括以下步骤0042S202,网站定期或不定期地从搜索平台获取关键词,其中,该网站是可信任的网站,其同搜索平台建立了互信关系,该类网站一方面可以被动地接受搜索平台的搜索请求,另一方面也可以主动地将相关信息上传至搜索平台;0043S204,网站建立关键词到包含关键词的内容源的URL的索引;0044S206,将索引返回给搜索平台。0045该实施例可以根据搜索平台提供的关键词来匹配内容源,建立关键。
14、词到内容源的URL的索引,从而可以满足搜索平台利用可信任网站建立关键词到内容源的索引的需求。0046图3是本发明方法的第三实施例的流程示意图。0047如图3所示,该实施例可以包括以下步骤0048S302,判断网站中的内容源是否有内容更新增加了新内容或删除了内容,如果有,则准备建立索引,例如,可以采用一个散列表存储一个URL对应的一个网页内容经过MD5算法之后的一个网页指纹,即,然后,可以通过对MD5CONTENT是否发生变化来判断该网页内容是否有改变,如果有改变,则用一个列表保存一组二元序列,其中INDEX1为发生改变的位置,LENGTH为发生改变的内容长度,这样可以来提取其中更新的内容;00。
15、49S304,网站建立关键词到包含关键词的内容源的URL的索引;0050S306,将索引返回给搜索平台。0051该实施例可以在内容源有更新时建立索引,从而在很大程度上降低网站的索引工作量。0052图4是本发明方法的第四实施例的流程示意图。0053如图4所示,该实施例可以包括以下步骤0054S402,网站建立关键词到包含关键词的内容源的URL的索引;0055S404,将索引返回给搜索平台;0056S406,搜索平台利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。其中,排序规则可以是关键词在URL中的匹配度。例如,可以通过关键说明书CN102339292ACN102339。
16、305A4/6页6词在内容源中的出现频率来表示该关键词在URL中的匹配度。0057在该实施例中,搜索平台对返回的索引进行排序后,有效提高了搜索平台未来检索的效率。0058图5是本发明方法的第五实施例的流程示意图。0059如图5所示,该实施例可以包括以下步骤0060S502,网站定期或不定期地从搜索平台获取关键词;0061S504,判断网站中的内容源是否有内容更新,如果有内容更新,则准备建立索引;0062S506,网站建立关键词到包含关键词的内容源的URL的索引;0063S508,将索引返回给搜索平台;0064S510,搜索平台利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索。
17、使用。0065在本发明方法的第六实施例中,可以通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。不管采用哪种方式,最终到达搜索平台的信息均为关键词到内容源URL的索引,而不是具体的内容源全文。这样,返回给搜索平台的信息无需内容源的全文即可满足检索的需要。0066该实施例可以通过多种方式从可信任网站获取索引,提高了获取索引的灵活性。0067图6是本发明方法的第七实施例的流程示意图。0068如图6所示,基于内容源自建索引的分布式搜索框架主要包括信息分析、建立索引、信息处理和入库四大部分,以及关键词词库、排序规则库和信息库等三大数据库。内容源经信息整理和分类等信息分析过程后,。
18、利用搜索平台的关键词词库建立关键词到内容源URL的索引表,在搜索平台中,对索引表经排序等信息处理后入库并存储在信息库中供用户检索使用。0069接下来,详细阐述一下各部分的功能00701信息分析0071内容源发现有更新内容,分析比对后,提取其中新增的内容。00722建立索引0073此部分工作在可信任网站内进行,可信任网站从搜索平台获取关键词,对信息分析后的内容源建立关键词到内容源URL的索引。00743信息处理0075搜索平台获取可信内容源的途径有两个一种是利用爬虫主动去抓取,另一种是可信任网站主动上报给搜索平台。不管哪种方式,最终到达搜索平台的信息均为关键词到内容源URL的索引,而不是具体的内。
19、容源全文。0076关键词到内容源URL的索引依照关键词在URL中的匹配度来排序处理。00774入库0078将经过排序处理后的索引入信息库以供检索使用。0079该实施例有效地提高了搜索引擎的效率,并减少了对被搜索网站的过度干扰。其中,索引建立的过程在被搜索网站内进行,被搜索网站从搜索平台获取关键词,与自身的内容源进行匹配处理,形成关键词到内容源URL的索引,并返回给搜索平台。这样,返回给搜索平台的信息无需内容源的全文即可满足检索的需要。该实施例可以广泛地应用于对可信说明书CN102339292ACN102339305A5/6页7任网站的信息搜索系统的建设中。0080图7是本发明系统的第一实施例的。
20、结构示意图。0081如图7所示,该实施例的系统包括0082索引建立装置11,用于建立关键词到包含关键词的内容源的URL的索引,其中,该关键词可以来自搜索平台的关键词词库;0083索引发送装置12,与索引建立装置11相连,用于将索引返回给搜索平台。0084可选地,该索引中还可以包括网页的标题、网页最后更新的时间、网页的类型、主要内容的长度以及网页的主要内容。0085在该实施例中,内容源获取关键词,把建立索引的任务在内容源侧完成,再把关键词同内容源的链接URL关系返回给搜索平台,从而实现了分步式的搜索,此访求可降低搜索引擎及被搜索网站的负荷,提高了搜索效率。此外,该实施例提出的信息获取方法不是获取。
21、内容源的全文,而是获取关键词同内容源的链接URL关系,并且在搜索平台中无需再建索引,经过简单信息处理后即可入库供用户检索使用。这样一方面可以提升搜索引擎的效率,另一方面也避免了对被搜索网站的过度干扰。0086图8是本发明系统的第二实施例的结构示意图。0087如图8所示,与图7中的实施例相比,该实施例的系统还包括0088关键词获取装置21,与索引建立装置11相连,用于定期或不定期地从搜索平台获取关键词。0089该实施例可以根据搜索平台提供的关键词来匹配内容源,建立关键词到内容源的URL的索引,从而可以满足搜索平台利用可信任网站建立关键词到内容源的索引的需求。0090图9是本发明系统的第三实施例的。
22、结构示意图。0091如图9所示,与图7中的实施例相比,该实施例的系统还包括0092判断装置31,与索引建立装置11相连,用于判断内容源是否有内容更新,如果有内容更新,则准备建立索引。例如,可以采用一个散列表存储一个URL对应的一个网页内容经过MD5算法之后的一个网页指纹,即,然后,可以通过对MD5CONTENT是否发生变化来判断该网页内容是否有改变,如果有改变,则用一个列表保存一组二元序列,其中INDEX1为发生改变的位置,LENGTH为发生改变的内容长度,这样可以来提取其中更新的内容。0093该实施例可以在内容源有更新时建立索引,从而在很大程度上降低网站的索引工作量。0094图10是本发明系。
23、统的第四实施例的结构示意图。0095如图10所示,与图7中的实施例相比,该实施例的系统还包括0096搜索平台41,与索引发送装置12相连,用于利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。其中,排序规则可以是关键词在URL中的匹配度。例如,可以通过关键词在内容源中的出现频率来表示该关键词在URL中的匹配度。0097该实施例对返回的索引进行排序后,有效提高了搜索平台未来检索的效率。0098图11是本发明系统的第五实施例的结果示意图。0099如图11所示,该实施例的系统包括0100索引建立装置11,用于建立关键词到包含关键词的内容源的URL的索引;说明书CN102339。
24、292ACN102339305A6/6页80101索引发送装置12,与索引建立装置11相连,用于将索引返回给搜索平台。0102关键词获取装置21,与索引建立装置11相连,用于定期或不定期地从搜索平台获取关键词。0103判断装置31,与索引建立装置11相连,用于判断内容源是否有内容更新,如果有内容更新,则准备建立索引。0104搜索平台41,与索引发送装置12相连,用于利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。0105在本发明系统的第六实施例中,索引发送装置可以通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。0106下面以中国电信内容监管系。
25、统为例进一步详细描述本发明。0107中国电信内容监管系统是对中国电信众多的门户网站和SNS、微博等用户原创内容类网站进行信息监管的系统。系统需分析相关网站的内容,并给出相应管制指令。0108在内容监管系统的关键词词库中,保存了大量的不良信息关键词以及舆情相关词,各门户网站或用户原创内容类网站定期或不定期地获取这些关键词,来匹配自身的内容源。每当本网站有内容更新时,即进行匹配操作。当存在匹配内容时,被监管网站就定时或不定时地把关键词与相应内容URL返回给内容监管系统,内容监管系统将根据内容源的危害程度下达不同的监管指令。0109本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。说明书CN102339292ACN102339305A1/4页9图1图2说明书附图CN102339292ACN102339305A2/4页10图3图4说明书附图CN102339292ACN102339305A3/4页11图5图6说明书附图CN102339292ACN102339305A4/4页12图7图8图9图10图11说明书附图CN102339292A。