为搜索引擎提供网站认证数据的方法及装置.pdf

上传人:1520****312 文档编号:4041092 上传时间:2018-08-12 格式:PDF 页数:17 大小:1.20MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410706699.3

申请日:

2014.11.27

公开号:

CN104503983A

公开日:

2015.04.08

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20141127|||公开

IPC分类号:

G06F17/30; H04L29/06

主分类号:

G06F17/30

申请人:

百度在线网络技术(北京)有限公司

发明人:

董长阳; 张振平; 崔燕; 张铮; 周启; 谭静

地址:

100085北京市海淀区上地十街10号百度大厦

优先权:

专利代理机构:

北京汉昊知识产权代理事务所(普通合伙)11370

代理人:

朱海波

PDF下载: PDF下载
内容摘要

本发明提供了一种为搜索引擎提供网站认证数据的方法及装置,其中的方法包括:接收来自多个认证数据来源的网站认证数据;存储所述网站认证数据;在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到完整的网站认证数据,为提高搜索引擎的搜索速度提供保证。

权利要求书

权利要求书
1.  一种为搜索引擎提供网站数认证据的方法,其中,包括:
接收来自多个认证数据来源的网站认证数据;
存储所述网站认证数据;
在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。

2.  根据权利要求1所述的方法,其中存储所述网站认证数据包括:
直接存储接收的所述网站认证数据;或
将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。

3.  根据权利要求2所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。

4.  根据权利要求3所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。

5.  根据权利要求1-4中任一项所述的方法,其中还包括:
从接收的网站认证数据中过滤掉重复的网站认证数据。

6.  根据权利要求1所述的方法,其中存储所述网站认证数据还包括:
存储所述网站认证数据的更新时间。

7.  一种为搜索引擎提供网站认证数据的装置,其中,包括:
接收单元,用于接收来自多个认证数据来源的网站认证数据;
存储单元,用于存储所述网站认证数据;
发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。

8.  根据权利要求7所述的装置,其中存储单元包括:
重组子单元:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;
存储子单元:用于存储重组后的网站认证数据。

9.  根据权利要求8所述的装置,其中所述重组子单元具体用于:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。

10.  根据权利要求9所述的装置,其中所述重组子单元具体用于:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。

11.  根据权利要求7-10中任一项所述的装置,其中还包括:
过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。

12.  根据权利要求7所述的装置,其中存储单元还用于:
存储所述网站认证数据的更新时间。

说明书

说明书为搜索引擎提供网站认证数据的方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种为搜索引擎提供网站认证数据的方法及装置。
背景技术
搜索引擎在根据用户输入的搜索关键字进行搜索时,为保证搜索结果的可信赖性,需获取相应搜索结果链接的认证数据,如图6中所示,“V2”对应的方框中的内容即为该条搜索结果的部分网站认证数据。目前,由于各网站认证数据分散于不同的业务(例如,百度统计、百度口碑、百度百科等)中,搜索引擎在搜索该网站认证数据时,需要基于搜索结果的URL(统一资源定位符)到不同的业务中搜索,例如,需要在口碑认证业务中搜索网站的网民评论数据,在电话认证业务中搜索网站的电话认证数据。从不同业务搜索获取的认证数据可能是重复或者没有更新的。因此,现有的搜索引擎搜索网站认证数据的效率较低,从而影响搜索引擎搜索速度和认证数据的准确度。
发明内容
本发明解决的技术问题之一是快速为搜索引擎提供分散于多个认证数据来源的网站认证数据,提高搜索引擎搜索速度。
根据本发明一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的方法,其中,包括:
接收来自多个认证数据来源的网站认证数据;
存储所述网站认证数据;
在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
可选地,存储所述网站认证数据包括:
直接存储接收的所述网站认证数据;或
将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。
可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。
可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。
可选地,还包括:
从接收的网站认证数据中过滤掉重复的网站认证数据。
可选地,存储所述网站认证数据还包括:
存储所述网站认证数据的更新时间。
根据本发明另一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的装置,其中,包括:
接收单元,用于接收来自多个认证数据来源的网站认证数据;
存储单元,用于存储所述网站认证数据;
发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
可选地,存储单元包括:
重组子单元:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;
存储子单元:用于存储重组后的网站认证数据。
可选地,所述重组子单元具体用于:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检 索相关的网站认证数据。
可选地,所述重组子单元具体用于:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。
可选地,还包括:
过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。
可选地,存储单元还用于:
存储所述网站认证数据的更新时间。
由于本实施例可以接收来自多个认证数据来源的网站认证数据,并可以将该接收的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到分散于多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。
图2是根据本发明另一个实施例的为搜索引擎提供网站认证数据的方法的流程图。
图3是根据本发明一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。
图4是根据本发明一个实施例的存储单元结构示意图。
图5是根据本发明另一个实施例的为搜索引擎提供网站认证数据的装 置结构示意图。
图6是背景技术中搜索引擎搜索并显示的部分网站认证数据的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为为搜索引擎提供网站认证数据的装置。该计算机设备包括但不限于以下中的至少一个:用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图1中所示,本实施例所述为搜索引擎提供网站认证数据的方法主要包括如下步骤:
S100、接收来自多个认证数据来源的网站认证数据;
S110、存储所述网站认证数据;
S130、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
下面对各步骤做进一步详细介绍。
步骤S100中,接收来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。
其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送 协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。
对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。
其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。
本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:
一类为主动认证数据:
该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。
另一类为被动认证数据:
该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。
需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。
步骤S110中,存储网站认证数据的目的在于,当搜索引擎需要检索 网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取完整的网站认证数据,而不需在各个业务中分别查找,有利于加快搜索引擎检索网站认证数据的速度。
在存储网站认证数据时,可保存更新时间,例如,在相应的网站认证数据的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。
另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,可过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。其中,可在接收网站认证数据后,存储该网站认证数据前执行该过滤操作。
例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。
步骤S120中所述内容,是在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。
本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到来自多个认证数据源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
如图2中所示为根据本申请另一实施例的为搜索引擎提供网站认证数 据的方法,该方法主要包括如下步骤:
S200、接收来自多个认证数据来源的网站认证数据;
S210、将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据;
S220、存储所述重组后的网站认证数据;
S230、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎。
下面对各步骤做进一步详细介绍。
步骤S200中,接收来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。
其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。
对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。
其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。
本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包 括如下两类:
一类为主动认证数据:
该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。
另一类为被动认证数据:
该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。
需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。
另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。
例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。
步骤S210中,将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即,便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。
具体的,可将网站认证数据重组成以URL(Uniform Resource Locator,统一资源定位符)和/或Userid为索引来检索相关的网站认证数据,例如重组成以URL和/或Userid为关键字的键值对的数据结构,即,可以将网站认证数据中的Userid和URL与对应的认证内容组成键值对,便于搜索引擎根据URL和/或Userid可以检索到网站完整的网站认证数据。
其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作步骤:
首先,从以Userid为索引的数据中分离出以URL为索引的网站认证数据,将以同一URL为索引的数据合并;
例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为:
Userid->{(URL 1/URL 2/URL 3…),公司相关信息};和
URL->{口碑相关信息}。
其中的公司相关信息包括但不限于:公司名称、网站的ICP备案号码、官网认证查询、公司经营范围及公司所属行业等等;其中的口碑相关信息包括但不限于:评论内容、评论数及好评率等等。
所述的从以Userid为索引的数据中分离出以URL为索引的网站认证数据,即,从键值对Userid->{(URL 1/URL 2/URL 3…),公司相关信息}中,分离出以URL 1/URL 2/URL 3…为索引的网站认证数据,分离后的结果为:
URL1->{Userid,公司相关信息}、URL2->{Userid,公司相关信息}、URL3->{Userid,公司相关信息}…;
假如,URL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…。
之后,将以同一Userid为索引的数据合并。
如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一userid的情况,因此,可将以同一Userid为索引的网站认证数据合并,合 并后的结果为Userid->{公司相关信息}。
上述两组键值对重组后得到的网站认证数据为:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…;
Userid->{公司相关信息}。
可以理解的是,由于网站认证数据有可能随时更新,则上述重组的键值对可根据更新后的网站认证数据进行对应的修改,包括:增加部分内容,例如,增加电话认证、官网;或删除部分内容,例如,删除官网、电话认证;或者修改部分内容,例如,修改口碑相关信息等等。
步骤S220中,存储重组后的网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取完整的网站认证数据,而不需在各个业务中分别查找认证网站的网站认证数据,有利于加快搜索引擎检索网站认证数据的速度。
在存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立Userinfo和Urlinfo两个表格,分别以Userid和URL作为主键,对应的认证内容作为对应项。
另外,在存储所述重组后的网站认证数据的同时可保存更新时间,例如,在上述Userinfo和Urlinfo两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。
步骤S230中所述内容,是在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。
本实施例所述为搜索引擎提供网站认证数据的方法,可以将来自多个认证数据来源的网站认证数据重组成便于搜索引擎检索的数据结构,并存储重组后的网站认证数据,以便在接收到搜索引擎检索网站认证数据的请 求时,将存储的重组后的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到重组后的完整的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
上述为本申请实施例提供的为搜索引擎提供网站认证数据的方法,基于上述方法同样的思路,本申请实施例还提供一种为搜索引擎提供网站认证数据的装置,如图3中所示,该装置主要包括:接收单元300、存储单元310及发送单元320。
其中,接收单元300,主要用于接收来自多个认证数据来源的网站认证数据。
具体的,该接收单元300接收的来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。
其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。
对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。
本实施例中所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的完整认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。
本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:
一类为主动认证数据:
该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。
另一类为被动认证数据:
该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。
需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。
其中,存储单元310,主要用于存储所述网站认证数据;
存储网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取原本分散在多个认证数据来源的网站认证数据,而不需在所述多个认证数据来源中分别查找,有利于加快搜索引擎检索网站认证数据的速度。
一种实施例,该存储单元310可以直接存储接收单元300接收的网站认证数据。
另一实施例,如图4中所示,该存储单元310可进一步包括如下子单元用于存储网站认证数据:重组子单元3101和存储子单元3102。
重组子单元3101:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;
该重组子单元3101将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即, 便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。
具体的,重组子单元3101可将网站认证数据重组成以URL(Uniform Resource Locator,统一资源定位符)和/或Userid为索引来检索相关的网站认证数据,例如重组成以URL和/或Userid为关键字的键值对的数据结构,即,可以将网站认证数据中的Userid和URL与对应的认证内容组成键值对,便于搜索引擎根据URL和/或Userid可以检索到网站完整的网站认证数据。
其中重组子单元3101将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作:
首先,从以Userid为索引的数据中分离出以URL为索引的网站认证数据,将以同一URL为索引的数据合并;
例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为:
Userid->{(URL 1/URL 2/URL 3…),公司相关信息};和
URL->{口碑相关信息}。
其中的公司相关信息包括但不限于:公司名称、网站的ICP备案号码、官网认证查询、公司经营范围及公司所属行业等等;其中的口碑相关信息包括但不限于:评论内容、评论数及好评率等等。
所述的从以Userid为索引的数据中分离出以URL为索引的网站认证数据,即,从键值对Userid->{(URL 1/URL 2/URL 3…),公司相关信息}中,分离出以URL 1/URL 2/URL 3…为索引的网站认证数据,分离后的结果为:
URL1->{Userid,公司相关信息}、URL2->{Userid,公司相关信息}、URL3->{Userid,公司相关信息}…;
假如,URL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…。
之后,将以同一Userid为索引的数据合并。
如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一userid的情况,因此,可将以同一Userid为索引的网站认证数据合并,合并后的结果为Userid->{公司相关信息}。
上述两组键值对重组后得到的网站认证数据为:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…;
Userid->{公司相关信息}。
可以理解的是,由于网站认证数据有可能随时更新,则重组子单元3101可根据更新后的网站认证数据对上述重组的网站认证数据进行对应的修改,包括:增加部分内容,例如,增加电话认证、官网;或删除部分内容,例如,删除官网、电话认证;或者修改部分内容,例如,修改口碑相关信息等等。
其中存储子单元3102:用于存储重组后的网站认证数据。在存储子单元3102存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立Userinfo和Urlinfo两个表格,分别以Userid和URL作为主键,对应的认证内容作为对应项。
另外,本实施例的存储单元310,在存储网站认证数据时,可保存更新时间,例如,针对重组后的网站认证数据,在上述Userinfo和Urlinfo两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。
其中发送单元320,主要用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。
可选地,如图5中所示,本实施例所述装置还可包括:
过滤单元330,主要用于从接收的网站认证数据中过滤掉重复的网站 认证数据。
为避免重复接收同一网站的相同内容的网站认证数据,在接收单元300到网站认证数据后,由过滤单元330过滤掉重复的网站认证数据,可通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。
例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。
本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据来源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到原本分散在多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包 括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

为搜索引擎提供网站认证数据的方法及装置.pdf_第1页
第1页 / 共17页
为搜索引擎提供网站认证数据的方法及装置.pdf_第2页
第2页 / 共17页
为搜索引擎提供网站认证数据的方法及装置.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《为搜索引擎提供网站认证数据的方法及装置.pdf》由会员分享,可在线阅读,更多相关《为搜索引擎提供网站认证数据的方法及装置.pdf(17页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410706699.3(22)申请日 2014.11.27G06F 17/30(2006.01)H04L 29/06(2006.01)(71)申请人 百度在线网络技术(北京)有限公司地址 100085 北京市海淀区上地十街 10 号百度大厦(72)发明人 董长阳 张振平 崔燕 张铮周启 谭静(74)专利代理机构 北京汉昊知识产权代理事务所 ( 普通合伙 ) 11370代理人 朱海波(54) 发明名称为搜索引擎提供网站认证数据的方法及装置(57) 摘要本发明提供了一种为搜索引擎提供网站认证数据的方法及装置,其中的方法包括:接收来自多个。

2、认证数据来源的网站认证数据 ;存储所述网站认证数据 ;在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到完整的网站认证数据,为提高搜索引擎的搜索速度提供保证。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书11页 附图3页(10)申请公布号 CN 104503983 A(43)申请公布日 2015.04.08CN 104503983 A1/2 页21.一种为搜索引擎提供网站数认证据的方法,其中,包括 :接收来自多个认证数据来源的网站认证数据 ;存储所述网站认证数据 ;在。

3、接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。2.根据权利要求 1 所述的方法,其中存储所述网站认证数据包括 :直接存储接收的所述网站认证数据 ;或将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。3.根据权利要求 2 所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括 :将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。4.根据权利要求 3 所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括 :从以用户标识为索引的数据中分离出以统一资源。

4、定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并 ;以及将以同一用户标识为索引的数据合并。5.根据权利要求 1-4 中任一项所述的方法,其中还包括 :从接收的网站认证数据中过滤掉重复的网站认证数据。6.根据权利要求 1 所述的方法,其中存储所述网站认证数据还包括 :存储所述网站认证数据的更新时间。7.一种为搜索引擎提供网站认证数据的装置,其中,包括 :接收单元,用于接收来自多个认证数据来源的网站认证数据 ;存储单元,用于存储所述网站认证数据 ;发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。8.根据权利要求 7 所述的装。

5、置,其中存储单元包括 :重组子单元 :用于将所述网站认证数据重组成便于搜索引擎检索的数据结构 ;存储子单元 :用于存储重组后的网站认证数据。9.根据权利要求 8 所述的装置,其中所述重组子单元具体用于 :将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。10.根据权利要求 9 所述的装置,其中所述重组子单元具体用于 :从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并 ;以及将以同一用户标识为索引的数据合并。11.根据权利要求 7-10 中任一项所述的装置,其中还包括 :过滤单元,用于从接收的网站认证。

6、数据中过滤掉重复的网站认证数据。权 利 要 求 书CN 104503983 A2/2 页312.根据权利要求 7 所述的装置,其中存储单元还用于 :存储所述网站认证数据的更新时间。权 利 要 求 书CN 104503983 A1/11 页4为搜索引擎提供网站认证数据的方法及装置技术领域0001 本发明涉及计算机领域,尤其涉及一种为搜索引擎提供网站认证数据的方法及装置。背景技术0002 搜索引擎在根据用户输入的搜索关键字进行搜索时,为保证搜索结果的可信赖性,需获取相应搜索结果链接的认证数据,如图 6 中所示,“V2”对应的方框中的内容即为该条搜索结果的部分网站认证数据。目前,由于各网站认证数据分。

7、散于不同的业务 ( 例如,百度统计、百度口碑、百度百科等 ) 中,搜索引擎在搜索该网站认证数据时,需要基于搜索结果的 URL( 统一资源定位符 ) 到不同的业务中搜索,例如,需要在口碑认证业务中搜索网站的网民评论数据,在电话认证业务中搜索网站的电话认证数据。从不同业务搜索获取的认证数据可能是重复或者没有更新的。因此,现有的搜索引擎搜索网站认证数据的效率较低,从而影响搜索引擎搜索速度和认证数据的准确度。发明内容0003 本发明解决的技术问题之一是快速为搜索引擎提供分散于多个认证数据来源的网站认证数据,提高搜索引擎搜索速度。0004 根据本发明一方面的一个实施例,提供了一种为搜索引擎提供网站认证数。

8、据的方法,其中,包括 :0005 接收来自多个认证数据来源的网站认证数据 ;0006 存储所述网站认证数据 ;0007 在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。0008 可选地,存储所述网站认证数据包括 :0009 直接存储接收的所述网站认证数据 ;或0010 将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。0011 可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括 :0012 将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。0013 可选地,将所述网站认证。

9、数据重组成便于搜索引擎检索的数据结构,具体包括 :0014 从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并 ;以及0015 将以同一用户标识为索引的数据合并。0016 可选地,还包括 :0017 从接收的网站认证数据中过滤掉重复的网站认证数据。说 明 书CN 104503983 A2/11 页50018 可选地,存储所述网站认证数据还包括 :0019 存储所述网站认证数据的更新时间。0020 根据本发明另一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的装置,其中,包括 :0021 接收单元,用于接收来自多个认证数据来源的网。

10、站认证数据 ;0022 存储单元,用于存储所述网站认证数据 ;0023 发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。0024 可选地,存储单元包括 :0025 重组子单元 :用于将所述网站认证数据重组成便于搜索引擎检索的数据结构 ;0026 存储子单元 :用于存储重组后的网站认证数据。0027 可选地,所述重组子单元具体用于 :0028 将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。0029 可选地,所述重组子单元具体用于 :0030 从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站。

11、认证数据,将以同一统一资源定位符为索引的数据合并 ;以及0031 将以同一用户标识为索引的数据合并。0032 可选地,还包括 :0033 过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。0034 可选地,存储单元还用于 :0035 存储所述网站认证数据的更新时间。0036 由于本实施例可以接收来自多个认证数据来源的网站认证数据,并可以将该接收的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到分散于多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。0037 本领域普通技。

12、术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。附图说明0038 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显 :0039 图 1 是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。0040 图 2 是根据本发明另一个实施例的为搜索引擎提供网站认证数据的方法的流程图。0041 图 3 是根据本发明一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。0042 图 4 是根据本发明一个实施例的存储单元结构示意图。

13、。说 明 书CN 104503983 A3/11 页60043 图 5 是根据本发明另一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。0044 图 6 是背景技术中搜索引擎搜索并显示的部分网站认证数据的示意图。0045 附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式0046 下面结合附图对本发明作进一步详细描述。0047 图 1 是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为为搜索引擎提供网站认证数据的装置。该计算机设备包括但不限于以下中的至少一个 :用户设备、网。

14、络设备。用户设备包括但不限于计算机、智能手机、PDA 等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。0048 如图 1 中所示,本实施例所述为搜索引擎提供网站认证数据的方法主要包括如下步骤 :0049 S100、接收来自多个认证数据来源的网站认证数据 ;0050 S110、存储所述网站认证数据 ;0051 S130、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。0052 下面对各步骤做进一步详细介绍。。

15、0053 步骤 S100 中,接收来自多个认证数据来源的网站认证数据可以为 :接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。0054 其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种 :接口的 IP 地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于 HTTP(Hypertext transfer protocol,超级文本传送协议 ) 的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主。

16、动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。0055 对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。0056 其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括 :网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括 :网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于 :网站认证、。

17、官网认证、电话认证或口碑认证等等。0057 本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两说 明 书CN 104503983 A4/11 页7类:0058 一类为主动认证数据 :0059 该类网站认证数据一般为用户在认证网站上注册账号,生成 userid( 用户标识 ),并基于该 userid 所填写的认证数据,其中包括以下至少一个 :网址、网站的 ICP 备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid 相同,因此,存在从不同网站。

18、获取的不同网站认证数据对应同一 userid 的情况。0060 另一类为被动认证数据 :0061 该类网站认证数据为网民对网站的评论数据,包括 :评论内容、评论数、好评率等等。0062 需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。0063 步骤 S110 中,存储网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备 ( 例如,关系数据库 ) 中快速获取完整的网站认证数据,而不需在各个业务中分别查找,有利于加快搜索引擎检。

19、索网站认证数据的速度。0064 在存储网站认证数据时,可保存更新时间,例如,在相应的网站认证数据的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。0065 另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,可过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。其中,可在接收网站认证数据后,存储该网站认证数据前执行该过滤操作。0066 例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest。

20、 Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据 ;若不同,则可执行后续的处理。0067 步骤 S120 中所述内容,是在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的 URL 和 / 或 Userid 作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查。

21、找到该网站对应的完整的网站认证数据。0068 本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到来自多个认证数据源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。0069 如图 2 中所示为根据本申请另一实施例的为搜索引擎提供网站认证数据的方法,该方法主要包括如下步骤 :0070 S200、接收来自多个认证数据来源的网站认证数据 ;说 明 书CN 104503983 A5/11 页80071 S210、将所述网站认证。

22、数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据 ;0072 S220、存储所述重组后的网站认证数据 ;0073 S230、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎。0074 下面对各步骤做进一步详细介绍。0075 步骤 S200 中,接收来自多个认证数据来源的网站认证数据可以为 :接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。0076 其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网。

23、站,所述接口信息包括以下至少一种 :接口的 IP 地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于 HTTP(Hypertext transfer protocol,超级文本传送协议 ) 的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。0077 对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。0078 其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括 :网站。

24、所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括 :网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于 :网站认证、官网认证、电话认证或口碑认证等等。0079 本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:0080 一类为主动认证数据 :0081 该类网站认证数据一般为用户在认证网站上注册账号,生成 userid( 用户标识 ),并基于该 userid 所填写的认证数据,其中包括以下至少一个 :网址、网站的 I。

25、CP 备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid 相同,因此,存在从不同网站获取的不同网站认证数据对应同一 userid 的情况。0082 另一类为被动认证数据 :0083 该类网站认证数据为网民对网站的评论数据,包括 :评论内容、评论数、好评率等等。0084 需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于。

26、不同网站。0085 另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同说 明 书CN 104503983 A6/11 页9一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。0086 例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据。

27、,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据 ;若不同,则可执行后续的处理。0087 步骤 S210 中,将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即,便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。0088 具体的,可将网站认证数据重组成以 URL(Uniform Resource Locator,统一资源定位符 ) 和 / 或 Userid 为索引来检索相关的网站认证数据,例如重组成以 URL 和 / 或Userid 为关键字的键值对的数据。

28、结构,即,可以将网站认证数据中的 Userid 和 URL 与对应的认证内容组成键值对,便于搜索引擎根据 URL 和 / 或 Userid 可以检索到网站完整的网站认证数据。0089 其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作步骤 :0090 首先,从以 Userid 为索引的数据中分离出以 URL 为索引的网站认证数据,将以同一 URL 为索引的数据合并 ;0091 例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为 :0092 Userid-(URL 1/URL 2/URL 3),公司相关信息 ;和0093 URL- 口碑相关信息 。0094 其中。

29、的公司相关信息包括但不限于 :公司名称、网站的 ICP 备案号码、官网认证查询、公司经营范围及公司所属行业等等 ;其中的口碑相关信息包括但不限于 :评论内容、评论数及好评率等等。0095 所述的从以 Userid 为索引的数据中分离出以 URL 为索引的网站认证数据,即,从键值对Userid-(URL 1/URL 2/URL 3),公司相关信息中,分离出以URL 1/URL 2/URL 3为索引的网站认证数据,分离后的结果为 :0096 URL1-Userid,公 司 相 关 信 息 、URL2-Userid,公 司 相 关 信 息 、URL3-Userid,公司相关信息 ;0097 假如,U。

30、RL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下 :0098 URL- 口碑相关信息,公司相关信息 ;以及0099 URL2-Userid,公司相关信息 ;0100 URL3-Userid,公司相关信息 。0101 之后,将以同一 Userid 为索引的数据合并。0102 如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一 userid 的情况,因此,可将以同一Userid为索引的网站认证数据合并,合并后的结果为Userid-公司相关信息 。说 明 书CN 104503983 A7/11 页100103 上述两组键值对重。

31、组后得到的网站认证数据为 :0104 URL- 口碑相关信息,公司相关信息 ;以及0105 URL2-Userid,公司相关信息 ;0106 URL3-Userid,公司相关信息 ;0107 Userid- 公司相关信息 。0108 可以理解的是,由于网站认证数据有可能随时更新,则上述重组的键值对可根据更新后的网站认证数据进行对应的修改,包括 :增加部分内容,例如,增加电话认证、官网 ;或删除部分内容,例如,删除官网、电话认证 ;或者修改部分内容,例如,修改口碑相关信息等等。0109 步骤 S220 中,存储重组后的网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备 (。

32、 例如,关系数据库 ) 中快速获取完整的网站认证数据,而不需在各个业务中分别查找认证网站的网站认证数据,有利于加快搜索引擎检索网站认证数据的速度。0110 在存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立 Userinfo 和 Urlinfo 两个表格,分别以 Userid 和 URL 作为主键,对应的认证内容作为对应项。0111 另外,在存储所述重组后的网站认证数据的同时可保存更新时间,例如,在上述Userinfo 和 Urlinfo 两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。0112 步骤 S230 中所述内容,是在接收到搜索引。

33、擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的 URL 和 / 或 Userid 作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。0113 本实施例所述为搜索引擎提供网站认证数据的方法,可以将来自多个认证数据来源的网站认证数据重组成便于搜索引擎检索的数据结构,并存储重组后的网站认证数据,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的重组后的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到重组后的完整。

34、的网站认证数据,从而可有助于提高搜索引擎的搜索速度。0114 上述为本申请实施例提供的为搜索引擎提供网站认证数据的方法,基于上述方法同样的思路,本申请实施例还提供一种为搜索引擎提供网站认证数据的装置,如图 3 中所示,该装置主要包括 :接收单元 300、存储单元 310 及发送单元 320。0115 其中,接收单元 300,主要用于接收来自多个认证数据来源的网站认证数据。0116 具体的,该接收单元 300 接收的来自多个认证数据来源的网站认证数据可以为 :接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。0117 其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种 :接口的 IP 地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于 HTTP(Hypertext transfer protocol,超级文说 明 书CN 104503983 A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1