《为搜索引擎提供网站认证数据的方法及装置.pdf》由会员分享,可在线阅读,更多相关《为搜索引擎提供网站认证数据的方法及装置.pdf(17页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410706699.3(22)申请日 2014.11.27G06F 17/30(2006.01)H04L 29/06(2006.01)(71)申请人 百度在线网络技术(北京)有限公司地址 100085 北京市海淀区上地十街 10 号百度大厦(72)发明人 董长阳 张振平 崔燕 张铮周启 谭静(74)专利代理机构 北京汉昊知识产权代理事务所 ( 普通合伙 ) 11370代理人 朱海波(54) 发明名称为搜索引擎提供网站认证数据的方法及装置(57) 摘要本发明提供了一种为搜索引擎提供网站认证数据的方法及装置,其中的方法包括:接收来自多个。
2、认证数据来源的网站认证数据 ;存储所述网站认证数据 ;在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到完整的网站认证数据,为提高搜索引擎的搜索速度提供保证。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书11页 附图3页(10)申请公布号 CN 104503983 A(43)申请公布日 2015.04.08CN 104503983 A1/2 页21.一种为搜索引擎提供网站数认证据的方法,其中,包括 :接收来自多个认证数据来源的网站认证数据 ;存储所述网站认证数据 ;在。
3、接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。2.根据权利要求 1 所述的方法,其中存储所述网站认证数据包括 :直接存储接收的所述网站认证数据 ;或将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。3.根据权利要求 2 所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括 :将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。4.根据权利要求 3 所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括 :从以用户标识为索引的数据中分离出以统一资源。
4、定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并 ;以及将以同一用户标识为索引的数据合并。5.根据权利要求 1-4 中任一项所述的方法,其中还包括 :从接收的网站认证数据中过滤掉重复的网站认证数据。6.根据权利要求 1 所述的方法,其中存储所述网站认证数据还包括 :存储所述网站认证数据的更新时间。7.一种为搜索引擎提供网站认证数据的装置,其中,包括 :接收单元,用于接收来自多个认证数据来源的网站认证数据 ;存储单元,用于存储所述网站认证数据 ;发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。8.根据权利要求 7 所述的装。
5、置,其中存储单元包括 :重组子单元 :用于将所述网站认证数据重组成便于搜索引擎检索的数据结构 ;存储子单元 :用于存储重组后的网站认证数据。9.根据权利要求 8 所述的装置,其中所述重组子单元具体用于 :将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。10.根据权利要求 9 所述的装置,其中所述重组子单元具体用于 :从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并 ;以及将以同一用户标识为索引的数据合并。11.根据权利要求 7-10 中任一项所述的装置,其中还包括 :过滤单元,用于从接收的网站认证。
6、数据中过滤掉重复的网站认证数据。权 利 要 求 书CN 104503983 A2/2 页312.根据权利要求 7 所述的装置,其中存储单元还用于 :存储所述网站认证数据的更新时间。权 利 要 求 书CN 104503983 A1/11 页4为搜索引擎提供网站认证数据的方法及装置技术领域0001 本发明涉及计算机领域,尤其涉及一种为搜索引擎提供网站认证数据的方法及装置。背景技术0002 搜索引擎在根据用户输入的搜索关键字进行搜索时,为保证搜索结果的可信赖性,需获取相应搜索结果链接的认证数据,如图 6 中所示,“V2”对应的方框中的内容即为该条搜索结果的部分网站认证数据。目前,由于各网站认证数据分。
7、散于不同的业务 ( 例如,百度统计、百度口碑、百度百科等 ) 中,搜索引擎在搜索该网站认证数据时,需要基于搜索结果的 URL( 统一资源定位符 ) 到不同的业务中搜索,例如,需要在口碑认证业务中搜索网站的网民评论数据,在电话认证业务中搜索网站的电话认证数据。从不同业务搜索获取的认证数据可能是重复或者没有更新的。因此,现有的搜索引擎搜索网站认证数据的效率较低,从而影响搜索引擎搜索速度和认证数据的准确度。发明内容0003 本发明解决的技术问题之一是快速为搜索引擎提供分散于多个认证数据来源的网站认证数据,提高搜索引擎搜索速度。0004 根据本发明一方面的一个实施例,提供了一种为搜索引擎提供网站认证数。
8、据的方法,其中,包括 :0005 接收来自多个认证数据来源的网站认证数据 ;0006 存储所述网站认证数据 ;0007 在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。0008 可选地,存储所述网站认证数据包括 :0009 直接存储接收的所述网站认证数据 ;或0010 将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。0011 可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括 :0012 将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。0013 可选地,将所述网站认证。
9、数据重组成便于搜索引擎检索的数据结构,具体包括 :0014 从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并 ;以及0015 将以同一用户标识为索引的数据合并。0016 可选地,还包括 :0017 从接收的网站认证数据中过滤掉重复的网站认证数据。说 明 书CN 104503983 A2/11 页50018 可选地,存储所述网站认证数据还包括 :0019 存储所述网站认证数据的更新时间。0020 根据本发明另一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的装置,其中,包括 :0021 接收单元,用于接收来自多个认证数据来源的网。
10、站认证数据 ;0022 存储单元,用于存储所述网站认证数据 ;0023 发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。0024 可选地,存储单元包括 :0025 重组子单元 :用于将所述网站认证数据重组成便于搜索引擎检索的数据结构 ;0026 存储子单元 :用于存储重组后的网站认证数据。0027 可选地,所述重组子单元具体用于 :0028 将网站认证数据重组成以统一资源定位符和 / 或用户标识为索引来检索相关的网站认证数据。0029 可选地,所述重组子单元具体用于 :0030 从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站。
11、认证数据,将以同一统一资源定位符为索引的数据合并 ;以及0031 将以同一用户标识为索引的数据合并。0032 可选地,还包括 :0033 过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。0034 可选地,存储单元还用于 :0035 存储所述网站认证数据的更新时间。0036 由于本实施例可以接收来自多个认证数据来源的网站认证数据,并可以将该接收的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到分散于多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。0037 本领域普通技。
12、术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。附图说明0038 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显 :0039 图 1 是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。0040 图 2 是根据本发明另一个实施例的为搜索引擎提供网站认证数据的方法的流程图。0041 图 3 是根据本发明一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。0042 图 4 是根据本发明一个实施例的存储单元结构示意图。
13、。说 明 书CN 104503983 A3/11 页60043 图 5 是根据本发明另一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。0044 图 6 是背景技术中搜索引擎搜索并显示的部分网站认证数据的示意图。0045 附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式0046 下面结合附图对本发明作进一步详细描述。0047 图 1 是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为为搜索引擎提供网站认证数据的装置。该计算机设备包括但不限于以下中的至少一个 :用户设备、网。
14、络设备。用户设备包括但不限于计算机、智能手机、PDA 等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。0048 如图 1 中所示,本实施例所述为搜索引擎提供网站认证数据的方法主要包括如下步骤 :0049 S100、接收来自多个认证数据来源的网站认证数据 ;0050 S110、存储所述网站认证数据 ;0051 S130、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。0052 下面对各步骤做进一步详细介绍。。
15、0053 步骤 S100 中,接收来自多个认证数据来源的网站认证数据可以为 :接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。0054 其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种 :接口的 IP 地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于 HTTP(Hypertext transfer protocol,超级文本传送协议 ) 的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主。
16、动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。0055 对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。0056 其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括 :网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括 :网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于 :网站认证、。
17、官网认证、电话认证或口碑认证等等。0057 本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两说 明 书CN 104503983 A4/11 页7类:0058 一类为主动认证数据 :0059 该类网站认证数据一般为用户在认证网站上注册账号,生成 userid( 用户标识 ),并基于该 userid 所填写的认证数据,其中包括以下至少一个 :网址、网站的 ICP 备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid 相同,因此,存在从不同网站。
18、获取的不同网站认证数据对应同一 userid 的情况。0060 另一类为被动认证数据 :0061 该类网站认证数据为网民对网站的评论数据,包括 :评论内容、评论数、好评率等等。0062 需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。0063 步骤 S110 中,存储网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备 ( 例如,关系数据库 ) 中快速获取完整的网站认证数据,而不需在各个业务中分别查找,有利于加快搜索引擎检。
19、索网站认证数据的速度。0064 在存储网站认证数据时,可保存更新时间,例如,在相应的网站认证数据的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。0065 另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,可过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。其中,可在接收网站认证数据后,存储该网站认证数据前执行该过滤操作。0066 例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest。
20、 Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据 ;若不同,则可执行后续的处理。0067 步骤 S120 中所述内容,是在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的 URL 和 / 或 Userid 作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查。
21、找到该网站对应的完整的网站认证数据。0068 本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到来自多个认证数据源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。0069 如图 2 中所示为根据本申请另一实施例的为搜索引擎提供网站认证数据的方法,该方法主要包括如下步骤 :0070 S200、接收来自多个认证数据来源的网站认证数据 ;说 明 书CN 104503983 A5/11 页80071 S210、将所述网站认证。
22、数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据 ;0072 S220、存储所述重组后的网站认证数据 ;0073 S230、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎。0074 下面对各步骤做进一步详细介绍。0075 步骤 S200 中,接收来自多个认证数据来源的网站认证数据可以为 :接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。0076 其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网。
23、站,所述接口信息包括以下至少一种 :接口的 IP 地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于 HTTP(Hypertext transfer protocol,超级文本传送协议 ) 的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。0077 对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。0078 其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括 :网站。
24、所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括 :网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于 :网站认证、官网认证、电话认证或口碑认证等等。0079 本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:0080 一类为主动认证数据 :0081 该类网站认证数据一般为用户在认证网站上注册账号,生成 userid( 用户标识 ),并基于该 userid 所填写的认证数据,其中包括以下至少一个 :网址、网站的 I。
25、CP 备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid 相同,因此,存在从不同网站获取的不同网站认证数据对应同一 userid 的情况。0082 另一类为被动认证数据 :0083 该类网站认证数据为网民对网站的评论数据,包括 :评论内容、评论数、好评率等等。0084 需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于。
26、不同网站。0085 另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同说 明 书CN 104503983 A6/11 页9一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。0086 例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据。
27、,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据 ;若不同,则可执行后续的处理。0087 步骤 S210 中,将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即,便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。0088 具体的,可将网站认证数据重组成以 URL(Uniform Resource Locator,统一资源定位符 ) 和 / 或 Userid 为索引来检索相关的网站认证数据,例如重组成以 URL 和 / 或Userid 为关键字的键值对的数据。
28、结构,即,可以将网站认证数据中的 Userid 和 URL 与对应的认证内容组成键值对,便于搜索引擎根据 URL 和 / 或 Userid 可以检索到网站完整的网站认证数据。0089 其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作步骤 :0090 首先,从以 Userid 为索引的数据中分离出以 URL 为索引的网站认证数据,将以同一 URL 为索引的数据合并 ;0091 例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为 :0092 Userid-(URL 1/URL 2/URL 3),公司相关信息 ;和0093 URL- 口碑相关信息 。0094 其中。
29、的公司相关信息包括但不限于 :公司名称、网站的 ICP 备案号码、官网认证查询、公司经营范围及公司所属行业等等 ;其中的口碑相关信息包括但不限于 :评论内容、评论数及好评率等等。0095 所述的从以 Userid 为索引的数据中分离出以 URL 为索引的网站认证数据,即,从键值对Userid-(URL 1/URL 2/URL 3),公司相关信息中,分离出以URL 1/URL 2/URL 3为索引的网站认证数据,分离后的结果为 :0096 URL1-Userid,公 司 相 关 信 息 、URL2-Userid,公 司 相 关 信 息 、URL3-Userid,公司相关信息 ;0097 假如,U。
30、RL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下 :0098 URL- 口碑相关信息,公司相关信息 ;以及0099 URL2-Userid,公司相关信息 ;0100 URL3-Userid,公司相关信息 。0101 之后,将以同一 Userid 为索引的数据合并。0102 如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一 userid 的情况,因此,可将以同一Userid为索引的网站认证数据合并,合并后的结果为Userid-公司相关信息 。说 明 书CN 104503983 A7/11 页100103 上述两组键值对重。
31、组后得到的网站认证数据为 :0104 URL- 口碑相关信息,公司相关信息 ;以及0105 URL2-Userid,公司相关信息 ;0106 URL3-Userid,公司相关信息 ;0107 Userid- 公司相关信息 。0108 可以理解的是,由于网站认证数据有可能随时更新,则上述重组的键值对可根据更新后的网站认证数据进行对应的修改,包括 :增加部分内容,例如,增加电话认证、官网 ;或删除部分内容,例如,删除官网、电话认证 ;或者修改部分内容,例如,修改口碑相关信息等等。0109 步骤 S220 中,存储重组后的网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备 (。
32、 例如,关系数据库 ) 中快速获取完整的网站认证数据,而不需在各个业务中分别查找认证网站的网站认证数据,有利于加快搜索引擎检索网站认证数据的速度。0110 在存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立 Userinfo 和 Urlinfo 两个表格,分别以 Userid 和 URL 作为主键,对应的认证内容作为对应项。0111 另外,在存储所述重组后的网站认证数据的同时可保存更新时间,例如,在上述Userinfo 和 Urlinfo 两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。0112 步骤 S230 中所述内容,是在接收到搜索引。
33、擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的 URL 和 / 或 Userid 作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。0113 本实施例所述为搜索引擎提供网站认证数据的方法,可以将来自多个认证数据来源的网站认证数据重组成便于搜索引擎检索的数据结构,并存储重组后的网站认证数据,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的重组后的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到重组后的完整。
34、的网站认证数据,从而可有助于提高搜索引擎的搜索速度。0114 上述为本申请实施例提供的为搜索引擎提供网站认证数据的方法,基于上述方法同样的思路,本申请实施例还提供一种为搜索引擎提供网站认证数据的装置,如图 3 中所示,该装置主要包括 :接收单元 300、存储单元 310 及发送单元 320。0115 其中,接收单元 300,主要用于接收来自多个认证数据来源的网站认证数据。0116 具体的,该接收单元 300 接收的来自多个认证数据来源的网站认证数据可以为 :接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。0117 其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种 :接口的 IP 地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于 HTTP(Hypertext transfer protocol,超级文说 明 书CN 104503983 A。