《重启用站点的收录方法和系统.pdf》由会员分享,可在线阅读,更多相关《重启用站点的收录方法和系统.pdf(19页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104182485A43申请公布日20141203CN104182485A21申请号201410389132822申请日20140808G06F17/3020060171申请人北京奇虎科技有限公司地址100088北京市西城区新街口外大街28号D座112室(德胜园区)申请人奇智软件(北京)有限公司72发明人王智广74专利代理机构北京智汇东方知识产权代理事务所普通合伙11391代理人康正德孙晓芳54发明名称重启用站点的收录方法和系统57摘要本发明提供了一种重启用站点的收录方法和系统。该方法包括提取一个或多个时效性网页;解析所述时效性网页中的时效性内容,判断其中是否包含有时效性站点。
2、信息;根据所述时效性站点信息,验证对应的站点是否为重启用的站点;如果是,则将所述时效性站点信息对应的站点作为重启用的站点进行重新收录。本发明实施例能够高效、有针对性地重新收录重启用站点,为后续使用重启用站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。51INTCL权利要求书2页说明书11页附图5页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书11页附图5页10申请公布号CN104182485ACN104182485A1/2页21一种重启用站点的收录方法,包括提取一个或多个时效性网页;解析所述时效性网页中的时效性内容,判断其。
3、中是否包含有时效性站点信息;根据所述时效性站点信息,验证对应的站点是否为重启用的站点;如果是,则将所述时效性站点信息对应的站点作为重启用的站点进行重新收录。2根据权利要求1所述的方法,其中,所述提取一个或多个时效性网页,包括根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。3根据权利要求1或2所述的方法,其中,解析所述时效性网页中的时效性内容,判断其中是否包含有时效性站点信息,包括解析所述时效性网页的页面内容部分和/或超链部分;判断所述页面内容部分和/或超链部分是否包含有时效性站点信息。4根据权利要求1至3任一项所述的方法,其中,解析所述时效性网页中的时效性内容之后,判断其中是否包含。
4、有时效性站点信息之前,还包括所述时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;选择质量超过指定阈值的多个网页;在选择的多个网页中判断其中是否包含有时效性站点信息。5根据权利要求1至4任一项所述的方法,其中,所述时效性内容包括下列至少之一标题;正文;相关链接。6根据权利要求1至5任一项所述的方法,其中,根据所述时效性站点信息,验证对应的站点是否为重启用的站点,包括查找收录站点数据库,判断所述时效性站点信息对应的站点是否之前已标记为无效或失效的站点;若是,则验证所述时效性站点信息对应的站点为重启用的站点。7根据权利要求1至6任一。
5、项所述的方法,其中,根据所述时效性站点信息,验证对应的站点是否为重启用的站点,包括解析所述时效性站点信息,查找互联网协议IP信息;若所述时效性站点信息具备IP,且搜索引擎中记录该IP对应的站点之前已成为无效或失效的站点,则验证该站点为重启用的站点。8根据权利要求1至7任一项所述的方法,其中,将所述时效性站点信息对应的站点作为重启用的站点进行重新收录,包括将所述时效性站点信息对应的站点作为重启用的站点;验证所述重启用的站点是否为有效站点;若是,则对所述重启用的站点进行重新收录。9一种重启用站点的收录系统,包括提取模块,适于提取一个或多个时效性网页;权利要求书CN104182485A2/2页3判断。
6、模块,适于解析所述时效性网页中的时效性内容,判断其中是否包含有时效性站点信息;验证模块,适于根据所述时效性站点信息,验证对应的站点是否为重启用的站点;收录模块,适于如果验证模块的验证结果为是,则将所述时效性站点信息对应的站点作为重启用的站点进行重新收录。10根据权利要求9所述的系统,其中,所述提取模块还适于根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。权利要求书CN104182485A1/11页4重启用站点的收录方法和系统技术领域0001本发明涉及互联网应用技术领域,特别是涉及一种重启用站点的收录方法和系统。背景技术0002在计算机领域,站点SITE是指物理上具有较好的线路连接的。
7、能实现较快通信速率的计算机的集合一般是指一个局域网,站点之间一般是通过慢速连接来实现信息通信一般是指广域网,即站点是对网上计算机的实际的物理分布的一种客观反映。0003随着互联网业务的发展,互联网的更新速度极快,每天甚至数小时或数分钟均可能存在着站点的失效、无效以及重启用站点的重启用是指该站点曾经被使用过,后成为无效或失效的站点,现又重新启动,对于搜索引擎而言及时重新收录重启用站点是一项基本的要求。然而,搜索引擎在确认站点失效或无效后一般是采取打压的策略,即SPIDER爬虫不再去抓取此站点,且展现时也会屏蔽掉该站点,久而久之下游也不会再建索引。当站点重新启用后,SPIDER也很难及时地发现并且。
8、去更新,当然下游也不会建索引呈现给用户。如果站点失效或无效后,为了及时发现该站点的重新启用而每天例行不断地去抓取更新,显然是一种流量浪费,而且互联网中站点数据巨大,显然不是一种很好的方法。相关技术中,针对站点失效或无效后,又重新启用的情况,在调度时会根据站点历史特征等信息,或者定期随机来选取一批已经失效或无效的站点去更新,但是其召回率和准确率是无法保证的。因此,如何高效、有针对性地重新收录重启用站点成为目前亟待解决的技术问题。发明内容0004鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的重启用站点的收录方法和相应的系统。0005依据本发明的一个方面,提供了一种重。
9、启用站点的收录方法,包括提取一个或多个时效性网页;解析所述时效性网页中的时效性内容,判断其中是否包含有时效性站点信息;根据所述时效性站点信息,验证对应的站点是否为重启用的站点;如果是,则将所述时效性站点信息对应的站点作为重启用的站点进行重新收录。0006可选地,所述提取一个或多个时效性网页,包括根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。0007可选地,解析所述时效性网页中的时效性内容,判断其中是否包含有时效性站点信息,包括解析所述时效性网页的页面内容部分和/或超链部分;判断所述页面内容部分和/或超链部分是否包含有时效性站点信息。0008可选地,解析所述时效性网页中的时效性内容。
10、之后,判断其中是否包含有时效性站点信息之前,还包括所述时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;选择质量超过指定阈值的多个网页;在选择的多个网页中判断其中是否包含有时效性站点信息。说明书CN104182485A2/11页50009可选地,所述时效性内容包括下列至少之一0010标题;0011正文;0012相关链接。0013可选地,根据所述时效性站点信息,验证对应的站点是否为重启用的站点,包括查找收录站点数据库,判断所述时效性站点信息对应的站点是否之前已标记为无效或失效的站点;若是,则验证所述时效性站点信息对应的站点为重启用。
11、的站点。0014可选地,根据所述时效性站点信息,验证对应的站点是否为重启用的站点,包括解析所述时效性站点信息,查找互联网协议IP信息;若所述时效性站点信息具备IP,且搜索引擎中记录该IP对应的站点之前已成为无效或失效的站点,则验证该站点为重启用的站点。0015可选地,将所述时效性站点信息对应的站点作为重启用的站点进行重新收录,包括将所述时效性站点信息对应的站点作为重启用的站点;验证所述重启用的站点是否为有效站点;若是,则对所述重启用的站点进行重新收录。0016依据本发明的另一个方面,还提供了一种重启用站点的收录系统,包括0017提取模块,适于提取一个或多个时效性网页;0018判断模块,适于解析。
12、所述时效性网页中的时效性内容,判断其中是否包含有时效性站点信息;0019验证模块,适于根据所述时效性站点信息,验证对应的站点是否为重启用的站点;0020收录模块,适于如果验证模块的验证结果为是,则将所述时效性站点信息对应的站点作为重启用的站点进行重新收录。0021可选地,所述提取模块还适于根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。0022可选地,所述判断模块还适于解析所述时效性网页的页面内容部分和/或超链部分;判断所述页面内容部分和/或超链部分是否包含有时效性站点信息。0023可选地,所述判断模块还适于所述时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,。
13、所述网页包含的有效内容与所述网页的质量成正比;选择质量超过指定阈值的多个网页;在选择的多个网页中判断其中是否包含有时效性站点信息。0024可选地,所述时效性内容包括下列至少之一0025标题;0026正文;0027相关链接。0028可选地,所述验证模块还适于查找收录站点数据库,判断所述时效性站点信息对应的站点是否之前已标记为无效或失效的站点;若是,则验证所述时效性站点信息对应的站点为重启用的站点。0029可选地,所述验证模块还适于解析所述时效性站点信息,查找互联网协议IP信息;若所述时效性站点信息具备IP,且搜索引擎中记录该IP对应的站点之前已成为无效或说明书CN104182485A3/11页6。
14、失效的站点,则验证该站点为重启用的站点。0030可选地,所述收录模块还适于将所述时效性站点信息对应的站点作为重启用的站点;验证所述重启用的站点是否为有效站点;若是,则对所述重启用的站点进行重新收录。0031依据本发明的技术方案,通过解析一个或多个时效性网页中的时效性内容,获取其中包含的时效性站点信息,并验证获取的时效性站点信息对应的站点是否为重启用的站点,若是,则将时效性站点信息对应的站点作为重启用的站点进行重新收录。由此可见,本发明实施例能够提取一个或多个时效性网页,并解析时效性网页中的时效性内容,获取其中包含的时效性站点信息,进而验证获取的时效性站点信息对应的站点是否为重启用的站点,而无需。
15、爬虫每天例行不断地去抓取更新或者在调度时会根据站点历史特征等信息随机来选取一批已经失效或无效的站点去更新。本发明实施例解决了爬虫每天例行不断地去抓取更新,造成流量浪费的问题;同时解决了在调度时会根据站点历史特征等信息,或者定期随机来选取一批已经失效或无效的站点去更新,而无法保证其召回率和准确率的问题。因此,本发明实施例能够高效、有针对性地重新收录重启用站点,为后续使用重启用站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。0032上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的。
16、上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。0033根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。附图说明0034通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中0035图1示出了根据本发明一个实施例的重启用站点的收录方法的流程图;0036图2示出了根据本发明一个实施例的基于查找收录站点数据库的重启用站点的收录方法的流程图;0037图3示出。
17、了时效性网页中新闻报道提及的重启用站点的示意图;0038图4示出了根据本发明一个实施例的基于查找IP的方式的重启用站点的收录方法的流程图;以及0039图5示出了根据本发明一个实施例的重启用站点的收录系统的结构示意图。具体实施方式0040下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。说明书CN104182485A4/11页70041为解决上述技术问题,本发明实施例提供了一种重启用站点的收。
18、录方法,图1示出了根据本发明一个实施例的重启用站点的收录方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S108。0042步骤S102、提取一个或多个时效性网页。0043步骤S104、解析时效性网页中的时效性内容,判断其中是否包含有时效性站点信息,若是,则继续执行步骤S106;否则,结束本次流程。0044步骤S106、根据时效性站点信息,验证对应的站点是否为重启用的站点,若是,则继续执行步骤S108;否则,结束本次流程。0045步骤S108、将时效性站点信息对应的站点作为重启用的站点进行重新收录。0046依据本发明的技术方案,通过解析一个或多个时效性网页中的时效性内容,获取其中包。
19、含的时效性站点信息,并验证获取的时效性站点信息对应的站点是否为重启用的站点,若是,则将时效性站点信息对应的站点作为重启用的站点进行重新收录。由此可见,本发明实施例能够提取一个或多个时效性网页,并解析时效性网页中的时效性内容,获取其中包含的时效性站点信息,进而验证获取的时效性站点信息对应的站点是否为重启用的站点,而无需爬虫每天例行不断地去抓取更新或者在调度时会根据站点历史特征等信息随机来选取一批已经失效或无效的站点去更新。本发明实施例解决了爬虫每天例行不断地去抓取更新,造成流量浪费的问题;同时解决了在调度时会根据站点历史特征等信息,或者定期随机来选取一批已经失效或无效的站点去更新,而无法保证其召。
20、回率和准确率的问题。因此,本发明实施例能够高效、有针对性地重新收录重启用站点,为后续使用重启用站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。0047上文步骤S102中提及的时效性网页是指发布时间距当前不超过指定时长,且搜索引擎未收录过的网页。进一步地,步骤S102可以采用的技术手段为根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。例如,当前时间为上午830,可以将网页发布时间为上午730至830的网页确认为时效性网页。又例如,若网页的前链网页是由搜索引擎利用搜索关键词搜索到的搜索结果所在的网页,即在搜索结果中链接到该网页,则认为该。
21、网页被搜索引擎收录过,该网页不为时效性网页;反之,该网页为时效性网页。0048在步骤S102提取一个或多个时效性网页之后,步骤S104进一步解析时效性网页中的时效性内容,这里的时效性内容可以是网页时效性主体内容,如正文、标题、相关链接等。步骤S104可以采用的技术手段为解析时效性网页的页面内容部分和/或超链部分,进而判断页面内容部分和/或超链部分是否包含有时效性站点信息。若页面内容部分和/或超链部分包含有时效性站点信息,则获取页面内容部分中提及的时效性站点信息,和/或,超链部分的时效性站点信息,并进入随后的步骤S108。若页面内容部分和/或超链部分均不包含有时效性站点信息,则结束本次流程。00。
22、49由于低质量的垃圾时效性网页提炼出来的站点的质量往往较低,本发明实施例可以进一步将低质量的时效性网页识别出来。即步骤S104可以采用的技术手段为当时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比,随后选择质量超过指定阈值的多个网页,之后在选择的多个网页中判断其中是否包含有时效性站点信息。说明书CN104182485A5/11页80050在上文步骤S104判断时效性网页中的时效性内容中包含有时效性站点信息后,步骤S106进一步验证时效性站点信息对应的站点是否为重启用的站点,可以通过查找收录站点数据库或查找IPINTERNETPROTOC。
23、OL,互联网协议的方式来验证,下面将详细说明这两种方式。0051方式一,通过查找收录站点数据库的方式。0052在方式一中,可以查找收录站点数据库,判断时效性站点信息对应的站点是否之前已标记为无效或失效的站点。若是,则验证时效性站点信息对应的站点为重启用的站点。若否,则验证时效性站点信息对应的站点不为重启用的站点,可能该站点为新发布的站点。0053方式二,通过查找IP的方式。0054在方式二中,可以解析时效性站点信息,查找IP信息。若时效性站点信息具备IP,且搜索引擎中记录该IP对应的站点之前已成为无效或失效的站点,则验证该站点为重启用的站点。若时效性站点信息具备IP,且搜索引擎中记录该IP对应。
24、的站点之前未成为无效或失效的站点,则验证该站点不为重启用的站点,可能该站点为新发布的站点。若时效性站点信息不具备IP,则验证该站点不为重启用的站点。0055进一步地,为了提高重启用的站点重新收录的准确性和有效性。步骤S108将时效性站点信息对应的站点作为重启用的站点进行重新收录之前,还需要验证该重启用的站点是否为有效站点,若为有效站点,则对重启用的站点进行重新收录,反之,则不对重启用的站点进行重新收录。0056以上介绍了图1所示的实施例中各环节的多种实现方式,下面通过具体的优选实施例对本发明实施例提供的重启用站点的收录方法做进一步说明。0057实施例一0058图2示出了根据本发明一个实施例的基。
25、于查找收录站点数据库的重启用站点的收录方法的流程图。如图2所示,该方法包括以下步骤S202至步骤S210。0059步骤S202、根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。这里的时效性网页是指发布时间距当前不超过指定时长,且搜索引擎未收录过的网页。例如,当前时间为上午830,可以将网页发布时间为上午730至830的网页确认为时效性网页。又例如,若网页的前链网页是由搜索引擎利用搜索关键词搜索到的搜索结果所在的网页,即在搜索结果中链接到该网页,则认为该网页被搜索引擎收录过,该网页不为时效性网页;反之,该网页为时效性网页。0060步骤S204、解析时效性网页的页面内容部分和/或超链部。
26、分,判断页面内容部分和/或超链部分是否包含有时效性站点信息,若是,则继续执行步骤S206;否则,结束本次流程。0061进一步地,当时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比,随后选择质量超过指定阈值的多个网页,之后在选择的多个网页中判断其中是否包含有时效性站点信息,从而可以将低质量的时效性网页识别出来。0062步骤S206、查找收录站点数据库,判断时效性站点信息对应的站点是否之前已标记为无效或失效的站点,若是,则继续执行步骤S208,否则,继续执行步骤S210。0063步骤S208、验证时效性站点信息对应的站点为重启用的站点,并将。
27、时效性站点信说明书CN104182485A6/11页9息对应的站点作为重启用的站点进行重新收录。0064进一步地,为了提高重启用的站点重新收录的准确性和有效性。步骤S208将时效性站点信息对应的站点作为重启用的站点进行重新收录之前,还需要验证该重启用的站点是否为有效站点,若为有效站点,则对重启用的站点进行重新收录,反之,则不对重启用的站点进行重新收录。0065步骤S210、验证时效性站点信息对应的站点不为重启用的站点,并结束本次流程。0066如图3所示,为时效性网页中新闻报道提及的重启用站点的示意图,页面内容部分中包含有时效性站点信息,即“HTTP/WWWBYTECOM”。进一步查找收录站点数。
28、据库,判断该时效性站点信息对应的站点之前已标记为失效的站点,则验证时效性站点信息对应的站点为重启用的站点,并将时效性站点信息对应的站点作为重启用的站点进行重新收录。0067实施例一中,能够提取一个或多个时效性网页,并解析时效性网页中的时效性内容,获取其中包含的时效性站点信息,进而基于查找收录站点数据库的方式验证获取的时效性站点信息对应的站点是否为重启用的站点,而无需爬虫每天例行不断地去抓取更新或者在调度时会根据站点历史特征等信息随机来选取一批已经失效或无效的站点去更新,实现高效、有针对性地重新收录重启用站点,为后续使用重启用站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效。
29、性,起到搜索引擎优化的作用。0068实施例二0069图4示出了根据本发明一个实施例的基于查找IP的方式的重启用站点的收录方法的流程图。如图4所示,该方法包括以下步骤S402至步骤S414。0070步骤S402、根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。这里的时效性网页是指发布时间距当前不超过指定时长,且搜索引擎未收录过的网页。例如,当前时间为上午830,可以将网页发布时间为上午730至830的网页确认为时效性网页。又例如,若网页的前链网页是由搜索引擎利用搜索关键词搜索到的搜索结果所在的网页,即在搜索结果中链接到该网页,则认为该网页被搜索引擎收录过,该网页不为时效性网页;反之,。
30、该网页为时效性网页。0071步骤S404、解析时效性网页的页面内容部分和/或超链部分,判断页面内容部分和/或超链部分是否包含有时效性站点信息,若是,则继续执行步骤S406;否则,结束本次流程。0072进一步地,当时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比,随后选择质量超过指定阈值的多个网页,之后在选择的多个网页中判断其中是否包含有时效性站点信息,从而可以将低质量的时效性网页识别出来。0073步骤S406、解析时效性站点信息,查找IP信息。0074步骤S408、判断时效性站点信息是否具备IP,若是,则继续执行步骤S410;否则,继续。
31、执行步骤S412。0075步骤S410、判断搜索引擎中记录该IP对应的站点之前是否已成为无效或失效的站点,若是,则继续执行步骤S414;否则,继续执行步骤S412。0076步骤S412、验证该站点不为重启用的站点,并结束本次流程。0077步骤S414、验证该站点为重启用的站点,将该重启用的站点进行重新收录。说明书CN104182485A7/11页100078进一步地,为了提高重启用的站点重新收录的准确性和有效性。步骤S208将时效性站点信息对应的站点作为重启用的站点进行重新收录之前,还需要验证该重启用的站点是否为有效站点,若为有效站点,则对重启用的站点进行重新收录,反之,则不对重启用的站点进行。
32、重新收录。0079实施例二中,能够提取一个或多个时效性网页,并解析时效性网页中的时效性内容,获取其中包含的时效性站点信息,进而基于查找IP的方式验证获取的时效性站点信息对应的站点是否为重启用的站点,而无需爬虫每天例行不断地去抓取更新或者在调度时会根据站点历史特征等信息随机来选取一批已经失效或无效的站点去更新,实现高效、有针对性地重新收录重启用站点,为后续使用重启用站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。0080需要说明的是,实际应用中,上述所有可选实施方式可以采用结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。0081基于。
33、同一发明构思,本发明实施例还提供了一种重启用站点的收录系统,以实现上述重启用站点的收录方法。0082图5示出了根据本发明一个实施例的重启用站点的收录系统的结构示意图。参见图5,该系统至少包括提取模块510、判断模块520、验证模块530以及收录模块540。0083现介绍本发明实施例的重启用站点的收录系统的各组成或器件的功能以及各部分间的连接关系0084提取模块510,适于提取一个或多个时效性网页;0085判断模块520,与提取模块510相耦合,适于解析时效性网页中的时效性内容,判断其中是否包含有时效性站点信息;0086验证模块530,与判断模块520相耦合,适于根据时效性站点信息,验证对应的站。
34、点是否为重启用的站点;0087收录模块540,与验证模块530相耦合,适于如果验证模块530的验证结果为是,则将时效性站点信息对应的站点作为重启用的站点进行重新收录。0088在一个实施例中,提取模块510还可以适于根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。0089在一个实施例中,判断模块520还可以适于解析时效性网页的页面内容部分和/或超链部分;判断页面内容部分和/或超链部分是否包含有时效性站点信息。0090在一个实施例中,判断模块520还可以适于时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比;选择质量超过指定阈值的。
35、多个网页;在选择的多个网页中判断其中是否包含有时效性站点信息。0091在一个实施例中,时效性内容包括下列至少之一0092标题;0093正文;0094相关链接。0095在一个实施例中,验证模块530还可以适于查找收录站点数据库,判断时效性站点信息对应的站点是否之前已标记为无效或失效的站点;若是,则验证时效性站点信息对说明书CN104182485A108/11页11应的站点为重启用的站点。0096在一个实施例中,验证模块530还可以适于解析时效性站点信息,查找IP信息;若时效性站点信息具备IP,且搜索引擎中记录该IP对应的站点之前已成为无效或失效的站点,则验证该站点为重启用的站点。0097在一个实。
36、施例中,收录模块540还可以适于将时效性站点信息对应的站点作为重启用的站点;验证重启用的站点是否为有效站点;若是,则对重启用的站点进行重新收录。0098根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果0099依据本发明的技术方案,通过解析一个或多个时效性网页中的时效性内容,获取其中包含的时效性站点信息,并验证获取的时效性站点信息对应的站点是否为重启用的站点,若是,则将时效性站点信息对应的站点作为重启用的站点进行重新收录。由此可见,本发明实施例能够提取一个或多个时效性网页,并解析时效性网页中的时效性内容,获取其中包含的时效性站点信息,进而验证获取的时效性站点信息。
37、对应的站点是否为重启用的站点,而无需爬虫每天例行不断地去抓取更新或者在调度时会根据站点历史特征等信息随机来选取一批已经失效或无效的站点去更新。本发明实施例解决了爬虫每天例行不断地去抓取更新,造成流量浪费的问题;同时解决了在调度时会根据站点历史特征等信息,或者定期随机来选取一批已经失效或无效的站点去更新,而无法保证其召回率和准确率的问题。因此,本发明实施例能够高效、有针对性地重新收录重启用站点,为后续使用重启用站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。0100在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没。
38、有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。0101类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施。
39、例。0102本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书包括伴随的权利要求、摘要和附图中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书包括伴随的权利要求、摘要和附图中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。说明书CN104182485A119/11页1。
40、20103此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。0104本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器DSP来实现根据本发明实施例的重启用站点的收录系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部。
41、的设备或者装置程序例如,计算机程序和计算机程序产品。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。0105应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当。
42、编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。0106至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。0107本发明还提供A1、一种重启用站点的收录方法,包括0108提取一个或多个时效性网页;0109解析所述时效性网页中的时效性内容,判断其中是否包含有时。
43、效性站点信息;0110根据所述时效性站点信息,验证对应的站点是否为重启用的站点;0111如果是,则将所述时效性站点信息对应的站点作为重启用的站点进行重新收录。0112A2、根据A1所述的方法,其中,所述提取一个或多个时效性网页,包括0113根据网页发布时间和/或前链网页信息提取一个或多个时效性网页。0114A3、根据A1或A2所述的方法,其中,解析所述时效性网页中的时效性内容,判断其中是否包含有时效性站点信息,包括0115解析所述时效性网页的页面内容部分和/或超链部分;0116判断所述页面内容部分和/或超链部分是否包含有时效性站点信息。0117A4、根据A1至A3任一项所述的方法,其中,解析所。
44、述时效性网页中的时效性内容之后,判断其中是否包含有时效性站点信息之前,还包括0118所述时效性网页的网页为多个时,0119根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所说明书CN104182485A1210/11页13述网页的质量成正比;0120选择质量超过指定阈值的多个网页;0121在选择的多个网页中判断其中是否包含有时效性站点信息。0122A5、根据A1至A4任一项所述的方法,其中,所述时效性内容包括下列至少之一0123标题;0124正文;0125相关链接。0126A6、根据A1至A5任一项所述的方法,其中,根据所述时效性站点信息,验证对应的站点是否为重启用的站点,。
45、包括0127查找收录站点数据库,判断所述时效性站点信息对应的站点是否之前已标记为无效或失效的站点;0128若是,则验证所述时效性站点信息对应的站点为重启用的站点。0129A7、根据A1至A6任一项所述的方法,其中,根据所述时效性站点信息,验证对应的站点是否为重启用的站点,包括0130解析所述时效性站点信息,查找互联网协议IP信息;0131若所述时效性站点信息具备IP,且搜索引擎中记录该IP对应的站点之前已成为无效或失效的站点,则验证该站点为重启用的站点。0132A8、根据A1至A7任一项所述的方法,其中,将所述时效性站点信息对应的站点作为重启用的站点进行重新收录,包括0133将所述时效性站点信。
46、息对应的站点作为重启用的站点;0134验证所述重启用的站点是否为有效站点;0135若是,则对所述重启用的站点进行重新收录。0136B9、一种重启用站点的收录系统,包括0137提取模块,适于提取一个或多个时效性网页;0138判断模块,适于解析所述时效性网页中的时效性内容,判断其中是否包含有时效性站点信息;0139验证模块,适于根据所述时效性站点信息,验证对应的站点是否为重启用的站点;0140收录模块,适于如果验证模块的验证结果为是,则将所述时效性站点信息对应的站点作为重启用的站点进行重新收录。0141B10、根据B9所述的系统,其中,所述提取模块还适于0142根据网页发布时间和/或前链网页信息提。
47、取一个或多个时效性网页。0143B11、根据B9或B10所述的系统,其中,所述判断模块还适于0144解析所述时效性网页的页面内容部分和/或超链部分;0145判断所述页面内容部分和/或超链部分是否包含有时效性站点信息。0146B12、根据B9至B11任一项所述的系统,其中,所述判断模块还适于0147所述时效性网页的网页为多个时,0148根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;说明书CN104182485A1311/11页140149选择质量超过指定阈值的多个网页;0150在选择的多个网页中判断其中是否包含有时效性站点信息。0151B13、根据B9。
48、至B12任一项所述的系统,其中,所述时效性内容包括下列至少之一0152标题;0153正文;0154相关链接。0155B14、根据B9至B13任一项所述的系统,其中,所述验证模块还适于0156查找收录站点数据库,判断所述时效性站点信息对应的站点是否之前已标记为无效或失效的站点;0157若是,则验证所述时效性站点信息对应的站点为重启用的站点。0158B15、根据B9至B14任一项所述的系统,其中,所述验证模块还适于0159解析所述时效性站点信息,查找互联网协议IP信息;0160若所述时效性站点信息具备IP,且搜索引擎中记录该IP对应的站点之前已成为无效或失效的站点,则验证该站点为重启用的站点。0161B16、根据B9至B15任一项所述的系统,其中,所述收录模块还适于0162将所述时效性站点信息对应的站点作为重启用的站点;0163验证所述重启用的站点是否为有效站点;0164若是,则对所述重启用的站点进行重新收录。说明书CN104182485A141/5页15图1说明书附图CN104182485A152/5页16图2说明书附图CN104182485A163/5页17图3说明书附图CN104182485A174/5页18图4说明书附图CN104182485A185/5页19图5说明书附图CN104182485A19。