网页更新处理方法及装置.pdf

摘要
申请专利号：	CN201410459114.2	申请日：	2014.09.10
公开号：	CN104182548A	公开日：	2014.12.03
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20140910\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京国双科技有限公司
发明人：	李新国; 冯鸳鹤
地址：	100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间
优先权：
专利代理机构：	北京康信知识产权代理有限责任公司 11240	代理人：	李志刚;吴贵明
PDF下载：	PDF下载

内容摘要

本发明公开了一种网页更新处理方法及装置，该网页更新处理方法包括：获取待检测网页的网页地址；获取网页地址中用于标识网页更新时间的标识字段；获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间；判断标识字段对应的时间是否晚于预设基准字段对应的时间；以及如果标识字段对应的时间早于预设基准字段对应的时间，则确定待检测网页不是新增页面，如果标识字段对应的时间不早于预设基准字段对应的时间，则确定待检测网页为新增页面。本发明解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题，进而达到了提高网页更新量统计的正确性的效果。

权利要求书

1.  一种网页更新处理方法，其特征在于，包括：
获取待检测网页的网页地址；
获取所述网页地址中用于标识网页更新时间的标识字段；
获取预设基准字段，所述预设基准字段用于表示网页更新统计的开始时间；
判断所述标识字段对应的时间是否晚于所述预设基准字段对应的时间；以及
如果所述标识字段对应的时间早于所述预设基准字段对应的时间，则确定所述待检测网页不是新增页面，如果所述标识字段对应的时间不早于所述预设基准字段对应的时间，则确定所述待检测网页为新增页面。

2.  根据权利要求1所述的网页更新处理方法，其特征在于，获取待检测网页的网页地址包括：
从网站访问日志中获取所述待检测网页访问日志；
查找所述访问日志中标识网页地址的标识符；以及
基于所述标识符获取所述网页地址。

3.  根据权利要求2所述的网页更新处理方法，其特征在于，在确定所述待检测网页为新增页面之后，所述方法还包括：
记录所述标识字段；
判断是否获取完毕所述网站访问日志中的每一条网页访问日志；
如果判断出获取完毕所述网站访问日志中的每一条网页访问日志，则比较记录的所有所述标识字段对应的时间；以及
根据对应最晚时间的所述标识字段更新所述预设基准字段。

4.  根据权利要求1所述的网页更新处理方法，其特征在于，所述获取所述网页地址中用于标识网页更新时间的标识字段包括：
获取预设正则表达式；以及
根据所述预设正则表达式对所述网页地址进行正则匹配，得到所述标识字段。

5.  根据权利要求4所述的网页更新处理方法，其特征在于，所述获取预设正则表达式包括：
确定所述网页地址的匹配类型，所述匹配类型包括日期型、数字序列型和全局唯一标识符型；
如果所述网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为所述预设正则表达式；
如果所述网页地址的匹配类型为数字序列型，则选择用于匹配数字序列的正则表达式作为所述预设正则表达式；以及
如果所述网页地址的匹配类型为全局唯一标识符型，则选择用于匹配全局唯一标识符的正则表达式作为所述预设正则表达式。

6.  一种网页更新处理装置，其特征在于，包括：
第一获取模块，用于获取待检测网页的网页地址；
第二获取模块，用于获取所述网页地址中用于标识网页更新时间的标识字段；
第三获取模块，用于获取预设基准字段，所述预设基准字段用于表示网页更新统计的开始时间；
第一判断模块，用于判断所述标识字段对应的时间是否不早于所述预设基准字段对应的时间；以及
确定模块，用于当所述标识字段对应的时间早于所述预设基准字段对应的时间时，则确定所述待检测网页不是新增页面，当所述标识字段对应的时间不早于所述预设基准字段对应的时间时，则确定所述待检测网页为新增页面。

7.  根据权利要求6所述的网页更新处理装置，其特征在于，所述第一获取模块包括：
第一获取单元，用于从网站访问日志中获取所述待检测网页的访问日志；
查找单元，用于查找所述访问日志中标识网页地址的标识符；以及
第二获取单元，用于基于所述标识符获取所述网页地址。

8.  根据权利要求7所述的网页更新处理装置，其特征在于，在确定所述待检测网页为新增页面之后，所述装置还包括：
记录模块，用于记录所述标识字段；
第二判断模块，用于判断是否获取完毕所述网站访问日志中的每一条网页访问日志；
比较模块，用于当判断出获取完毕所述网站访问日志中的每一条网页访问日志时，比较记录的所有所述标识字段对应的时间；以及
更新模块，用于根据对应最晚时间的所述标识字段更新所述预设基准字段。

9.  根据权利要求6所述的网页更新处理装置，其特征在于，所述第二获取模块包括：
第三获取单元，用于获取预设正则表达式；以及
匹配单元，用于根据所述预设正则表达式对所述网页地址进行正则匹配，得到所述标识字段。

10.  根据权利要求9所述的网页更新处理装置，其特征在于，所述第三获取单元包括：
第一确定单元，用于确定所述网页地址的匹配类型，所述匹配类型包括日期型、数字序列型和全局唯一标识符型；以及
选择单元，用于当所述网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为所述预设正则表达式，当所述网页地址的匹配类型为数字序列型时，则选择用于匹配数字序列的正则表达式作为所述预设正则表达式，当所述网页地址的匹配类型为全局唯一标识符型时，则选择用于匹配全局唯一标识符的正则表达式作为所述预设正则表达式。

说明书

网页更新处理方法及装置
技术领域
本发明涉及互联网领域，具体而言，涉及一种网页更新处理方法及装置。
背景技术
网页更新量指的是在一定时间内网站新发布的页面数量，是评价网站绩效的一项重要指标。在通过网站访问日志分析网页更新量时，可能会遇到在网站开始监测之前就发布的网页，由于该网页在该监测期间被用户访问，错误的将该网页认定为新增的网页；或者是在该监测期间新发布的网页，由于在该监测期间该新增的网页从未被访问过，造成该新增网页的漏统计，以上两种情况都影响网页更新量分析的准确性。目前解决上述问题的方案有两种，第一种方案是在网站开始监测之后，人工将站内所有网页都浏览一遍，但该方案耗时耗力，且容易遗漏，仅适用于网页很少的情况；第二种方案是在网站监测之后，通过程序实现自动遍历整个网页，达到清除历史数据对于网页更新量的影响的目的，但是该方案必须由专业的技术人员才能实现，且工作量较大，同时不同网站之间的通用性不强。
针对相关技术中将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题，目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页更新处理方法及装置，以解决将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
为了实现上述目的，根据本发明的一个方面，提供了一种网页更新处理方法。
根据本发明的网页更新处理方法包括：获取待检测网页的网页地址；获取网页地址中用于标识网页更新时间的标识字段；获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间；判断标识字段对应的时间是否晚于预设基准字段对应的时间；以及如果标识字段对应的时间早于预设基准字段对应的时间，则确定待检测网页不是新增页面，如果标识字段对应的时间不早于预设基准字段对应的时间，则确定待检测网页为新增页面。
进一步地，获取待检测网页的网页地址包括：从网站访问日志中获取待检测网页访问日志；查找访问日志中标识网页地址的标识符；以及基于标识符获取网页地址。
进一步地，获取网页地址中用于标识网页更新时间的标识字段包括：获取预设正则表达式；以及根据预设正则表达式对网页地址进行正则匹配，得到标识字段。
进一步地，获取预设正则表达式包括：确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；如果网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为预设正则表达式；如果网页地址的匹配类型为数字序列型，则选择用于匹配数字序列的正则表达式作为预设正则表达式；以及如果网页地址的匹配类型为全局唯一标识符型，则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
进一步地，在确定待检测网页为新增页面之后，该方法还包括：记录标识字段；判断是否获取完毕网站访问日志中的每一条网页访问日志；如果判断出获取完毕网站访问日志中的每一条网页访问日志，则比较记录的所有标识字段对应的时间；以及根据对应最晚时间的标识字段更新预设基准字段。
为了实现上述目的，根据本发明的另一方面，提供了一种网页更新处理装置。
根据本发明的网页更新处理装置包括：第一获取模块，用于获取待检测网页的网页地址；第二获取模块，用于获取网页地址中用于标识网页更新时间的标识字段；第三获取模块，用于获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间；第一判断模块，用于判断标识字段对应的时间是否不早于预设基准字段对应的时间；以及确定模块，用于当标识字段对应的时间早于预设基准字段对应的时间时，则确定待检测网页不是新增页面，当标识字段对应的时间不早于预设基准字段对应的时间时，则确定待检测网页为新增页面。
进一步地，第一获取模块包括：第一获取单元，用于从网站访问日志中获取待检测网页的访问日志；查找单元，用于查找访问日志中标识网页地址的标识符；以及第二获取单元，用于基于标识符获取网页地址。
进一步地，第二获取模块包括：第三获取单元，用于获取预设正则表达式；以及匹配单元，用于根据预设正则表达式对网页地址进行正则匹配，得到标识字段。
进一步地，第三获取单元包括：第一确定单元，用于确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；以及选择单元，用于当网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为预设正则表达式，当网页地址的匹配类型为数字序列型时，则选择用于匹配数字序列的正则表达式作为预设正则表达式，当网页地址的匹配类型为全局唯一标识符型时，则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
进一步地，在确定待检测网页为新增页面之后，该装置还包括：记录模块，用于记录标识字段；第二判断模块，用于判断是否获取完毕网站访问日志中的每一条网页访问日志；比较模块，用于当判断出获取完毕网站访问日志中的每一条网页访问日志时，比较记录的所有标识字段对应的时间；以及更新模块，用于根据对应最晚时间的标识字段更新预设基准字段。
通过本发明，采用将待检测网页的标识字段对应的时间与预设基准字段对应的时间进行比较来确定待检测页面是否是新增页面，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题，进而达到了提高网页更新量统计的正确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
图1是根据本发明实施例的网页更新处理方法的流程图；
图2是根据本发明第一实施例的网页更新处理装置的示意图；
图3是根据本发明第二实施例的网页更新处理装置的示意图；以及
图4是根据本发明第三实施例的网页更新处理装置的示意图。
具体实施方式
需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
根据本发明实施，提供了一种网页更新处理方法，图1是根据本发明实施例的网页更新处理方法的流程图。
如图1所示，该方法包括如下的步骤S102至步骤S110：
步骤S102：获取待检测网页的网页地址。
步骤S104：获取网页地址中用于标识网页更新时间的标识字段。
现在网站的网页地址中都会包含一些标识字段，例如日期、数字序列、全局唯一标识符GUID等，通过比较这些标识字段可以知道网页发布的先后顺序。比如一个URL为http://www.gov.cn/guowuyuan/2014-07/31/content_2727857.htm的网页，中间字段2014-07/31即为该网页的发布日期。对于包含数字序列的URL，由于该数字序列的值根据时间递增，所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理，对于包含GUID的URL，由于该GUID也是根据时间递增的一个十六进制数数字序列，通过比较两个GUID也可以得到其对应的网页发布的其先后顺序。
步骤S106：获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间。
要判断待检测的网页是否是新发布的网页，需要设定一个基准时间，用于与待检测的网站的发布时间进行比较。例如，对于URL包含日期字段的网页，设定一个日期字段基准值，对于URL包含数字序列的网页，设定一个数字序列字段基准值，对于URL包含GUID字段的网页，则设定一个GUID字段基准值。
步骤S108：判断标识字段对应的时间是否晚于预设基准字段对应的时间。
该标识字段对应的时间即待检测网页的发布时间，该预设基准字段对应的时间即网页更新统计的开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。
步骤S110：如果标识字段对应的时间早于预设基准字段对应的时间，则确定待检测网页不是新增网页，如果标识字段对应的时间不早于预设基准字段对应的时间，则确定待检测网页为新增网页。
本发明实施例通过获取待检测网页地址中用于标识网页更新时间的标识字段，将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序，当待检测网页发布时间不早于网页更新统计的开始时间时，则检测网页是新增网页，当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间，该待检测网页才是新增网页，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
优选地，为了方便快捷的获取待检测网页的地址，获取待检测网页的网页地址包括：从网站访问日志中获取待检测网页的访问日志；查找访问日志中标识网页地址的标识符；以及基于标识符获取网页地址。
网站访问日志是通过JS代码收集的用户访问网站的数据，JS代码即Java Script语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志，从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。由于一条网页访问日志包含许多的用户访问信息，而在进行网页更新量统计时只需要检测网页地址信息，通过在网页访问日志中设置一个标识符来确定网页地址在网页访问日志中的位置，因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。
由于网站访问日志记录了被用户访问的所有网页访问日志，为了提高网页更新量统计的效率，通常只获取网页更新量统计时间段内的网站访问日志，再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。
优选地，为了快速准确的获取网页地址中用于标识网页更新时间的标识字段包括：获取预设正则表达式；以及根据预设正则表达式对网页地址进行正则匹配，得到标识字段。
正则表达式，又称正规表示法、常规表示法，英语为Regular Expression，在代码中常简写为regex、regexp或RE，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，就是用预先定义好的特定字符、及这些特定字符的组合，组成一个规则字符串，该规则字符串用来表达对字符串的一种过滤逻辑。例如，给定一个正则表达式和一个字符串，一是判断给定的字符串是否符合正则表达式的过滤逻辑，二是可以通过正则表达式，从给定的字符串中获取我们想要的特定部分。例如，一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(？！\d)“，待匹配的字符串为“Chinabeijing100081haidian”，则通过该正则表达式可以匹配出待检测字符串中表示邮政编码的字段“100081”。
网站管理员根据网站地址包含的标识字段编写相应的正则表达式，例如，网页地址中包含日期字段的，则编写能够匹配出网页地址中日期字段的正则表达式，对于网页地址中包含数字序列字段的，则编写能够匹配出网页地址中数字序列字段的正则表达式，对于网页地址中包含GUID字段的，则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式，利用该预设正则表达式可以快速准确的匹配出待检测网页地址中的标识字段。
优选地，获取预设正则表达式包括：确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；如果网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为预设正则表达式；如果网页地址的匹配类型为数字序列型，则选择用于匹配数字序列的正则表达式作为预设正则表达式；以及如果网页地址的匹配类型为全局唯一标识符型，则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址，通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式，能够提高对包含不同类型的标识字段的网页地址进行匹配的适应性。
优选地，为了在确定待检测网页为新增网页之后，方法还包括：记录标识字段；判断是否获取完毕网站访问日志中的每一条网页访问日志；如果判断出获取完毕网站访问日志中的每一条网页访问日志，则比较记录的所有标识字段对应的时间；以及根据对应最晚时间的标识字段更新预设基准字段。
本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后，就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段，将该标识字段作为下一次网页更新量统计的预设基准字段。通常，网站都是按天来统计网页更新量，即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段，从而在统计下一天的网页更新量时，不需要再预先设置基准字段。此外，通过每次网页更新量统计之后自动更新预设基准字段，可以避免人为设置的预设基准字段不准确的问题，从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话，则需要重新设置预设基准字段，例如，第一次网页更新量统计是统计8月5日新发布的网页数量，而第二次网页更新量统计却是统计8月8日新发布的网页数量，因此在进行第二次网页更新量统计前需要重新设置预设基准字段，但如果第二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。
从以上的描述中，可以看出，本发明实现了如下技术效果：
本发明实施例通过正则表达式方便快速的获取待检测网页地址中用于标识网页更新时间的标识字段，将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序，当待检测网页发布时间不早于网页更新统计的开始时间时，则检测网页是新增网页，当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间，该待检测网页才是新增网页，从而可以避免将那些发布时间早于网页更新统计的开始时间的网页作为新增的网页，提高了网页更新量统计结果的准确性。
需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例，提供了一种网页更新处理装置，图2是根据本发明第一实施例的网页更新处理装置的示意图。
如图2所示，该网页更新处理装置包括：第一获取模块10，第二获取模块20，第三获取模块30，第一判断模块40和确定模块50。
第一获取模块10，用于获取待检测网页的网页地址。
第二获取模块20，用于获取网页地址中用于标识网页更新时间的标识字段。
现在网站的网页地址中都会包含一些标识字段，例如日期、数字序列、全局唯一标识符GUID等，通过比较这些标识字段可以知道网页发布的先后顺序。比如一个URL为http://www.gov.cn/guowuyuan/2014-07/31/content_2727857.htm的网页，中间字段 2014-07/31即为该网页的发布日期。对于包含数字序列的URL，由于该数字序列的值根据时间递增，所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理，对于包含GUID的URL，由于该GUID也是根据时间递增的一个十六进制数数字序列，通过比较两个GUID也可以得到其对应的网页发布的其先后顺序。
第三获取模块30，用于获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间；
要判断待检测的网页是否是新发布的网页，需要设定一个基准时间，用于与待检测的网站的发布时间进行比较。例如，对于URL包含日期字段的网页，设定一个日期字段基准值，对于URL包含数字序列的网页，设定一个数字序列字段基准值，对于URL包含GUID字段的网页，则设定一个GUID字段基准值。
第一判断模块40，用于判断标识字段对应的时间是否不早于预设基准字段对应的时间。
标识字段对应的时间即待检测网页的发布时间，预设基准字段对应的时间即网页更新统计的开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。
确定模块50，用于当标识字段对应的时间早于预设基准字段对应的时间时，则确定待检测网页不是新增页面，当标识字段对应的时间不早于预设基准字段对应的时间时，则确定待检测网页为新增页面。
本发明第一实施例通过第一获取模块10获取待检测网页的网页地址，通过第二获取模块20获取上述网页地址中用于标识网页更新时间的标识字段，通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间，从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页，只有待检测网页的发布时间不早于网页更新统计的开始时间时，待检测网页才是新增页面，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。
图3是根据本发明第二实施例的网页更新处理装置的示意图。如图3所示，该处理装置包括：第一获取模块10，第二获取模块20，第三获取模块30，第一判断模块40和确定模块50，其中第一获取模块10包括第一获取单元101，查找单元102和第二获取单元103。
第一获取单元101，用于从网站访问日志中获取待检测网页的访问日志。
网站访问日志是通过JS代码收集的用户访问网站的数据，JS代码即Java Script语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志，从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。
查找单元102，用于查找访问日志中标识网页地址的标识符。
由于一条网页访问日志包含许多的用户访问信息，而在进行网页更新量统计时只需要检测网页地址信息，通过在网页访问日志中设置一个标识符来确定网页地址在网页访问日志中的位置，因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。
第二获取单元103，用于基于标识符获取网页地址。
第二获取模块20、第三获取模块30、第一判断模块40和确定模块50同上所述，在此不再赘述。
由于网站访问日志记录了被用户访问的所有网页访问日志，为了提高网页更新量统计的效率，通常只获取网页更新量统计时间段内的网站访问日志，再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。
图4是根据本发明第三实施例的网页更新处理装置的示意图。如图4所示，该处理装置包括：第一获取模块10，第二获取模块20，第三获取模块30，第一判断模块40和确定模块50，其中，第二获取模块20包括第三获取单元201和匹配单元202。
第三获取单元201，用于获取预设正则表达式。
正则表达式，又称正规表示法、常规表示法，英语为Regular Expression，在代码中常简写为regex、regexp或RE，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，就是用预先定义好的特定字符、及这些特定字符的组合，组成一个规则字符串，该规则字符串用来表达对字符串的一种过滤逻辑。例如，给定一个正则表达式和一个字符串，一是判断给定的字符串是否符合正则表达式的过滤逻辑，二是可以通过正则表达式，从给定的字符串中获取我们想要的特定部分。例如，一个用于匹配中国邮政编码的正则表达式为“[1-9]\\d{5}(？！\d)“，待匹配的字符串为“Chinabeijing100081haidian”，则通过该正则表达式可以匹配出待检测字符串中表示邮政编码的字段“100081”。
网站管理员根据网站地址包含的标识字段编写相应的正则表达式，例如，网页地址中包含日期字段的，则编写能够匹配出网页地址中日期字段的正则表达式，对于网页地址中包含数字序列字段的，则编写能够匹配出网页地址中数字序列字段的正则表达式，对于网页地址中包含GUID字段的，则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式，利用该预设正则表达式可以快速准确的匹配出待检测网页地址中的标识字段。
匹配单元202，用于根据预设正则表达式对网页地址进行正则匹配，得到标识字段。
第一获取模块10、第三获取模块30、第一判断模块40和确定模块50同上所述，在此不再赘述。
优选地，第三获取单元201包括：第一确定单元，用于确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；以及选择单元，用于当网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为预设正则表达式，当网页地址的匹配类型为数字序列型时，则选择用于匹配数字序列的正则表达式作为预设正则表达式，当网页地址的匹配类型为全局唯一标识符型时，则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。
由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址，通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式，能够提高对包含不同类型的标识字段的网页地址进行匹配的适应性。
优选地，在确定网页为新增页面之后，该页面更新处理装置还包括：记录模块，用于记录标识字段；第二判断模块，用于判断网站访问日志是否获取完毕；比较模块，用于当网站访问日志获取完毕时，比较记录的所有标识字段对应的时间；以及更新模块，用于根据对应最晚时间的标识字段更新预设基准字段。
本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后，就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段，将该标识字段作为下一次网页更新量统计的预设基准字段。通常，网站都是按天来统计网页更新量，即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段，从而在统计下一天的网页更新量时，不需要再预先设置基准字段。此外，通过每次网页更新量统计之后自动更新预设基准字段，可以避免人为设置的预设基准字段不准确的问题，从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话，则需要重新设置预设基准字段，例如，第一次网页更新量统计是统计8月5日新发布的网页数量，而第二次网页更新量统计却是统计8月8日新发布的网页数量，因此在进行第二次网页更新量统计前需要重新设置预设基准字段，但如果第二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。
综上，本发明实施例通过第一获取模块10获取待检测网页的网页地址，通过第二获取模块20获取上述网页地址中用于标识网页更新时间的标识字段，通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间，从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页，只有待检测网页的发布时间不早于网页更新统计的开始时间时，待检测网页才是新增页面，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。此外，第二获取模块20还包括第三获取单元201和匹配单元202，通过第三获取单元201获取预设正则表达式，通过匹配单元202根据预设正则表达式对网页地址进行正则匹配，实现快速获取标识字段。
显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《网页更新处理方法及装置.pdf》由会员分享，可在线阅读，更多相关《网页更新处理方法及装置.pdf（14页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104182548A43申请公布日20141203CN104182548A21申请号201410459114222申请日20140910G06F17/3020060171申请人北京国双科技有限公司地址100086北京市海淀区双榆树小区知春路76号翠宫饭店8层A间72发明人李新国冯鸳鹤74专利代理机构北京康信知识产权代理有限责任公司11240代理人李志刚吴贵明54发明名称网页更新处理方法及装置57摘要本发明公开了一种网页更新处理方法及装置，该网页更新处理方法包括获取待检测网页的网页地址；获取网页地址中用于标识网页更新时间的标识字段；获取预设基准字段，预设基准字段用于表示网页更新。

2、统计的开始时间；判断标识字段对应的时间是否晚于预设基准字段对应的时间；以及如果标识字段对应的时间早于预设基准字段对应的时间，则确定待检测网页不是新增页面，如果标识字段对应的时间不早于预设基准字段对应的时间，则确定待检测网页为新增页面。本发明解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题，进而达到了提高网页更新量统计的正确性的效果。51INTCL权利要求书2页说明书8页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书8页附图3页10申请公布号CN104182548ACN104182548A1/2页21一种网页更新处理。

3、方法，其特征在于，包括获取待检测网页的网页地址；获取所述网页地址中用于标识网页更新时间的标识字段；获取预设基准字段，所述预设基准字段用于表示网页更新统计的开始时间；判断所述标识字段对应的时间是否晚于所述预设基准字段对应的时间；以及如果所述标识字段对应的时间早于所述预设基准字段对应的时间，则确定所述待检测网页不是新增页面，如果所述标识字段对应的时间不早于所述预设基准字段对应的时间，则确定所述待检测网页为新增页面。2根据权利要求1所述的网页更新处理方法，其特征在于，获取待检测网页的网页地址包括从网站访问日志中获取所述待检测网页访问日志；查找所述访问日志中标识网页地址的标识符；以及基于所述标识符获取。

4、所述网页地址。3根据权利要求2所述的网页更新处理方法，其特征在于，在确定所述待检测网页为新增页面之后，所述方法还包括记录所述标识字段；判断是否获取完毕所述网站访问日志中的每一条网页访问日志；如果判断出获取完毕所述网站访问日志中的每一条网页访问日志，则比较记录的所有所述标识字段对应的时间；以及根据对应最晚时间的所述标识字段更新所述预设基准字段。4根据权利要求1所述的网页更新处理方法，其特征在于，所述获取所述网页地址中用于标识网页更新时间的标识字段包括获取预设正则表达式；以及根据所述预设正则表达式对所述网页地址进行正则匹配，得到所述标识字段。5根据权利要求4所述的网页更新处理方法，其特征在于，所述。

5、获取预设正则表达式包括确定所述网页地址的匹配类型，所述匹配类型包括日期型、数字序列型和全局唯一标识符型；如果所述网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为所述预设正则表达式；如果所述网页地址的匹配类型为数字序列型，则选择用于匹配数字序列的正则表达式作为所述预设正则表达式；以及如果所述网页地址的匹配类型为全局唯一标识符型，则选择用于匹配全局唯一标识符的正则表达式作为所述预设正则表达式。6一种网页更新处理装置，其特征在于，包括第一获取模块，用于获取待检测网页的网页地址；第二获取模块，用于获取所述网页地址中用于标识网页更新时间的标识字段；第三获取模块，用于获取预设基准字段，所述预。

6、设基准字段用于表示网页更新统计的开始时间；权利要求书CN104182548A2/2页3第一判断模块，用于判断所述标识字段对应的时间是否不早于所述预设基准字段对应的时间；以及确定模块，用于当所述标识字段对应的时间早于所述预设基准字段对应的时间时，则确定所述待检测网页不是新增页面，当所述标识字段对应的时间不早于所述预设基准字段对应的时间时，则确定所述待检测网页为新增页面。7根据权利要求6所述的网页更新处理装置，其特征在于，所述第一获取模块包括第一获取单元，用于从网站访问日志中获取所述待检测网页的访问日志；查找单元，用于查找所述访问日志中标识网页地址的标识符；以及第二获取单元，用于基于所述标识符获取。

7、所述网页地址。8根据权利要求7所述的网页更新处理装置，其特征在于，在确定所述待检测网页为新增页面之后，所述装置还包括记录模块，用于记录所述标识字段；第二判断模块，用于判断是否获取完毕所述网站访问日志中的每一条网页访问日志；比较模块，用于当判断出获取完毕所述网站访问日志中的每一条网页访问日志时，比较记录的所有所述标识字段对应的时间；以及更新模块，用于根据对应最晚时间的所述标识字段更新所述预设基准字段。9根据权利要求6所述的网页更新处理装置，其特征在于，所述第二获取模块包括第三获取单元，用于获取预设正则表达式；以及匹配单元，用于根据所述预设正则表达式对所述网页地址进行正则匹配，得到所述标识字段。1。

8、0根据权利要求9所述的网页更新处理装置，其特征在于，所述第三获取单元包括第一确定单元，用于确定所述网页地址的匹配类型，所述匹配类型包括日期型、数字序列型和全局唯一标识符型；以及选择单元，用于当所述网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为所述预设正则表达式，当所述网页地址的匹配类型为数字序列型时，则选择用于匹配数字序列的正则表达式作为所述预设正则表达式，当所述网页地址的匹配类型为全局唯一标识符型时，则选择用于匹配全局唯一标识符的正则表达式作为所述预设正则表达式。权利要求书CN104182548A1/8页4网页更新处理方法及装置技术领域0001本发明涉及互联网领域，具体而言，。

9、涉及一种网页更新处理方法及装置。背景技术0002网页更新量指的是在一定时间内网站新发布的页面数量，是评价网站绩效的一项重要指标。在通过网站访问日志分析网页更新量时，可能会遇到在网站开始监测之前就发布的网页，由于该网页在该监测期间被用户访问，错误的将该网页认定为新增的网页；或者是在该监测期间新发布的网页，由于在该监测期间该新增的网页从未被访问过，造成该新增网页的漏统计，以上两种情况都影响网页更新量分析的准确性。目前解决上述问题的方案有两种，第一种方案是在网站开始监测之后，人工将站内所有网页都浏览一遍，但该方案耗时耗力，且容易遗漏，仅适用于网页很少的情况；第二种方案是在网站监测之后，通过程序实现自。

10、动遍历整个网页，达到清除历史数据对于网页更新量的影响的目的，但是该方案必须由专业的技术人员才能实现，且工作量较大，同时不同网站之间的通用性不强。0003针对相关技术中将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题，目前尚未提出有效的解决方案。发明内容0004本发明的主要目的在于提供一种网页更新处理方法及装置，以解决将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。0005为了实现上述目的，根据本发明的一个方面，提供了一种网页更新处理方法。0006根据本发明的网页更新处理方法包括获取待检测网页的网页地址；获。

11、取网页地址中用于标识网页更新时间的标识字段；获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间；判断标识字段对应的时间是否晚于预设基准字段对应的时间；以及如果标识字段对应的时间早于预设基准字段对应的时间，则确定待检测网页不是新增页面，如果标识字段对应的时间不早于预设基准字段对应的时间，则确定待检测网页为新增页面。0007进一步地，获取待检测网页的网页地址包括从网站访问日志中获取待检测网页访问日志；查找访问日志中标识网页地址的标识符；以及基于标识符获取网页地址。0008进一步地，获取网页地址中用于标识网页更新时间的标识字段包括获取预设正则表达式；以及根据预设正则表达式对网页地址进行正则。

12、匹配，得到标识字段。0009进一步地，获取预设正则表达式包括确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；如果网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为预设正则表达式；如果网页地址的匹配类型为数字序列型，则选择用于匹配数字序列的正则表达式作为预设正则表达式；以及如果网页地址的匹配类型为全局唯一标识符型，则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。说明书CN104182548A2/8页50010进一步地，在确定待检测网页为新增页面之后，该方法还包括记录标识字段；判断是否获取完毕网站访问日志中的每一条网页访问日志；如果判断出获取完毕网。

13、站访问日志中的每一条网页访问日志，则比较记录的所有标识字段对应的时间；以及根据对应最晚时间的标识字段更新预设基准字段。0011为了实现上述目的，根据本发明的另一方面，提供了一种网页更新处理装置。0012根据本发明的网页更新处理装置包括第一获取模块，用于获取待检测网页的网页地址；第二获取模块，用于获取网页地址中用于标识网页更新时间的标识字段；第三获取模块，用于获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间；第一判断模块，用于判断标识字段对应的时间是否不早于预设基准字段对应的时间；以及确定模块，用于当标识字段对应的时间早于预设基准字段对应的时间时，则确定待检测网页不是新增页面，当标识。

14、字段对应的时间不早于预设基准字段对应的时间时，则确定待检测网页为新增页面。0013进一步地，第一获取模块包括第一获取单元，用于从网站访问日志中获取待检测网页的访问日志；查找单元，用于查找访问日志中标识网页地址的标识符；以及第二获取单元，用于基于标识符获取网页地址。0014进一步地，第二获取模块包括第三获取单元，用于获取预设正则表达式；以及匹配单元，用于根据预设正则表达式对网页地址进行正则匹配，得到标识字段。0015进一步地，第三获取单元包括第一确定单元，用于确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；以及选择单元，用于当网页地址的匹配类型为日期型，则选择用于匹配日。

15、期的正则表达式作为预设正则表达式，当网页地址的匹配类型为数字序列型时，则选择用于匹配数字序列的正则表达式作为预设正则表达式，当网页地址的匹配类型为全局唯一标识符型时，则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。0016进一步地，在确定待检测网页为新增页面之后，该装置还包括记录模块，用于记录标识字段；第二判断模块，用于判断是否获取完毕网站访问日志中的每一条网页访问日志；比较模块，用于当判断出获取完毕网站访问日志中的每一条网页访问日志时，比较记录的所有标识字段对应的时间；以及更新模块，用于根据对应最晚时间的标识字段更新预设基准字段。0017通过本发明，采用将待检测网页的标识字段对应。

16、的时间与预设基准字段对应的时间进行比较来确定待检测页面是否是新增页面，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题，进而达到了提高网页更新量统计的正确性的效果。附图说明0018构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中0019图1是根据本发明实施例的网页更新处理方法的流程图；0020图2是根据本发明第一实施例的网页更新处理装置的示意图；0021图3是根据本发明第二实施例的网页更新处理装置的示意图；以及说明书CN104182548A3/8页60022图。

17、4是根据本发明第三实施例的网页更新处理装置的示意图。具体实施方式0023需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。0024根据本发明实施，提供了一种网页更新处理方法，图1是根据本发明实施例的网页更新处理方法的流程图。0025如图1所示，该方法包括如下的步骤S102至步骤S1100026步骤S102获取待检测网页的网页地址。0027步骤S104获取网页地址中用于标识网页更新时间的标识字段。0028现在网站的网页地址中都会包含一些标识字段，例如日期、数字序列、全局唯一标识符GUID等，通过比较这些标识字段可以知道网页发。

18、布的先后顺序。比如一个URL为HTTP/WWWGOVCN/GUOWUYUAN/201407/31/CONTENT_2727857HTM的网页，中间字段201407/31即为该网页的发布日期。对于包含数字序列的URL，由于该数字序列的值根据时间递增，所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理，对于包含GUID的URL，由于该GUID也是根据时间递增的一个十六进制数数字序列，通过比较两个GUID也可以得到其对应的网页发布的其先后顺序。0029步骤S106获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间。0030要判断待检测的网页是否是新发布的网页，需要设定一个。

19、基准时间，用于与待检测的网站的发布时间进行比较。例如，对于URL包含日期字段的网页，设定一个日期字段基准值，对于URL包含数字序列的网页，设定一个数字序列字段基准值，对于URL包含GUID字段的网页，则设定一个GUID字段基准值。0031步骤S108判断标识字段对应的时间是否晚于预设基准字段对应的时间。0032该标识字段对应的时间即待检测网页的发布时间，该预设基准字段对应的时间即网页更新统计的开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。0033步骤S110如果标识字段对应的时间早于预设基准字段对应的时间，则确定待检测网页不是新。

20、增网页，如果标识字段对应的时间不早于预设基准字段对应的时间，则确定待检测网页为新增网页。0034本发明实施例通过获取待检测网页地址中用于标识网页更新时间的标识字段，将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序，当待检测网页发布时间不早于网页更新统计的开始时间时，则检测网页是新增网页，当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间，该待检测网页才是新增网页，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。0035优选地，为了方。

21、便快捷的获取待检测网页的地址，获取待检测网页的网页地址包括从网站访问日志中获取待检测网页的访问日志；查找访问日志中标识网页地址的标识说明书CN104182548A4/8页7符；以及基于标识符获取网页地址。0036网站访问日志是通过JS代码收集的用户访问网站的数据，JS代码即JAVASCRIPT语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志，从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。由于一条网页访问日志包含许多的用户访问信息，而在进行网页更新量统计时只需要检测网页地址信息，通过在网页访问日志中设置一个标识符来确定网页。

22、地址在网页访问日志中的位置，因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。0037由于网站访问日志记录了被用户访问的所有网页访问日志，为了提高网页更新量统计的效率，通常只获取网页更新量统计时间段内的网站访问日志，再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。0038优选地，为了快速准确的获取网页地址中用于标识网页更新时间的标识字段包括获取预设正则表达式；以及根据预设正则表达式对网页地址进行正则匹配，得到标识字段。0039正则表达式，又称正规表示法、常规表示法，英语为REG。

23、ULAREXPRESSION，在代码中常简写为REGEX、REGEXP或RE，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，就是用预先定义好的特定字符、及这些特定字符的组合，组成一个规则字符串，该规则字符串用来表达对字符串的一种过滤逻辑。例如，给定一个正则表达式和一个字符串，一是判断给定的字符串是否符合正则表达式的过滤逻辑，二是可以通过正则表达式，从给定的字符串中获取我们想要的特定部分。例如，一个用于匹配中国邮政编码的正则表达式为“19D5D“，待匹配的字符串为“CHINABEIJING100081HAIDIAN”，则通过该正则表达式可以匹配出待检。

24、测字符串中表示邮政编码的字段“100081”。0040网站管理员根据网站地址包含的标识字段编写相应的正则表达式，例如，网页地址中包含日期字段的，则编写能够匹配出网页地址中日期字段的正则表达式，对于网页地址中包含数字序列字段的，则编写能够匹配出网页地址中数字序列字段的正则表达式，对于网页地址中包含GUID字段的，则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式，利用该预设正则表达式可以快速准确的匹配出待检测网页地址中的标识字段。0041优选地，获取预设正则表达式包括确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；如果网页地址的匹配类型为日期型，。

25、则选择用于匹配日期的正则表达式作为预设正则表达式；如果网页地址的匹配类型为数字序列型，则选择用于匹配数字序列的正则表达式作为预设正则表达式；以及如果网页地址的匹配类型为全局唯一标识符型，则选择用于匹配全局唯一标识符的正则表达式作为预设正则表达式。0042由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址，通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式，能够提高对包含不说明书CN104182548A5/8页8同类。

26、型的标识字段的网页地址进行匹配的适应性。0043优选地，为了在确定待检测网页为新增网页之后，方法还包括记录标识字段；判断是否获取完毕网站访问日志中的每一条网页访问日志；如果判断出获取完毕网站访问日志中的每一条网页访问日志，则比较记录的所有标识字段对应的时间；以及根据对应最晚时间的标识字段更新预设基准字段。0044本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后，就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段，将该标识字段作为下一次网页更新量统计的。

27、预设基准字段。通常，网站都是按天来统计网页更新量，即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段，从而在统计下一天的网页更新量时，不需要再预先设置基准字段。此外，通过每次网页更新量统计之后自动更新预设基准字段，可以避免人为设置的预设基准字段不准确的问题，从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话，则需要重新设置预设基准字段，例如，第一次网页更新量统计是统计8月5日新发布的网页数量，而第二次网页更新量统计却是统计8月8日新发布的网页数量，因此在进行第二次网页更新量统计前需要重新设置预设基准字段，但如果第。

28、二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。0045从以上的描述中，可以看出，本发明实现了如下技术效果0046本发明实施例通过正则表达式方便快速的获取待检测网页地址中用于标识网页更新时间的标识字段，将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序，当待检测网页发布时间不早于网页更新统计的开始时间时，则检测网页是新增网页，当待检测网页发布时间早于网页更新统计的开始时间时则检测网页不是新增网页。由于只有待检测网页发布时间不早于网页更新统计的开始时间，该待检测网页才是新增网页，从而可以避免将那些发布时间早于网页更新统计的开始时间的网。

29、页作为新增的网页，提高了网页更新量统计结果的准确性。0047需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。0048根据本发明实施例，提供了一种网页更新处理装置，图2是根据本发明第一实施例的网页更新处理装置的示意图。0049如图2所示，该网页更新处理装置包括第一获取模块10，第二获取模块20，第三获取模块30，第一判断模块40和确定模块50。0050第一获取模块10，用于获取待检测网页的网页地址。0051第二获取模块20，用于获取网页地址中用于标识网页更新。

30、时间的标识字段。0052现在网站的网页地址中都会包含一些标识字段，例如日期、数字序列、全局唯一标识符GUID等，通过比较这些标识字段可以知道网页发布的先后顺序。比如一个URL为HTTP/WWWGOVCN/GUOWUYUAN/201407/31/CONTENT_2727857HTM的网页，中间字段201407/31即为该网页的发布日期。对于包含数字序列的URL，由于该数字序列的值根据说明书CN104182548A6/8页9时间递增，所以通过比较两个数字序列值可以得到其对应的网页发布的其先后顺序。同理，对于包含GUID的URL，由于该GUID也是根据时间递增的一个十六进制数数字序列，通过比较两个G。

31、UID也可以得到其对应的网页发布的其先后顺序。0053第三获取模块30，用于获取预设基准字段，预设基准字段用于表示网页更新统计的开始时间；0054要判断待检测的网页是否是新发布的网页，需要设定一个基准时间，用于与待检测的网站的发布时间进行比较。例如，对于URL包含日期字段的网页，设定一个日期字段基准值，对于URL包含数字序列的网页，设定一个数字序列字段基准值，对于URL包含GUID字段的网页，则设定一个GUID字段基准值。0055第一判断模块40，用于判断标识字段对应的时间是否不早于预设基准字段对应的时间。0056标识字段对应的时间即待检测网页的发布时间，预设基准字段对应的时间即网页更新统计的。

32、开始时间。通过比较待检测网页的标识字段和预设基准字段可以判断待检测网页的发布时间是否早于网页更新统计的开始时间。0057确定模块50，用于当标识字段对应的时间早于预设基准字段对应的时间时，则确定待检测网页不是新增页面，当标识字段对应的时间不早于预设基准字段对应的时间时，则确定待检测网页为新增页面。0058本发明第一实施例通过第一获取模块10获取待检测网页的网页地址，通过第二获取模块20获取上述网页地址中用于标识网页更新时间的标识字段，通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间，从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段。

33、比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页，只有待检测网页的发布时间不早于网页更新统计的开始时间时，待检测网页才是新增页面，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。0059图3是根据本发明第二实施例的网页更新处理装置的示意图。如图3所示，该处理装置包括第一获取模块10，第二获取模块20，第三获取模块30，第一判断模块40和确定模块50，其中第一获取模块10包括第一获取单元101，查找单元102和第二获取单元103。0060第一获取单元101，用于从网站访问日志中获取待检测网页的访问日志。。

34、0061网站访问日志是通过JS代码收集的用户访问网站的数据，JS代码即JAVASCRIPT语言编写的脚本文件的代码。当用户访问网站某一网页时会生成一条该网页的访问日志，从该网页访问日志中可以清楚的知道用户的访问IP、访问时间、访问网页地址、采用的浏览器等信息。0062查找单元102，用于查找访问日志中标识网页地址的标识符。0063由于一条网页访问日志包含许多的用户访问信息，而在进行网页更新量统计时只需要检测网页地址信息，通过在网页访问日志中设置一个标识符来确定网页地址在网页访问日志中的位置，因此通过查找网页地址的标识符可以找到网页访问日志中的网页地址。0064第二获取单元103，用于基于标识符。

35、获取网页地址。0065第二获取模块20、第三获取模块30、第一判断模块40和确定模块50同上所述，在说明书CN104182548A7/8页10此不再赘述。0066由于网站访问日志记录了被用户访问的所有网页访问日志，为了提高网页更新量统计的效率，通常只获取网页更新量统计时间段内的网站访问日志，再依次对该网站访问日志中的每一条网页访问日志中包含的网页地址进行检测。通过网站访问日志可以方便快捷的获取到网页更新量统计时间段内被用户访问的所有网页地址。0067图4是根据本发明第三实施例的网页更新处理装置的示意图。如图4所示，该处理装置包括第一获取模块10，第二获取模块20，第三获取模块30，第一判断模块。

36、40和确定模块50，其中，第二获取模块20包括第三获取单元201和匹配单元202。0068第三获取单元201，用于获取预设正则表达式。0069正则表达式，又称正规表示法、常规表示法，英语为REGULAREXPRESSION，在代码中常简写为REGEX、REGEXP或RE，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，就是用预先定义好的特定字符、及这些特定字符的组合，组成一个规则字符串，该规则字符串用来表达对字符串的一种过滤逻辑。例如，给定一个正则表达式和一个字符串，一是判断给定的字符串是否符合正则表达式的过滤逻辑，二是可以通过正则表达式，从给定的字。

37、符串中获取我们想要的特定部分。例如，一个用于匹配中国邮政编码的正则表达式为“19D5D“，待匹配的字符串为“CHINABEIJING100081HAIDIAN”，则通过该正则表达式可以匹配出待检测字符串中表示邮政编码的字段“100081”。0070网站管理员根据网站地址包含的标识字段编写相应的正则表达式，例如，网页地址中包含日期字段的，则编写能够匹配出网页地址中日期字段的正则表达式，对于网页地址中包含数字序列字段的，则编写能够匹配出网页地址中数字序列字段的正则表达式，对于网页地址中包含GUID字段的，则编写能够匹配出网页地址中GUID字段的正则表达式。通过获取预设正则表达式，利用该预设正则表达。

38、式可以快速准确的匹配出待检测网页地址中的标识字段。0071匹配单元202，用于根据预设正则表达式对网页地址进行正则匹配，得到标识字段。0072第一获取模块10、第三获取模块30、第一判断模块40和确定模块50同上所述，在此不再赘述。0073优选地，第三获取单元201包括第一确定单元，用于确定网页地址的匹配类型，匹配类型包括日期型、数字序列型和全局唯一标识符型；以及选择单元，用于当网页地址的匹配类型为日期型，则选择用于匹配日期的正则表达式作为预设正则表达式，当网页地址的匹配类型为数字序列型时，则选择用于匹配数字序列的正则表达式作为预设正则表达式，当网页地址的匹配类型为全局唯一标识符型时，则选择用。

39、于匹配全局唯一标识符的正则表达式作为预设正则表达式。0074由于不同的网站的网页地址可能包含不同类型的标识字段。为了适应包含不同类型的标识字段的网页地址，通过预先根据不同表示字段类型编写相应的正则表达式。通过先确定待检测网页地址包含的标识字段类型来选择对应的能够匹配该标识字段的正则表达式。通过预先设置多种能够匹配不同类型的标识字段的正则表达式，能够提高对包含不同类型的标识字段的网页地址进行匹配的适应性。说明书CN104182548A108/8页110075优选地，在确定网页为新增页面之后，该页面更新处理装置还包括记录模块，用于记录标识字段；第二判断模块，用于判断网站访问日志是否获取完毕；比较模。

40、块，用于当网站访问日志获取完毕时，比较记录的所有标识字段对应的时间；以及更新模块，用于根据对应最晚时间的标识字段更新预设基准字段。0076本发明实施例通过依次检测网站访问日志中每一条网页访问日志来统计网页更新量。在网站访问日志中的每一条网页访问日志都被检测后，就可以得到在网页更新量统计时间段内所有新增网页的标识字段。通过比较这些标识字段可以得到一个对应于最晚的网页发布时间的标识字段，将该标识字段作为下一次网页更新量统计的预设基准字段。通常，网站都是按天来统计网页更新量，即统计每一天时间内网站的页面更新量。通过自动更新预设基准字段，从而在统计下一天的网页更新量时，不需要再预先设置基准字段。此外，。

41、通过每次网页更新量统计之后自动更新预设基准字段，可以避免人为设置的预设基准字段不准确的问题，从而可以提高下一次网页更新量统计的准确性。但是如果下一次进行网页更新量统计的时间与上一次进行网页更新量统计的时间不连续的话，则需要重新设置预设基准字段，例如，第一次网页更新量统计是统计8月5日新发布的网页数量，而第二次网页更新量统计却是统计8月8日新发布的网页数量，因此在进行第二次网页更新量统计前需要重新设置预设基准字段，但如果第二次网页更新量统计是统计8月6日新发布的网页数量则无须预先设置预设基准字段。0077综上，本发明实施例通过第一获取模块10获取待检测网页的网页地址，通过第二获取模块20获取上述。

42、网页地址中用于标识网页更新时间的标识字段，通过第一判断模块40判断该标识字段对应的时间是否晚于第三获取模块30获取的预设基准字段对应的时间，从而来确定待检测网页是否是新增网页。通过将标识字段与预设基准字段比较获得待检测网页发布时间与网页更新统计的开始时间的先后顺序来确定待检测网页是否为新增网页，只有待检测网页的发布时间不早于网页更新统计的开始时间时，待检测网页才是新增页面，解决了将网页更新量统计开始时间之前发布的网页错误判断为新增网页而造成网页更新量统计结果不准确的问题。此外，第二获取模块20还包括第三获取单元201和匹配单元202，通过第三获取单元201获取预设正则表达式，通过匹配单元202。

43、根据预设正则表达式对网页地址进行正则匹配，实现快速获取标识字段。0078显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。0079以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN104182548A111/3页12图1图2说明书附图CN104182548A122/3页13图3说明书附图CN104182548A133/3页14图4说明书附图CN104182548A14。

展开阅读全文