《网站访问率统计方法及系统.pdf》由会员分享,可在线阅读,更多相关《网站访问率统计方法及系统.pdf(6页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102833129 A (43)申请公布日 2012.12.19 C N 1 0 2 8 3 3 1 2 9 A *CN102833129A* (21)申请号 201210288174.3 (22)申请日 2012.08.15 H04L 12/26(2006.01) H04L 12/24(2006.01) (71)申请人苏州迈科网络安全技术股份有限公 司 地址 215021 江苏省苏州市园区金鸡湖大道 1355号国际科技园三期8B (72)发明人高华 何泽华 (74)专利代理机构南京苏科专利代理有限责任 公司 32102 代理人陆明耀 陈忠辉 (54) 发明名称 网站。
2、访问率统计方法及系统 (57) 摘要 本发明提供了一种网站访问率统计方法及系 统,其中,所述方法包括:S1、抽样,选取不同地区 的设备日志;S2、根据所述设备日志,将访问用户 划分为多个统计对象;S3、根据统计对象、统计条 件、统计时间范围,从设备日志中获取可用数据; S4、对可用数据根据统计对象,包含统计条件的 URL,统计时间进行聚类汇总,获取不同统计对象 对不同URL的访问数量;S5、将统计数据根据统计 对象、网站、时间段进行二次归类;S6、计算各网 站访问率。本发明弥补了日志中提取广告数据的 空白,将日志数据进行二次利用,解决了当前网页 网站访问率统计的片面性,失真行,以及不同网站 见。
3、网站访问率统计的不可比较性等问题。 (51)Int.Cl. 权利要求书1页 说明书3页 附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 3 页 附图 1 页 1/1页 2 1.一种网站访问率统计方法,其特征在于,所述方法包括: S1、抽样,选取不同地区的设备日志; S2、根据所述设备日志,将访问用户划分为多个统计对象; S3、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据; S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同 统计对象对不同URL的访问数量; S5、将统计数据根据统计对象、网站、时。
4、间段进行二次归类; S6、计算各网站访问率。 2.根据权利要求1所述的网站访问率统计方法,其特征在于,所述S2步骤具体包括: 根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。 3.根据权利要求1所述的网站访问率统计方法,其特征在于,所述S3步骤具体包括: 采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数 据,并将垃圾数据剔除; 将不同设备日志的可同数据汇总到一个或一类表格中。 4.根据权利要求1所述的网站访问率统计方法,其特征在于,所述S4步骤还包括: 通过汇总条件的哈希算法去重。 5.一种网站访问率统计系统,其特征在于,所述系统包括: 。
5、抽样单元,用于抽样,选取不同地区的设备日志; 划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象; 数据单元,用于根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数 据; 统计单元,用于对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇 总,获取不同统计对象对不同URL的访问数量; 二次统计单元,用于将统计数据根据统计对象、网站、时间段进行二次归类; 计算单元,用于计算各网站访问率。 6.根据权利要求5所述的网站访问率统计系统,其特征在于,所述划分单元具体用于: 根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。 7.根据权利要求5所。
6、述的网站访问率统计系统,其特征在于,所述数据单元具体用于: 采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数 据,并将垃圾数据剔除; 将不同设备日志的可同数据汇总到一个或一类表格中。 8.根据权利要求5所述的网站访问率统计方法,其特征在于,所述统计单元还用于: 通过汇总条件的哈希算法去重。 权 利 要 求 书CN 102833129 A 1/3页 3 网站访问率统计方法及系统 0001 【技术领域】 本发明涉及一种网站访问率统计方法及系统,尤其是涉及一种基于数据挖掘技术的网 站访问率统计方法及系统。 0002 【背景技术】 随着互联网的发展和普及,越来越多的人从互联。
7、网上获取信息,越来越多的产品供应 商,服务供应商会选择网络广告的形式宣传自己的产品和服务,然而选择在什么样的网站 上投放广告可以使其投放的效益最大化,成为个供应商头疼的问题。产品供应商只能听取 各大网络供应商的片面之词(网站内部统计的访问量,流量等)而盲目的投放广告。然而,当 前对网络数据的统计,数据具有一定的片面性和失真性(重复统计,内部数据造假等),且不 同网站统计数据的方法不统一,导致不同网站广告数据的可比性降低。 0003 【发明内容】 为了解决上述问题,本发明的目的是提供一种网站访问率统计方法。该方法可从海量 日志中通过数据挖掘技术提取出量化广告投放效益的数据。 0004 本发明的另。
8、一目的是提供一种网站访问率统计系统。 0005 其中,本发明一实施方式的网站访问率统计方法包括以下步骤: S1、抽样,选取不同地区的设备日志; S2、根据所述设备日志,将访问用户划分为多个统计对象; S3、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据; S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同 统计对象对不同URL的访问数量; S5、将统计数据根据统计对象、网站、时间段进行二次归类; S6、计算各网站访问率。 0006 作为本发明的进一步改进,所述S2步骤具体包括: 根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加。
9、权人口。 0007 作为本发明的进一步改进,所述S3步骤具体包括: 采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数 据,并将垃圾数据剔除; 将不同设备日志的可同数据汇总到一个或一类表格中。 0008 作为本发明的进一步改进,所述S4步骤还包括: 通过汇总条件的哈希算法去重。 0009 相应地,本发明一实施方式的网站访问率统计系统包括: 抽样单元,用于抽样,选取不同地区的设备日志; 划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象; 数据单元,用于根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数 据; 统计单元,用于对可用数据根据统计对象,包。
10、含统计条件的URL,统计时间进行聚类汇 说 明 书CN 102833129 A 2/3页 4 总,获取不同统计对象对不同URL的访问数量; 二次统计单元,用于将统计数据根据统计对象、网站、时间段进行二次归类; 计算单元,用于计算各网站访问率。 0010 作为本发明的进一步改进,所述划分单元具体用于: 根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。 0011 作为本发明的进一步改进,所述数据单元具体用于: 采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数 据,并将垃圾数据剔除; 将不同设备日志的可同数据汇总到一个或一类表格中。 0012 。
11、作为本发明的进一步改进,所述统计单元还用于: 通过汇总条件的哈希算法去重。 0013 相比于现有技术,本发明弥补了日志中提取广告数据的空白,将日志数据进行二 次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站见网站访问率统 计的不可比较性等问题。 0014 【附图说明】 图1是本发明一实施例的网站访问率统计方法的流程图; 图2是本发明一实施例的网站访问率统计系统的模块图。 0015 【具体实施方式】 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发 明进行详细描述。 0016 如图1所示,在本发明一实施方式中,网站访问率统计方法,包括以下步骤: S1、。
12、抽样,选取不同地区的设备日志; S2、根据所述设备日志,将访问用户划分为多个统计对象,优选地,根据统计对象的 不同,将设备访问用户按照年龄,性别划分。例如:按照年龄性别可以划分为F18-24,M 18-24,F24-48,M24-48等,获取样本不同聚类加权人口(样本权数); S3、采用分布式计算,根据统计对象(人群),统计条件(例如,advertisment的URL,点击 3次以上的算一个访问量),统计时间范围,从设备日志中获取可用数据,将垃圾数据裁剪剔 除,提高下一步统计的效率,以及内存的利用率,并将不同设备日志的可用数据汇总到一个 或一类表格中(根据日志量的大小); S4、对可用数据根据。
13、统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同 统计对象对不同URL的访问数量,并通过汇总条件的哈希算法去重; S5、二次统计,将统计数据根据统计对象,网站(163,sina等),时间段,进行二次归类, 获取相应人群,时间段,网站,同统计条件的访问人数; S6、统计数据计算,获取相应条件的各网站访问率,例如P18-24访问率(163) = P18-24 访问量(163)/ P18-24采样人群数量;P24-48访问率(sina) = P24-48访问量(sina)/ P24-48采样人群数量。 0017 如图2所示,在本发明一实施方式中,网站访问率统计系统包括: 抽样单元,用于。
14、抽样,选取不同地区的设备日志; 划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象,优选地,根据 说 明 书CN 102833129 A 3/3页 5 统计对象的不同,将设备访问用户按照年龄,性别划分。例如:按照年龄性别可以划分为 F18-24,M 18-24,F24-48,M24-48等,获取样本不同聚类加权人口(样本权数); 数据单元,用于采用分布式计算,根据统计对象(人群),统计条件(包含advertisment 的URL,点击3次以上的算一个访问量),统计时间范围,从设备日志中获取可用数据,将垃 圾数据裁剪剔除,提高下一步统计的效率,以及内存的利用率,并将不同设备日志的可用数。
15、 据汇总到一个或一类表格(根据日志量的大小); 统计单元,用于对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇 总,获取不同统计对象对不同URL的访问数量,并通过汇总条件的哈希算法去重; 二次统计单元,用于二次统计,将统计数据根据统计对象,网站(163,sina等),时间段, 进行二次归类,获取相应人群,时间段,网站,同统计条件的访问人数; 计算单元,用于统计数据计算,获取相应条件的各网站访问率,例如P18-24访问率 (163) = P18-24访问量(163)/ P18-24采样人群数量;P24-48访问率(sina) = P24-48访 问量(sina)/ P24-48采。
16、样人群数量。 0018 综上所述,本发明通过海量日志数据提取,弥补了日志中提取广告数据的空白,将 日志数据进行二次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站 见网站访问率统计的不可比较性等问题。 0019 应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一 个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说 明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可 以理解的其他实施方式。 0020 上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说 明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式 或变更均应包含在本发明的保护范围之内。 说 明 书CN 102833129 A 1/1页 6 图1 图2 说 明 书 附 图CN 102833129 A 。