IP地址数据的数据处理方法和装置.pdf

摘要
申请专利号：	CN201410459082.6	申请日：	2014.09.10
公开号：	CN104202441A	公开日：	2014.12.10
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04L 29/12申请日:20140910\|\|\|公开
IPC分类号：	H04L29/12	主分类号：	H04L29/12
申请人：	北京国双科技有限公司
发明人：	饶峰云; 杨基彬
地址：	100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间
优先权：
专利代理机构：	北京康信知识产权代理有限责任公司 11240	代理人：	李志刚;吴贵明
PDF下载：	PDF下载

内容摘要

本发明公开了一种IP地址数据的数据处理方法和装置。其中，该IP地址数据的数据处理方法包括：获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据；将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；获取多个子区间段中每个子区间段对应的地理位置编码，其中，地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算由多个子区间段构成的区间段内的第一数值与第二数值的比值。通过本发明，解决了现有技术中无法分析不同的IP地理信息数据库中记录的IP地址信息的差异大小的问题，达到了计算不同数据库中的IP地址信息的差异大小的效果。

权利要求书

1.  一种IP地址数据的数据处理方法，其特征在于，包括：
获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；
将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；
获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及
计算由所述多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和所述第二地理位置编码为不同的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。

2.  根据权利要求1所述的数据处理方法，其特征在于，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法包括：
获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息；
按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。

3.  根据权利要求2所述的数据处理方法，其特征在于，按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码包括：
获取国家级别、省份级别、城市级别和区县级别的编码；
依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；
查找地理位置编码与地理位置信息的映射关系；以及
按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置信息映射为所述第二地理位置编码。

4.  根据权利要求3所述的数据处理方法，其特征在于，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法还包括：
在所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区间段；
将相同级别中属于所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。

5.  根据权利要求1所述的数据处理方法，其特征在于，将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段包括：
将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；
将所述第二IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及
依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段。

6.  一种IP地址数据的数据处理装置，其特征在于，包括：
第一获取单元，用于获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；
映射单元，用于将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；
第二获取单元，用于获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及
计算单元，用于计算由所述多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和所述第二地理位置编码为不同的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。

7.  根据权利要求6所述的数据处理装置，其特征在于，所述数据处理装置包括：
第三获取单元，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息；
转换单元，用于按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。

8.  根据权利要求7所述的数据处理装置，其特征在于，所述转换单元包括：
第四获取模块，用于获取国家级别、省份级别、城市级别和区县级别的编码；
组合模块，用于依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；
第一查找模块，用于查找地理位置编码与地理位置信息的映射关系；以及
映射模块，用于按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置信息映射为所述第二地理位置编码。

9.  根据权利要求8所述的数据处理装置，其特征在于，所述数据处理装置还包括：
第二查找模块，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，在所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区间段；
第一确定模块，用于将相同级别中属于所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。

10.  根据权利要求6所述的数据处理装置，其特征在于，所述映射单元包括：
第一映射模块，用于将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；
第二映射模块，用于将所述第二IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及
第二确定模块，用于依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段。

说明书

IP地址数据的数据处理方法和装置
技术领域
本发明涉及数据处理领域，具体而言，涉及一种IP地址数据的数据处理方法和装置。
背景技术
互联网行业飞速发展，根据IP地址对网络数据分析变得越来越重要，由于IP地址能够指示地理位置，因此，根据IP地址能够分析网络信息的来源的地理位置，例如，根据访问网页的访客的IP地址确定其来自哪个国家、省份、城市。
目前，各大网站通过采集访客的IP地址建立IP地理信息数据库，但是IP地理信息数据库来源多样，格式不一，譬如国外有Maxmind、IP2Location等，国内有纯真、IPB、淘宝、百度、腾讯等，并且这些数据库随着时间不断更新。在进行网络数据分析时，利用不同的IP地理信息数据库得到的分析结果也有差异，并且无法得知根据哪个数据库得到的分析结果是准确的，也无法预期结果的差异大小。
针对现有技术中无法分析不同的IP地理信息数据库中记录的IP地址信息的差异大小的问题，目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种IP地址数据的数据处理方法和装置，以解决无法分析不同的IP地理信息数据库中记录的IP地址信息的差异的问题。
为了实现上述目的，根据本发明的一个方面，提供了一种IP地址数据的数据处理方法。根据本发明的IP地址数据的数据处理方法包括：获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算由所述多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和所述第二地理位置编码为不同的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。
进一步地，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法包括：获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息；按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。
进一步地，按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码包括：获取国家级别、省份级别、城市级别和区县级别的编码；依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；查找地理位置编码与地理位置信息的映射关系；以及按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置信息映射为所述第二地理位置编码。
进一步地，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法还包括：在所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区间段；将相同级别中属于所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。
进一步地，将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段包括：将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；将所述第二IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段。
进一步地，依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段包括：用半开半闭区间表示所述子区间，其中，所述半开半闭区间为左开右闭区间，或者所述半开半闭区间为左闭右开区间。
为了实现上述目的，根据本发明的另一方面，提供了一种IP地址数据的数据处理装置。根据本发明的IP地址数据的数据处理装置包括：第一获取单元，用于获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；映射单元，用于将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；第二获取单元，用于获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算单元，用于计算由所述多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和所述第二地理位置编码为不同的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。
进一步地，所述数据处理装置包括：第三获取单元，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息；转换单元，用于按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。
进一步地，所述转换单元包括：第四获取模块，用于获取国家级别、省份级别、城市级别和区县级别的编码；组合模块，用于依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；第一查找模块，用于查找地理位置编码与地理位置信息的映射关系；以及映射模块，用于按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置信息映射为所述第二地理位置编码。
进一步地，所述数据处理装置还包括：第二查找模块，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，在所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区间段；第一确定模块，用于将相同级别中属于所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。
进一步地，所述映射单元包括：第一映射模块，用于将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；第二映射模块，用于将所述第二IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及第二确定模块，用于依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段。
进一步地，所述第二确定模块还用于用半开半闭区间表示所述子区间，其中，所述半开半闭区间为左开右闭区间，或者所述半开半闭区间为左闭右开区间。
通过本发明，用IP地址区间段和地理位置编码表示IP地址数据，并将两个数据库中的IP地址数据映射在同一个IP地址数据轴上，将两个数据库中的IP地址数据映射为多个子区间段，通过比较多个子区间段中属于不同数据库的IP地址的个数与由多个子区间段组成的整个区间段的IP地址的个数的比值，判断两个数据库中的IP地址信息的差异率，解决了无法分析不同的IP地理信息数据库中记录的IP地址信息的差异大小的问题，进而达到了分析不同的IP地理信息数据库中记录的IP地址的差异大小的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
图1是根据本发明实施例的IP地址数据的数据处理方法的流程图；
图2是根据本发明实施例的将IP地址映射到IP数据轴的示意图；以及
图3是根据本发明实施例的IP地址数据的数据处理装置的示意图。
具体实施方式
需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例提供了一种IP地址数据的数据处理方法。
图1是根据本发明实施例的IP地址数据的数据处理方法的流程图。如图所示，该IP地址数据的数据处理方法包括如下步骤：
步骤S102，获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，第二IP地址数据表示第二IP地址区间段和第二地理位置编码。
第一数据库和第二数据库为进行对比的两个数据库，两个数据库中分别存储了一套IP地址数据，为了对比第一数据库和第二数据库中的IP地址数据的差异，分别从第一数据库中获取第一IP地址数据，从第二数据库中获取第二IP地址数据。例如(以下数据均为虚构，不代表真实数据)，第一IP地址数据为[0.0.0.0,0.0.0.100,11564400000100],[0.0.0.101,0.0.0.255,11564400000300]，第二IP地址数据为[0.0.0.0,0.0.0.150,11564400000100],[0.0.0.151,0.0.0.255,11564400000300]。其中，数据格式[0.0.0.0,0.0.0.100,11564400000100]表示0.0.0.0～0.0.0.100区间段内(包括端点)的IP地址对应的地理信息编码为11564400000100，该编码对应的地理位置为广东省广州市。由第一IP地址数据和第二IP地址数据可知，第一IP地址的区间段和第二IP地址的区间段有交叉和重叠，本实施例就可以对比分析这两个不同的IP地址数据之间的差异大小。
步骤S104，将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段。
由于第一IP地址的区间段和第二IP地址的区间段有交叉和重叠的区间段，则将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，可以得到如图3所示的子区间段①、子区间段②和子区间段③。
步骤S106，获取多个子区间段中每个子区间段对应的地理位置编码，其中，地理位置编码包括第一地理位置编码和第二地理位置编码。
如图2所示，子区间段①是第一数据库中[0.0.0.0,0.0.0.100,11564400000100]区间段的子集，对应的第一地理位置编码同样为11564400000100。同时，子区间段①是第二数据库中[0.0.0.0,0.0.0.150,11564400000100]的子集，对应的第二地理位置编码则为11564400000100；同理，子区间段②对应的第一地理位置编码为11564400000300，第二地理位置编码为11564400000100；子区间段③对应的第一地理位置编码为11564400000300，第二地理位置编码为11564400000300。
也就是说，在第一数据库和第二数据库中存在同一个IP地址的区间段对应两个不同的地理位置编码，这就是IP数据库的差异。
步骤S108，计算由多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，第一数值为同时对应第一地理位置编码和第二地理位置编码的IP地址的个数，第二数值为由多个子区间段构成的区间段对应的IP地址的个数。
计算第一数值和第二数值的比值，即计算IP数据库的差异大小。在上述示例中，子区间段①和③对应的第一地理位置编码和第二地理位置编码都相同，而子区间段② 对应的第一地理位置编码和第二地理位置编码不同。其中，子区间段①、②、③内IP地址数量分别为101、50、105，所以总数量为256，差异量为50，差异大小则为50/256。
通过上述实施例，为了便于比较两个数据库中的IP地址数据的差异，可以首先将IP地址的区间段映射到IP地址数据轴上，将有交叉重叠的IP地址区间段映射为多个没有重叠的子区间段，并且通过查找子区间段所属区间段，确定其对应的地理位置编码。在此基础上，查找地理位置编码不同的区间段，统计这些区间段的IP地址数量，与整体IP数据库的IP地址数量做对比，得到IP数据库的差异比例。解决了现有技术中无法分析不同的IP地理信息数据库中记录的IP地址地理信息差异大小的问题。
优选地，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，数据处理方法包括：获取第一IP地址数据中的第一地理位置信息和第二IP地址数据中的第二地理位置信息；按照预定格式将第一地理位置信息转换为第一地理位置编码，并且按照预定格式将第二地理位置信息转换为第二地理位置编码。
由于不同的IP地址数据库中的存储的IP地址数据的格式不一样，就无法对不同的数据库中的IP地址数据进行比较，因此，需要首先将数据库中的IP地址的格式统一。IP地址数据包括IP地址的区间段和地理位置编码，为了便于地理位置信息的比较，将地理位置信息转换为地理位置编码。
例如，第一地理位置信息为广东省广州市，将其转换为第一地理位置编码11564400000100；第二地理位置信息为广东省深圳市，第二地理位置编码为11564400000300。
可选地，按照预定格式将第一地理位置信息转换为第一地理位置编码，并且按照预定格式将第二地理位置信息转换为第二地理位置编码包括：获取国家级别、省份级别、城市级别和区县级别的编码；依次组合国家级别、省份级别、城市级别和区县级别的编码，将组合结果作为地理位置编码；查找地理位置编码与地理位置信息的映射关系；以及按照映射关系将第一地理位置信息映射为第一地理位置编码，并且按照映射关系将第二地理位置信息映射为第二地理位置编码。
按照如下的方法获取国家级别、省份级别、城市级别和区县级别的编码：
对于国外数据，采用ISO标准。具体为：
国家级别采用ISO 3166-1标准，编码采用其中三位数字编码，并在最高位补1，保证对齐。因为国家编码中前两位可能为0，譬如巴西国家编码为076，如果不在最高位补1，三位的编码076将变为两位的76，补1后则固定为四位1076，便于统一国家代码的格式以进行编码比较。
省(或州)级别采用ISO 3166-2标准，标准中编码为两位或三位英文字母，或者两位数字。我们将其转换为六位的数字编码——每个英文字母按照其在字母表中的顺序转换为01-26的数字，不足六位的则在前面补零。譬如美国华盛顿的编码为WA，转换为数字为2301，补零后为002301。
国外不区分市、区县，全部在最后补四个零。举例：美国华盛顿编码：18400023010000，其中前四位1840为美国编码，接着六位002301表示华盛顿州，最后四个零代表不区分城市和区县。
对于国内数据，采用国家统计局公布的最新县及县以上行政区划编码，以下参考国家标准GB/T 2260中对行政区划编码的说明。
国家编码同样采用ISO 3166-1标准，编码为156，高位补1后变为1156。
行政区划编码为六位数字，其中前两位代表省份(包括自治区、直辖市、特别行政区)、中间两位代表城市(包括地区、自治州、盟、直辖市所属市辖区、省直辖县级行政单位汇总)、最后两位代表区县(包括自治县、县级市、旗、自治旗、市辖区、林区、特区)。对于台湾、香港、澳门，ISO 3166-1标准中将其作为国家级别，而在国家统计局的数据中将其归为特别行政区，我们采用国家统计局的标准，将其作为中国的省份级别，采用省份编码。将代表省份的前两位数字补零，变为六位数字，保证与国外省份编码格式一致。
根据上述编码就能确定每个地区的编码。举例：广东省深圳市福田区，中国国家编码为156，广东省编码为440000，深圳市编码为03，福田区代码为04，则按照上述映射关系可以确定广东省深圳市福田区的编码为11564400000304。也就是说，在获取地理位置信息之后，按照国家、省份、城市和区县与编码的映射关系可以确定每个地理位置信息对应的地理位置编码。
在进行IP地址数据的对比时，可以采用逐级对比的方式。可以理解的是，当两个IP地址数据库中低级别的IP地址的地理信息相同时，则高一级别的IP地址的地理信息也相同；当两个IP地址数据库中高级别的IP地址的地理信息不相同时，则低级别的IP地址的地理信息也不相同；通过逐级比较两个IP地址数据库中的数据，可以逐级判断出两个IP地址数据的差异率，从而确定两个IP地址数据库的各个地理等级的差异。
通过上述实施例，将地理位置信息转换为地理位置编码，实现了地理位置信息的标准化，编码的形式不仅便于电脑进行识别，还根据地理位置编码与地理位置的一一对应，以及不同数据中的相同的编码对应相同的地理位置的特性，便于确定进行对比的对象。从而能够精确对比出不同数据库中相同IP地址的地理位置的差异。另外，IP数据库中IP地址的区间段可能不断变化，但地理位置信息是不变的，转换成相应的地理位置编码所需的映射关系是相同的，也就是说，只需要一次性将地理位置信息转换为地理位置编码即可，不需要重复的工作。
优选地，将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段包括：将第一IP地址的区间段的起始点和结束点映射到IP地址数据轴上，得到两个第一端点；将第二IP地址的区间段的起始点和结束点映射到IP地址数据轴上，得到两个第二端点；以及依次将两个第一端点和两个第二端点中的相邻两个端点作为多个子区间段中的一个子区间段。
如图2所示，第一IP地址的区间段为0.0.0.0,0.0.0.100，0.0.0.101,0.0.0.255，其映射到IP数据轴上得到四个端点，分别为0.0.0.0，0.0.0.100，0.0.0.101和0.0.0.255。。第二IP地址的区间段映射到IP数据轴上同样得到四个端点：0.0.0.0，0.0.0.150，0.0.0.151，0.0.0.255，如图2的IP数据轴上具有六个端点，相邻两个端点构成一个子区间段，那么六个端点构成3个子区间段，也就是图2中子区间段①、子区间段②和子区间段③。
优选地，依次将多个第一端点和多个第二端点中的相邻两个端点作为多个子区间段中的一个子区间段包括：用半开半闭区间表示子区间，其中，半开半闭区间为左开右闭区间，或者半开半闭区间为左闭右开区间。
为了便于对比两个相同区间段的IP地址数据，按照图2所示的方式将IP地址区间段进行拆分，使得拆分后得到的子区间段之间没有重叠。IP地址区间段通常采用全闭区间的表示，但是这种方式容易导致数据重复，为了避免数据重复，则采用半开半闭区间。
例如，假设数据源A的区间是[1,10]、[11,20]，数据源B的区间段是[1,9],[10,20]，按照图2所示的拆分方法，得到的端点为1，9，10，11，20。拆分得到的区间段为[1,9]，[9,10]，[10,11]，[11,20]，因为是全闭区间，所以可以看到其中端点9、10、11出现在多个区间中，导致数据重复。由于IP地址数据为离散数据，即使其考虑端点不重复，生成子区间段[1,9]，[10,11]，[12,20]，仍然是不正确的，而正确的区间范围应该为[1,9]，[10,10]，[11,20]。
如果将区间段改为半开半闭区间，则上述例子将变为数据源A的区间为[1,11)，[11,21)，其中，中括号是闭区间，表示包含，而小括号表示开区间，表示不包含。相应的数据源B的区间则为[1,10)，[10,21)，合并后的IP数轴为1，10，11，21，拆分后的子区间段分别为[1,10)，[10,11)，[11,21)，可以看到，拆分后的子区间段全部属于原区间段内的子区间段，数据完整且没有数据重复。
需要说明的是，此时采用的半开半闭区间中，统一采用左开右闭区间或者左闭右开区间，以避免数据重复。
本发明实施例的IP地址数据的数据处理方法可以通过本发明实施例所提供的IP地址数据的数据处理装置来执行，本发明实施例的IP地址数据的数据处理装置也可以用于执行本发明实施例所提供的IP地址数据的数据处理方法。
本发明实施例还提供了一种IP地址数据的数据处理装置。
图3是根据本发明实施例的IP地址数据的数据处理装置的示意图。如图所示，该IP地址数据的数据处理装置包括：第一获取单元10、映射单元20、第二获取单元30和计算单元40。
第一获取单元10用于获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，第二IP地址数据表示第二IP地址区间段和第二地理位置编码。
第一数据库和第二数据库为进行对比的两个数据库，两个数据库中分别存储了一套IP地址数据，为了对比第一数据库和第二数据库中的IP地址数据的差异，分别从第一数据库中获取第一IP地址数据，从第二数据库中获取第二IP地址数据。例如(以下数据均为虚构，不代表真实数据)，第一IP地址数据为[0.0.0.0,0.0.0.100,11564400000100],[0.0.0.101,0.0.0.255,11564400000300]，第二IP地址数据为[0.0.0.0,0.0.0.150,11564400000100],[0.0.0.151,0.0.0.255,11564400000300]。其中，数据格式[0.0.0.0,0.0.0.100,11564400000100]表示0.0.0.0～0.0.0.100区间段内(包括端点)的IP地址对应的地理信息编码为11564400000100，该编码对应的地理位置为广东省广州市。由第一IP地址数据和第二IP地址数据可知，第一IP地址的区间段和第二IP地址的区间段有交叉和重叠，本实施例就可以对比分析这两个不同的IP地址数据之间的差异大小。
映射单元20用于将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段。
由于第一IP地址的区间段和第二IP地址的区间段有交叉和重叠的区间段，则将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，可以得到如图3所示的子区间段①、子区间段②和子区间段③。
第二获取单元30用于获取多个子区间段中每个子区间段对应的地理位置编码，其中，地理位置编码包括第一地理位置编码和第二地理位置编码。
如图2所示，子区间段①是第一数据库中[0.0.0.0,0.0.0.100,11564400000100]区间段的子集，对应的第一地理位置编码同样为11564400000100。同时，子区间段①是第二数据库中[0.0.0.0,0.0.0.150,11564400000100]的子集，对应的第二地理位置编码则为11564400000100；同理，子区间段②对应的第一地理位置编码为1564400000300，第二地理位置编码为11564400000100；子区间段③对应的第一地理位置编码为11564400000300，第二地理位置编码为11564400000300。
也就是说，在第一数据库和第二数据库中存在同一个IP地址的区间段对应两个不同的地理位置编码，这就是IP数据库的差异。
计算单元40用于计算由多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，第一数值为对应的第一地理位置编码和第二地理位置编码为不同的地理位置编码的IP地址的个数，第二数值为由多个子区间段构成的区间段对应的IP地址的个数。
计算第一数值和第二数值的比值，即计算IP数据库的差异大小。在上述示例中，子区间段①和③对应的第一地理位置编码和第二地理位置编码都相同，而子区间段②对应的第一地理位置编码和第二地理位置编码不同。其中，子区间段①、②、③内IP地址数量分别为101、50、105，所以总数量为256，差异量为50，差异大小则为50/256。
通过上述实施例，为了便于比较两个数据库中的IP地址数据的差异，可以首先将IP地址的区间段映射到IP地址数据轴上，将有交叉重叠的IP地址区间段映射为多个没有重叠的子区间段，并且通过查找子区间段所属区间段，确定其对应的地理位置编码。在此基础上，查找地理位置编码不同的区间段，统计这些区间段的IP地址数量，与整体IP数据库的IP地址数量做对比，得到IP数据库的差异比例。解决了现有技术中无法分析不同的IP地理信息数据库中记录的IP地址地理信息差异大小的问题。
优选地，数据处理装置包括：第三获取单元，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，获取第一IP地址数据中的第一地理位置信息和第二IP地址数据中的第二地理位置信息；转换单元，用于按照预定格式将第一地理位置信息转换为第一地理位置编码，并且按照预定格式将第二地理位置信息转换为第二地理位置编码。
由于不同的IP地址数据库中的存储的IP地址数据的格式不一样，就无法对不同的数据库中的IP地址数据进行比较，因此，需要首先将数据库中的IP地址的格式统一。IP地址数据包括IP地址的区间段和地理位置编码，为了便于地理位置信息的比较，将地理位置信息转换为地理位置编码。
例如，第一地理位置信息为广东省广州市，将其转换为第一地理位置编码11564400000100；第二地理位置信息为广东省深圳市，第二地理位置编码为11564400000300。
可选地，转换单元包括：第四获取模块，用于获取国家级别、省份级别、城市级别和区县级别的编码；组合模块，用于依次组合国家级别、省份级别、城市级别和区县级别的编码，将组合结果作为地理位置编码；第一查找模块，用于查找地理位置编码与地理位置信息的映射关系；以及映射模块，用于按照映射关系将第一地理位置信息映射为第一地理位置编码，并且按照映射关系将第二地理位置信息映射为第二地理位置编码。
按照如下的方法获取国家级别、身份级别、城市级别和区县级别的编码：
对于国外数据，采用ISO标准。具体为：
国家级别采用ISO 3166-1标准，编码采用其中三位数字编码，并在最高位补1，保证对齐。因为国家编码中前两位可能为0，譬如中国国家编码为156，如果不在最高位补1，三位的编码156将变为两位的，补1后则固定为四位1156，便于统一国家代码的格式已进行编码比较。
省(或州)级别采用ISO 3166-2标准，标准中编码为两位或三位英文字母，或者两位数字。我们将其转换为六位的数字编码——每个英文字母按照其在字母表中的顺序转换为01-26的数字，不足六位的则在前面补零。譬如美国华盛顿的编码为WA，转换为数字为2301，补零后为002301。
国外不区分市、区县，全部在最后补四个零。举例：美国华盛顿编码：18400023010000，其中前四位1840为美国编码，接着六位002301表示华盛顿州，最后四个零代表不区分城市和区县。
对于国内数据，采用国家统计局公布的最新县及县以上行政区划编码，以下参考国家标准GB/T 2260中对行政区划编码的说明。
国家编码同样采用ISO 3166-1标准，编码为156，高位补1后变为1156。
行政区划编码为六位数字，其中前两位代表省份(包括自治区、直辖市、特别行政区)、中间两位代表城市(包括地区、自治州、盟、直辖市所属市辖区、省直辖县级行政单位汇总)、最后两位代表区县(包括自治县、县级市、旗、自治旗、市辖区、林区、特区)。对于台湾、香港、澳门，在国家统计局的数据中将其归为特别行政区，采用省份编码。将代表省份的前两位数字补零，变为六位数字，保证与国外省份编码格式一致。
根据上述编码就能确定每个地区的编码。举例：广东省深圳市福田区，中国国家编码为156，广东省编码为440000，深圳市编码为03，福田区代码为04，则按照上述映射关系可以确定广东省深圳市福田区的编码为11564400000304。也就是说，在获取地理位置信息之后，按照国家、省份、城市和区县与编码的映射关系可以确定每个地理位置信息对应的地理位置编码。
优选地，数据处理装置还包括：第二查找模块，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，在第一数据库和第二数据库中查找处于相同级别的地理位置编码对应的IP地址区间段；第一确定模块，用于将相同级别中属于第一数据库中的IP地址区间段作为第一IP地址的区间段，属于第二数据库中的IP地址区间段作为第二IP地址的区间段。
在进行IP地址数据的对比时，可以采用逐级对比的方式。可以理解的是，当两个IP地址数据库中低级别的IP地址数据均相同时，则高一级别的IP地址数据也相同；当两个IP地址数据库中高级别的IP地址数据不相同时，则低级别的IP地址数据也不相同；通过逐级比较两个IP地址数据库中的数据，可以逐级判断出两个IP地址数据的差异率，从而确定两个IP地址数据库的整体差异。
例如，对比两个不同的IP地址数据库中广东省的数据差异。首先对比区县级别的IP地址数据的差异，也就是对比编码的前12位均为115644000003，最后两位编码不同的IP地址数据库的差异，如果编码的前12位均为115644000003的IP地址数据库中的IP地址数据均相同，那么说明在两个IP地址数据库中广东省深圳市的数据是相同的。然后在比较广东省内不同城市的IP地址数据的差异率，依次类推。
通过上述实施例，将地理位置信息转换为地理位置编码，实现了地理位置信息的标准化，编码的形式不仅便于电脑进行识别，还根据地理位置编码与地理位置的一一对应，以及不同数据中的相同的编码对应相同的地理位置的特性，便于确定进行对比的对象。从而能够精确对比出不同数据库中，相同地理位置的IP地址的差异。另外，将所有的IP地址数据库中的地理位置信息都更新为标准地理位置编码，并不会更改IP地址本身，因此，即时IP地址有变化，还可以将其对应的地理位置信息转换为相应的地理位置编码，而进行转换所需要的映射关系还同上述实施例中相同，也就是说，只需要一次性将地理位置信息转换为地理位置编码即可，不需要重复的工作。
优选地，映射单元包括：第一映射模块，用于将第一IP地址的区间段的起始点和结束点映射到IP地址数据轴上，得到两个第一端点；第二映射模块，用于将第二IP地址的区间段的起始点和结束点映射到IP地址数据轴上，得到两个第二端点；以及第二确定模块，用于依次将两个第一端点和两个第二端点中的相邻两个端点作为多个子区间段中的一个子区间段。
如图2所示，第一IP地址的区间段为0.0.0.0,0.0.0.100，0.0.0.101,0.0.0.255，其映射到IP数据轴上得到四个端点，分别为0.0.0.0，0.0.0.100，0.0.0.101和0.0.0.255。第二IP地址的区间段映射到IP数据轴上同样得到四个端点：0.0.0.0，0.0.0.150，0.0.0.151，0.0.0.255，如图2的IP数据轴上具有六个端点，相邻两个端点构成一个子区间段，那么六个端点构成3个子区间段，也就是图2中子区间段①、子区间段②和子区间段③。
优选地，第二确定模块还用于用半开半闭区间表示子区间，其中，半开半闭区间为左开右闭区间，或者半开半闭区间为左闭右开区间。
为了便于对比两个相同区间段的IP地址数据，按照图2所示的方式将IP地址区间段进行拆分，使得拆分后得到的子区间段之间没有重叠。表示一个区间段通常采用全闭区间的表示，但是这种方式容易导致数据重复，为了避免数据重复，则采用半开半闭区间。
例如，数据源A的区间是[1,10]、[11,20]，数据源B的区间段是[1,9],[10,20]，按照图2所示的拆分方法，得到的端点为1，9，10，11，20。拆分得到的区间段为[1,9]，[9,10]，[10,11]，[11,20]，因为是全闭区间，所以可以看到其中端点9、10、11出现在多个区间中，导致数据重复。由于IP地址数据为离散数据，即使其考虑端点不重复，生成子区间段[1,9]，[10,11]，[12,20]仍然是不正确的，而正确的区间范围应该为[1,9]，[10,10]，[11,20]。
如果将区间段改为半开半闭区间，则上述例子将变为数据源A的区间为[1,11)，[11,21)，其中，中括号是闭区间，表示包含，而小括号表示开区间，表示不包含。相应的数据源B的区间则为[1,10)，[10,21)，合并后的IP数轴为1，10，11，21，拆分后的子区间段分别为[1,10)，[10,11)，[11,21)，可以看到，拆分后的子区间段全部属于原区间段内的子区间段，数据完整且没有数据重复。
需要说明的是，此时采用的半开半闭区间中，统一采用左开右闭区间或者左闭右开区间，以避免数据重复。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《IP地址数据的数据处理方法和装置.pdf》由会员分享，可在线阅读，更多相关《IP地址数据的数据处理方法和装置.pdf（17页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104202441A43申请公布日20141210CN104202441A21申请号201410459082622申请日20140910H04L29/1220060171申请人北京国双科技有限公司地址100086北京市海淀区双榆树小区知春路76号翠宫饭店8层A间72发明人饶峰云杨基彬74专利代理机构北京康信知识产权代理有限责任公司11240代理人李志刚吴贵明54发明名称IP地址数据的数据处理方法和装置57摘要本发明公开了一种IP地址数据的数据处理方法和装置。其中，该IP地址数据的数据处理方法包括获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据；将第一IP地址。

2、的区间段和第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；获取多个子区间段中每个子区间段对应的地理位置编码，其中，地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算由多个子区间段构成的区间段内的第一数值与第二数值的比值。通过本发明，解决了现有技术中无法分析不同的IP地理信息数据库中记录的IP地址信息的差异大小的问题，达到了计算不同数据库中的IP地址信息的差异大小的效果。51INTCL权利要求书3页说明书11页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书11页附图2页10申请公布号CN104202441ACN104202441A1/3页21。

3、一种IP地址数据的数据处理方法，其特征在于，包括获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算由所述多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和所述第二地理位置编码为不同。

4、的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。2根据权利要求1所述的数据处理方法，其特征在于，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法包括获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息；按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。3根据权利要求2所述的数据处理方法，其特征在于，按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二。

5、地理位置信息转换为所述第二地理位置编码包括获取国家级别、省份级别、城市级别和区县级别的编码；依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；查找地理位置编码与地理位置信息的映射关系；以及按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置信息映射为所述第二地理位置编码。4根据权利要求3所述的数据处理方法，其特征在于，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法还包括在所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区。

6、间段；将相同级别中属于所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。5根据权利要求1所述的数据处理方法，其特征在于，将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段包括将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；将所述第二IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及权利要求书CN104202441A2/3页3依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间。

7、段中的一个子区间段。6一种IP地址数据的数据处理装置，其特征在于，包括第一获取单元，用于获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；映射单元，用于将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；第二获取单元，用于获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算单元，用于计算由所述多个子区间段构成的区间段内的第一数值与第二。

8、数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和所述第二地理位置编码为不同的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。7根据权利要求6所述的数据处理装置，其特征在于，所述数据处理装置包括第三获取单元，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息；转换单元，用于按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。8根据权利要求7所述的。

9、数据处理装置，其特征在于，所述转换单元包括第四获取模块，用于获取国家级别、省份级别、城市级别和区县级别的编码；组合模块，用于依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；第一查找模块，用于查找地理位置编码与地理位置信息的映射关系；以及映射模块，用于按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置信息映射为所述第二地理位置编码。9根据权利要求8所述的数据处理装置，其特征在于，所述数据处理装置还包括第二查找模块，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，在。

10、所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区间段；第一确定模块，用于将相同级别中属于所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。10根据权利要求6所述的数据处理装置，其特征在于，所述映射单元包括第一映射模块，用于将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；第二映射模块，用于将所述第二IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及权利要求书CN104202441A3/3页4第二确定模块，用。

11、于依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段。权利要求书CN104202441A1/11页5IP地址数据的数据处理方法和装置技术领域0001本发明涉及数据处理领域，具体而言，涉及一种IP地址数据的数据处理方法和装置。背景技术0002互联网行业飞速发展，根据IP地址对网络数据分析变得越来越重要，由于IP地址能够指示地理位置，因此，根据IP地址能够分析网络信息的来源的地理位置，例如，根据访问网页的访客的IP地址确定其来自哪个国家、省份、城市。0003目前，各大网站通过采集访客的IP地址建立IP地理信息数据库，但是IP地理信息数据库来源多样，格式不一。

12、，譬如国外有MAXMIND、IP2LOCATION等，国内有纯真、IPB、淘宝、百度、腾讯等，并且这些数据库随着时间不断更新。在进行网络数据分析时，利用不同的IP地理信息数据库得到的分析结果也有差异，并且无法得知根据哪个数据库得到的分析结果是准确的，也无法预期结果的差异大小。0004针对现有技术中无法分析不同的IP地理信息数据库中记录的IP地址信息的差异大小的问题，目前尚未提出有效的解决方案。发明内容0005本发明的主要目的在于提供一种IP地址数据的数据处理方法和装置，以解决无法分析不同的IP地理信息数据库中记录的IP地址信息的差异的问题。0006为了实现上述目的，根据本发明的一个方面，提供了。

13、一种IP地址数据的数据处理方法。根据本发明的IP地址数据的数据处理方法包括获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算由所述多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和。

14、所述第二地理位置编码为不同的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。0007进一步地，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法包括获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息；按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。0008进一步地，按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置。

15、编码包括说明书CN104202441A2/11页6获取国家级别、省份级别、城市级别和区县级别的编码；依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；查找地理位置编码与地理位置信息的映射关系；以及按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置信息映射为所述第二地理位置编码。0009进一步地，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，所述数据处理方法还包括在所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区间段；将相同级别中属于。

16、所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。0010进一步地，将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段包括将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；将所述第二IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段。0011进一步地，依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作。

17、为所述多个子区间段中的一个子区间段包括用半开半闭区间表示所述子区间，其中，所述半开半闭区间为左开右闭区间，或者所述半开半闭区间为左闭右开区间。0012为了实现上述目的，根据本发明的另一方面，提供了一种IP地址数据的数据处理装置。根据本发明的IP地址数据的数据处理装置包括第一获取单元，用于获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，所述第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，所述第二IP地址数据表示第二IP地址区间段和第二地理位置编码；映射单元，用于将所述第一IP地址的区间段和所述第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段；第二。

18、获取单元，用于获取所述多个子区间段中每个子区间段对应的地理位置编码，其中，所述地理位置编码包括第一地理位置编码和第二地理位置编码；以及计算单元，用于计算由所述多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，所述第一数值为对应的所述第一地理位置编码和所述第二地理位置编码为不同的地理位置编码的IP地址的个数，所述第二数值为由所述多个子区间段构成的区间段对应的IP地址的个数。0013进一步地，所述数据处理装置包括第三获取单元，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，获取所述第一IP地址数据中的第一地理位置信息和所述第二IP地址数据中的第二地理位置信息。

19、；转换单元，用于按照预定格式将所述第一地理位置信息转换为所述第一地理位置编码，并且按照所述预定格式将所述第二地理位置信息转换为所述第二地理位置编码。0014进一步地，所述转换单元包括第四获取模块，用于获取国家级别、省份级别、城市级别和区县级别的编码；组合模块，用于依次组合所述国家级别、所述省份级别、所述城市级别和所述区县级别的编码，将组合结果作为地理位置编码；第一查找模块，用于查找地理位置编码与地理位置信息的映射关系；以及映射模块，用于按照所述映射关系将所述第一地理位置信息映射为所述第一地理位置编码，并且按照所述映射关系将所述第二地理位置说明书CN104202441A3/11页7信息映射为所述。

20、第二地理位置编码。0015进一步地，所述数据处理装置还包括第二查找模块，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，在所述第一数据库和所述第二数据库中查找处于相同级别的所述地理位置编码对应的IP地址区间段；第一确定模块，用于将相同级别中属于所述第一数据库中的所述IP地址区间段作为所述第一IP地址的区间段，属于所述第二数据库中的所述IP地址区间段作为所述第二IP地址的区间段。0016进一步地，所述映射单元包括第一映射模块，用于将所述第一IP地址的区间段的起始点和结束点映射到所述IP地址数据轴上，得到两个第一端点；第二映射模块，用于将所述第二IP地址的区间段的起始。

21、点和结束点映射到所述IP地址数据轴上，得到两个第二端点；以及第二确定模块，用于依次将所述两个第一端点和所述两个第二端点中的相邻两个端点作为所述多个子区间段中的一个子区间段。0017进一步地，所述第二确定模块还用于用半开半闭区间表示所述子区间，其中，所述半开半闭区间为左开右闭区间，或者所述半开半闭区间为左闭右开区间。0018通过本发明，用IP地址区间段和地理位置编码表示IP地址数据，并将两个数据库中的IP地址数据映射在同一个IP地址数据轴上，将两个数据库中的IP地址数据映射为多个子区间段，通过比较多个子区间段中属于不同数据库的IP地址的个数与由多个子区间段组成的整个区间段的IP地址的个数的比值，。

22、判断两个数据库中的IP地址信息的差异率，解决了无法分析不同的IP地理信息数据库中记录的IP地址信息的差异大小的问题，进而达到了分析不同的IP地理信息数据库中记录的IP地址的差异大小的效果。附图说明0019构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中0020图1是根据本发明实施例的IP地址数据的数据处理方法的流程图；0021图2是根据本发明实施例的将IP地址映射到IP数据轴的示意图；以及0022图3是根据本发明实施例的IP地址数据的数据处理装置的示意图。具体实施方式0023需要说明的是，在不冲突的情况下，本。

23、申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。0024为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。0025需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这。

24、里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于说明书CN104202441A4/11页8覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。0026本发明实施例提供了一种IP地址数据的数据处理。

25、方法。0027图1是根据本发明实施例的IP地址数据的数据处理方法的流程图。如图所示，该IP地址数据的数据处理方法包括如下步骤0028步骤S102，获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，第二IP地址数据表示第二IP地址区间段和第二地理位置编码。0029第一数据库和第二数据库为进行对比的两个数据库，两个数据库中分别存储了一套IP地址数据，为了对比第一数据库和第二数据库中的IP地址数据的差异，分别从第一数据库中获取第一IP地址数据，从第二数据库中获取第二IP地址数据。例如以下数据均为虚构，不代表真实数据，。

26、第一IP地址数据为0000,000100,11564400000100,000101,000255,11564400000300，第二IP地址数据为0000,000150,11564400000100,000151,000255,11564400000300。其中，数据格式0000,000100,11564400000100表示0000000100区间段内包括端点的IP地址对应的地理信息编码为11564400000100，该编码对应的地理位置为广东省广州市。由第一IP地址数据和第二IP地址数据可知，第一IP地址的区间段和第二IP地址的区间段有交叉和重叠，本实施例就可以对比分析这两个不同的IP地。

27、址数据之间的差异大小。0030步骤S104，将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段。0031由于第一IP地址的区间段和第二IP地址的区间段有交叉和重叠的区间段，则将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，可以得到如图3所示的子区间段、子区间段和子区间段。0032步骤S106，获取多个子区间段中每个子区间段对应的地理位置编码，其中，地理位置编码包括第一地理位置编码和第二地理位置编码。0033如图2所示，子区间段是第一数据库中0000,000100,11564400000100区间段的子集，对应的第一地理位置编码同样为1156。

28、4400000100。同时，子区间段是第二数据库中0000,000150,11564400000100的子集，对应的第二地理位置编码则为11564400000100；同理，子区间段对应的第一地理位置编码为11564400000300，第二地理位置编码为11564400000100；子区间段对应的第一地理位置编码为11564400000300，第二地理位置编码为11564400000300。0034也就是说，在第一数据库和第二数据库中存在同一个IP地址的区间段对应两个不同的地理位置编码，这就是IP数据库的差异。0035步骤S108，计算由多个子区间段构成的区间段内的第一数值与第二数值的比值，其中。

29、，第一数值为同时对应第一地理位置编码和第二地理位置编码的IP地址的个数，第二数值为由多个子区间段构成的区间段对应的IP地址的个数。说明书CN104202441A5/11页90036计算第一数值和第二数值的比值，即计算IP数据库的差异大小。在上述示例中，子区间段和对应的第一地理位置编码和第二地理位置编码都相同，而子区间段对应的第一地理位置编码和第二地理位置编码不同。其中，子区间段、内IP地址数量分别为101、50、105，所以总数量为256，差异量为50，差异大小则为50/256。0037通过上述实施例，为了便于比较两个数据库中的IP地址数据的差异，可以首先将IP地址的区间段映射到IP地址数据轴。

30、上，将有交叉重叠的IP地址区间段映射为多个没有重叠的子区间段，并且通过查找子区间段所属区间段，确定其对应的地理位置编码。在此基础上，查找地理位置编码不同的区间段，统计这些区间段的IP地址数量，与整体IP数据库的IP地址数量做对比，得到IP数据库的差异比例。解决了现有技术中无法分析不同的IP地理信息数据库中记录的IP地址地理信息差异大小的问题。0038优选地，在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，数据处理方法包括获取第一IP地址数据中的第一地理位置信息和第二IP地址数据中的第二地理位置信息；按照预定格式将第一地理位置信息转换为第一地理位置编码，并且按照预定格式。

31、将第二地理位置信息转换为第二地理位置编码。0039由于不同的IP地址数据库中的存储的IP地址数据的格式不一样，就无法对不同的数据库中的IP地址数据进行比较，因此，需要首先将数据库中的IP地址的格式统一。IP地址数据包括IP地址的区间段和地理位置编码，为了便于地理位置信息的比较，将地理位置信息转换为地理位置编码。0040例如，第一地理位置信息为广东省广州市，将其转换为第一地理位置编码11564400000100；第二地理位置信息为广东省深圳市，第二地理位置编码为11564400000300。0041可选地，按照预定格式将第一地理位置信息转换为第一地理位置编码，并且按照预定格式将第二地理位置信息转。

32、换为第二地理位置编码包括获取国家级别、省份级别、城市级别和区县级别的编码；依次组合国家级别、省份级别、城市级别和区县级别的编码，将组合结果作为地理位置编码；查找地理位置编码与地理位置信息的映射关系；以及按照映射关系将第一地理位置信息映射为第一地理位置编码，并且按照映射关系将第二地理位置信息映射为第二地理位置编码。0042按照如下的方法获取国家级别、省份级别、城市级别和区县级别的编码0043对于国外数据，采用ISO标准。具体为0044国家级别采用ISO31661标准，编码采用其中三位数字编码，并在最高位补1，保证对齐。因为国家编码中前两位可能为0，譬如巴西国家编码为076，如果不在最高位补1，三。

33、位的编码076将变为两位的76，补1后则固定为四位1076，便于统一国家代码的格式以进行编码比较。0045省或州级别采用ISO31662标准，标准中编码为两位或三位英文字母，或者两位数字。我们将其转换为六位的数字编码每个英文字母按照其在字母表中的顺序转换为0126的数字，不足六位的则在前面补零。譬如美国华盛顿的编码为WA，转换为数字为2301，补零后为002301。0046国外不区分市、区县，全部在最后补四个零。举例美国华盛顿编码18400023010000，其中前四位1840为美国编码，接着六位002301表示华盛顿州，最后四个说明书CN104202441A6/11页10零代表不区分城市和区。

34、县。0047对于国内数据，采用国家统计局公布的最新县及县以上行政区划编码，以下参考国家标准GB/T2260中对行政区划编码的说明。0048国家编码同样采用ISO31661标准，编码为156，高位补1后变为1156。0049行政区划编码为六位数字，其中前两位代表省份包括自治区、直辖市、特别行政区、中间两位代表城市包括地区、自治州、盟、直辖市所属市辖区、省直辖县级行政单位汇总、最后两位代表区县包括自治县、县级市、旗、自治旗、市辖区、林区、特区。对于台湾、香港、澳门，ISO31661标准中将其作为国家级别，而在国家统计局的数据中将其归为特别行政区，我们采用国家统计局的标准，将其作为中国的省份级别，采。

35、用省份编码。将代表省份的前两位数字补零，变为六位数字，保证与国外省份编码格式一致。0050根据上述编码就能确定每个地区的编码。举例广东省深圳市福田区，中国国家编码为156，广东省编码为440000，深圳市编码为03，福田区代码为04，则按照上述映射关系可以确定广东省深圳市福田区的编码为11564400000304。也就是说，在获取地理位置信息之后，按照国家、省份、城市和区县与编码的映射关系可以确定每个地理位置信息对应的地理位置编码。0051在进行IP地址数据的对比时，可以采用逐级对比的方式。可以理解的是，当两个IP地址数据库中低级别的IP地址的地理信息相同时，则高一级别的IP地址的地理信息也相。

36、同；当两个IP地址数据库中高级别的IP地址的地理信息不相同时，则低级别的IP地址的地理信息也不相同；通过逐级比较两个IP地址数据库中的数据，可以逐级判断出两个IP地址数据的差异率，从而确定两个IP地址数据库的各个地理等级的差异。0052通过上述实施例，将地理位置信息转换为地理位置编码，实现了地理位置信息的标准化，编码的形式不仅便于电脑进行识别，还根据地理位置编码与地理位置的一一对应，以及不同数据中的相同的编码对应相同的地理位置的特性，便于确定进行对比的对象。从而能够精确对比出不同数据库中相同IP地址的地理位置的差异。另外，IP数据库中IP地址的区间段可能不断变化，但地理位置信息是不变的，转换成。

37、相应的地理位置编码所需的映射关系是相同的，也就是说，只需要一次性将地理位置信息转换为地理位置编码即可，不需要重复的工作。0053优选地，将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，得到多个子区间段包括将第一IP地址的区间段的起始点和结束点映射到IP地址数据轴上，得到两个第一端点；将第二IP地址的区间段的起始点和结束点映射到IP地址数据轴上，得到两个第二端点；以及依次将两个第一端点和两个第二端点中的相邻两个端点作为多个子区间段中的一个子区间段。0054如图2所示，第一IP地址的区间段为0000,000100，000101,000255，其映射到IP数据轴上得到四个端点，分。

38、别为0000，000100，000101和000255。第二IP地址的区间段映射到IP数据轴上同样得到四个端点0000，000150，000151，000255，如图2的IP数据轴上具有六个端点，相邻两个端点构成一个子区间段，那么六个端点构成3个子区间段，也就是图2中子区间段、子区间段和子区间段。0055优选地，依次将多个第一端点和多个第二端点中的相邻两个端点作为多个子区间说明书CN104202441A107/11页11段中的一个子区间段包括用半开半闭区间表示子区间，其中，半开半闭区间为左开右闭区间，或者半开半闭区间为左闭右开区间。0056为了便于对比两个相同区间段的IP地址数据，按照图2所示。

39、的方式将IP地址区间段进行拆分，使得拆分后得到的子区间段之间没有重叠。IP地址区间段通常采用全闭区间的表示，但是这种方式容易导致数据重复，为了避免数据重复，则采用半开半闭区间。0057例如，假设数据源A的区间是1,10、11,20，数据源B的区间段是1,9,10,20，按照图2所示的拆分方法，得到的端点为1，9，10，11，20。拆分得到的区间段为1,9，9,10，10,11，11,20，因为是全闭区间，所以可以看到其中端点9、10、11出现在多个区间中，导致数据重复。由于IP地址数据为离散数据，即使其考虑端点不重复，生成子区间段1,9，10,11，12,20，仍然是不正确的，而正确的区间范围。

40、应该为1,9，10,10，11,20。0058如果将区间段改为半开半闭区间，则上述例子将变为数据源A的区间为1,11，11,21，其中，中括号是闭区间，表示包含，而小括号表示开区间，表示不包含。相应的数据源B的区间则为1,10，10,21，合并后的IP数轴为1，10，11，21，拆分后的子区间段分别为1,10，10,11，11,21，可以看到，拆分后的子区间段全部属于原区间段内的子区间段，数据完整且没有数据重复。0059需要说明的是，此时采用的半开半闭区间中，统一采用左开右闭区间或者左闭右开区间，以避免数据重复。0060本发明实施例的IP地址数据的数据处理方法可以通过本发明实施例所提供的IP地。

41、址数据的数据处理装置来执行，本发明实施例的IP地址数据的数据处理装置也可以用于执行本发明实施例所提供的IP地址数据的数据处理方法。0061本发明实施例还提供了一种IP地址数据的数据处理装置。0062图3是根据本发明实施例的IP地址数据的数据处理装置的示意图。如图所示，该IP地址数据的数据处理装置包括第一获取单元10、映射单元20、第二获取单元30和计算单元40。0063第一获取单元10用于获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据，其中，第一IP地址数据表示第一IP地址的区间段和第一地理位置编码，第二IP地址数据表示第二IP地址区间段和第二地理位置编码。0064第一数据。

42、库和第二数据库为进行对比的两个数据库，两个数据库中分别存储了一套IP地址数据，为了对比第一数据库和第二数据库中的IP地址数据的差异，分别从第一数据库中获取第一IP地址数据，从第二数据库中获取第二IP地址数据。例如以下数据均为虚构，不代表真实数据，第一IP地址数据为0000,000100,11564400000100,000101,000255,11564400000300，第二IP地址数据为0000,000150,11564400000100,000151,000255,11564400000300。其中，数据格式0000,000100,11564400000100表示0000000100区间。

43、段内包括端点的IP地址对应的地理信息编码为11564400000100，该编码对应的地理位置为广东省广州市。由第一IP地址数据和第二IP地址数据可知，第一IP地址的区间段和第二IP地址的区间段有交叉和重叠，本实施例就可以对比分析这两个不同的IP地址数据之间的差异大小。0065映射单元20用于将第一IP地址的区间段和第二IP地址的区间段映射到IP地址说明书CN104202441A118/11页12数据轴上，得到多个子区间段。0066由于第一IP地址的区间段和第二IP地址的区间段有交叉和重叠的区间段，则将第一IP地址的区间段和第二IP地址的区间段映射到IP地址数据轴上，可以得到如图3所示的子区间段。

44、、子区间段和子区间段。0067第二获取单元30用于获取多个子区间段中每个子区间段对应的地理位置编码，其中，地理位置编码包括第一地理位置编码和第二地理位置编码。0068如图2所示，子区间段是第一数据库中0000,000100,11564400000100区间段的子集，对应的第一地理位置编码同样为11564400000100。同时，子区间段是第二数据库中0000,000150,11564400000100的子集，对应的第二地理位置编码则为11564400000100；同理，子区间段对应的第一地理位置编码为1564400000300，第二地理位置编码为11564400000100；子区间段对应的第一。

45、地理位置编码为11564400000300，第二地理位置编码为11564400000300。0069也就是说，在第一数据库和第二数据库中存在同一个IP地址的区间段对应两个不同的地理位置编码，这就是IP数据库的差异。0070计算单元40用于计算由多个子区间段构成的区间段内的第一数值与第二数值的比值，其中，第一数值为对应的第一地理位置编码和第二地理位置编码为不同的地理位置编码的IP地址的个数，第二数值为由多个子区间段构成的区间段对应的IP地址的个数。0071计算第一数值和第二数值的比值，即计算IP数据库的差异大小。在上述示例中，子区间段和对应的第一地理位置编码和第二地理位置编码都相同，而子区间段对。

46、应的第一地理位置编码和第二地理位置编码不同。其中，子区间段、内IP地址数量分别为101、50、105，所以总数量为256，差异量为50，差异大小则为50/256。0072通过上述实施例，为了便于比较两个数据库中的IP地址数据的差异，可以首先将IP地址的区间段映射到IP地址数据轴上，将有交叉重叠的IP地址区间段映射为多个没有重叠的子区间段，并且通过查找子区间段所属区间段，确定其对应的地理位置编码。在此基础上，查找地理位置编码不同的区间段，统计这些区间段的IP地址数量，与整体IP数据库的IP地址数量做对比，得到IP数据库的差异比例。解决了现有技术中无法分析不同的IP地理信息数据库中记录的IP地址地。

47、理信息差异大小的问题。0073优选地，数据处理装置包括第三获取单元，用于在获取第一数据库中的第一IP地址数据和第二数据库中的第二IP地址数据之前，获取第一IP地址数据中的第一地理位置信息和第二IP地址数据中的第二地理位置信息；转换单元，用于按照预定格式将第一地理位置信息转换为第一地理位置编码，并且按照预定格式将第二地理位置信息转换为第二地理位置编码。0074由于不同的IP地址数据库中的存储的IP地址数据的格式不一样，就无法对不同的数据库中的IP地址数据进行比较，因此，需要首先将数据库中的IP地址的格式统一。IP地址数据包括IP地址的区间段和地理位置编码，为了便于地理位置信息的比较，将地理位置信。

48、息转换为地理位置编码。0075例如，第一地理位置信息为广东省广州市，将其转换为第一地理位置编码11564400000100；第二地理位置信息为广东省深圳市，第二地理位置编码为11564400000300。说明书CN104202441A129/11页130076可选地，转换单元包括第四获取模块，用于获取国家级别、省份级别、城市级别和区县级别的编码；组合模块，用于依次组合国家级别、省份级别、城市级别和区县级别的编码，将组合结果作为地理位置编码；第一查找模块，用于查找地理位置编码与地理位置信息的映射关系；以及映射模块，用于按照映射关系将第一地理位置信息映射为第一地理位置编码，并且按照映射关系将第二地。

49、理位置信息映射为第二地理位置编码。0077按照如下的方法获取国家级别、身份级别、城市级别和区县级别的编码0078对于国外数据，采用ISO标准。具体为0079国家级别采用ISO31661标准，编码采用其中三位数字编码，并在最高位补1，保证对齐。因为国家编码中前两位可能为0，譬如中国国家编码为156，如果不在最高位补1，三位的编码156将变为两位的，补1后则固定为四位1156，便于统一国家代码的格式已进行编码比较。0080省或州级别采用ISO31662标准，标准中编码为两位或三位英文字母，或者两位数字。我们将其转换为六位的数字编码每个英文字母按照其在字母表中的顺序转换为0126的数字，不足六位的则在前面补零。譬如美国华盛顿的编码为WA，转换为数字为2301，补零后为002301。0081国外不区分市、区县，全部在最后补四个零。举例美国华盛顿编码18400023010000，其中前四位1840为美国编码，接着六位002301表示华盛顿州，最后四个零代表不区分城市和区县。0082对于国内数据，采用国家统计局公布的最新县及县以上行政区划编码，以下参考国家标准GB/T2260中对行政区划编码的说明。0083国家编码同样采用ISO31661标准，编码为156，高位补1后变为1156。0084行政区划编码为六位数字，其中前两位代表。

展开阅读全文