一种基于移动终端的人员流动性分析方法及装置.pdf

上传人:小** 文档编号:1307195 上传时间:2018-04-14 格式:PDF 页数:12 大小:753.85KB
返回 下载 相关 举报
摘要
申请专利号:

CN201611122229.8

申请日:

2016.12.08

公开号:

CN106649636A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161208|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京锐安科技有限公司

发明人:

张祖兴

地址:

100044 北京市海淀区西小口路66号中关村东升科技园北领地B-2号楼七层

优先权:

专利代理机构:

北京品源专利代理有限公司 11332

代理人:

胡彬;邓猛烈

PDF下载: PDF下载
内容摘要

本发明实施例公开了一种基于移动终端的人员流动性分析方法及装置。该方法包括:根据预设采集规则实时对移动终端中的网络数据进行采集,对采集数据进行预处理得到预处理信息,所述预处理信息至少包括位置信息、用户标识和采集时间;按照预设打标规则对所述预处理信息进行打标,经分组后将每一分组中最具代表性的预处理信息确定为关键信息;将所述关键信息按照预设形式显示在地理信息系统中,所述预设形式包括图表和/或文字。本发明实施例可自动更新人员流动状态,提高人员流动性分析的效率。

权利要求书

1.一种基于移动终端的人员流动性分析方法,其特征在于,包括:
根据预设采集规则实时对移动终端中的网络数据进行采集,对采集数据进行预处理得
到预处理信息,所述预处理信息至少包括位置信息、用户标识和采集时间;
按照预设打标规则对所述预处理信息进行打标,经分组后将每一分组中最具代表性的
预处理信息确定为关键信息;
将所述关键信息按照预设形式显示在地理信息系统中,所述预设形式包括图表和/或
文字。
2.根据权利要求1所述的基于移动终端的人员流动性分析方法,其特征在于,所述预处
理信息还包括用户身份信息、年龄信息和采集地信息中的至少一种;
所述用户标识为用户手机号。
3.根据权利要求1或2所述的基于移动终端的人员流动性分析方法,其特征在于,所述
对采集数据进行预处理得到预处理信息包括:
对采集数据进行数据关联、清洗重复数据,并转化为预设格式的预处理信息;
将预处理信息经分布式消息系统缓存后落地到分布式文件系统中保存。
4.根据权利要求2所述的基于移动终端的人员流动性分析方法,其特征在于,所述按照
预设打标规则对所述预处理信息进行打标,经分组后将每一分组中最具代表性的预处理信
息确定为关键信息包括:
根据采集时间对预处理信息的每条数据进行打标;
根据打标后的时段标记和用户标识对预处理信息进行分组,并将分组后的每条数据以
key-Value格式存储,所述key集合中的数据包括用户标识和时段标记,所述Value集合中的
数据包括用户标识、时段标记、位置信息、用户身份信息、年龄信息以及采集地信息中的至
少一种;
根据采集时间对所有Value集合进行排序,并将每一分组中预设时间的Value集合确定
为关键信息。
5.根据权利要求2所述的基于移动终端的人员流动性分析方法,其特征在于,所述将所
述关键信息按照预设形式显示在地理信息系统中包括:
根据预设筛选条件筛选特定用户群体对应的关键信息,所述预设筛选条件包括指定年
龄段、指定地市、指定手机号归属地、指定采集地信息中的任意一种或者其组合;
将筛选后的关键信息中的位置信息按照预设形式显示在地理信息系统中。
6.一种基于移动终端的人员流动性分析装置,其特征在于,包括:
采集预处理模块,用于根据预设采集规则实时对移动终端中的网络数据进行采集,对
采集数据进行预处理得到预处理信息,所述预处理信息至少包括位置信息、用户标识和采
集时间;
打标分组模块,用于按照预设打标规则对所述预处理信息进行打标,经分组后将每一
分组中最具代表性的预处理信息确定为关键信息;
显示模块,用于将所述关键信息按照预设形式显示在地理信息系统中,所述预设形式
包括图表和/或文字。
7.根据权利要求6所述的基于移动终端的人员流动性分析装置,其特征在于,所述预处
理信息还包括用户身份信息、年龄信息和采集地信息中的至少一种;
所述用户标识为用户手机号。
8.根据权利要求6或7所述的基于移动终端的人员流动性分析装置,其特征在于,所述
对采集数据进行预处理得到预处理信息包括:
对采集数据进行数据关联、清洗重复数据,并转化为预设格式的预处理信息;
将预处理信息经分布式消息系统缓存后落地到分布式文件系统中保存。
9.根据权利要求7所述的基于移动终端的人员流动性分析装置,其特征在于,所述打标
分组模块包括:
打标单元,用于根据采集时间对预处理信息的每条数据进行打标;
分组单元,用于根据打标后的时段标记和用户标识对预处理信息进行分组,并将分组
后的每条数据以key-Value格式存储,所述key集合中的数据包括用户标识和时段标记,所
述Value集合中的数据包括用户标识、时段标记、位置信息、用户身份信息、年龄信息以及采
集地信息中的至少一种;
排序单元,用于根据采集时间对所有Value集合进行排序,并将每一分组中预设时间的
Value集合确定为关键信息。
10.根据权利要求7所述的基于移动终端的人员流动性分析装置,其特征在于,所述显
示模块包括:
筛选单元,用于根据预设筛选条件筛选特定用户群体对应的关键信息,所述预设筛选
条件包括指定年龄段、指定地市、指定手机号归属地、指定采集地信息中的任意一种或者其
组合;
显示单元,用于将筛选后的关键信息中的位置信息按照预设形式显示在地理信息系统
中。

说明书

一种基于移动终端的人员流动性分析方法及装置

技术领域

本发明实施例涉及数据分析技术,尤其涉及一种基于移动终端的人员流动性分析
方法及装置。

背景技术

人员流动和统计对区域人口分析具有重要作用。

目前的人员流动性分析还停留在人工统计阶段,即主要还是由人工采集数据和分
析,这样在前期采集数据的时候不仅耗费了较多时间,也使得整个过程分析效率大大降低。

有鉴于此,特提出本发明。

发明内容

本发明实施例提供一种基于移动终端的人员流动性分析方法及装置,以实现提高
人员流动性分析效率的目的。

第一方面,本发明实施例提供了一种基于移动终端的人员流动性分析方法,包括:

根据预设采集规则实时对移动终端中的网络数据进行采集,对采集数据进行预处
理得到预处理信息,所述预处理信息至少包括位置信息、用户标识和采集时间;

按照预设打标规则对所述预处理信息进行打标,经分组后将每一分组中最具代表
性的预处理信息确定为关键信息;

将所述关键信息按照预设形式显示在地理信息系统中,所述预设形式包括图表
和/或文字。

第二方面,本发明实施例还提供了一种基于移动终端的人员流动性分析装置,包
括:

采集预处理模块,用于根据预设采集规则实时对移动终端中的网络数据进行采
集,对采集数据进行预处理得到预处理信息,所述预处理信息至少包括位置信息、用户标识
和采集时间;

打标分组模块,用于按照预设打标规则对所述预处理信息进行打标,经分组后将
每一分组中最具代表性的预处理信息确定为关键信息;

显示模块,用于将所述关键信息按照预设形式显示在地理信息系统中,所述预设
形式包括图表和/或文字。

本发明实施例通过根据预设采集规则实时对移动终端中的网络数据进行采集,对
采集数据进行预处理得到预处理信息,并按照预设打标规则对预处理信息进行打标,经分
组后将每一分组中最具代表性的预处理信息确定为关键信息,最后将关键信息按照预设形
式显示在地理信息系统中,其中,关键信息中包含了相应的位置信息、用户标识以及采集时
间,即代表了每一用户的实时位置,将关键信息转化为相应的图表和/或文字形式并展示在
地理信息系统中,即可直观地显示特定区域里大量用户的实时位置,由此可实现自动更新
人员流动状态,提高人员流动性分析的效率。

附图说明

图1为本发明实施例一提供的一种基于移动终端的人员流动性分析方法的流程
图;

图2为本发明实施例二提供的一种基于移动终端的人员流动性分析方法的流程
图;

图3为本发明实施例三提供的一种基于移动终端的人员流动性分析装置的结构示
意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描
述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便
于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种基于移动终端的人员流动性分析方法的流程
图,本实施例可适用于自动进行人员流动性分析的情况,该方法可以由基于移动终端的人
员流动性分析装置来执行,该装置可通过硬件和/或软件的方式实现。参考图1,本实施例提
供的基于移动终端的人员流动性分析方法具体包括:

S101、根据预设采集规则实时对移动终端中的网络数据进行采集,对采集数据进
行预处理得到预处理信息。

其中,所述预处理信息至少包括位置信息、用户标识和采集时间。位置信息可以是
用户的GPS坐标,用户标识可以是手机号。

其中,可以利用数据采集设备实时对移动终端中的网络数据进行采集,数据采集
设备可以是移动终端中具有一定采集权限的应用软件,也可以是网络爬虫,用户只要使用
移动终端就会产生一系列数据时,数据采集设备根据预设采集规则就可以时时采集想要的
数据。示例性的,当用户注册网站时可以采集到用户的身份信息,如身份证号、年龄、性别
等,当用户购物时可以采集到用户的地址信息,当用户查看通讯录时可以采集到用户的通
讯里信息,当用户使用地图时可以采集到用户的位置信息。采集到的数据可以生成制表符
文本文件再进行预处理。其中,制表符(也叫制表位)的功能是在不使用表格的情况下在垂
直方向按列对齐文本。

其中,预设采集规则可以是用于采集特定数据的正则表达式,例如可以是采集用
户位置的正则表达式、采集用户手机号的正则表达式等。由于根据正则表达式采集到的数
据仍有一些是无效数据,因此还需要对采集的数据进行垃圾过滤、数据清洗以及格式转换
等操作来提炼出有效数据。

S102、按照预设打标规则对所述预处理信息进行打标,经分组后将每一分组中最
具代表性的预处理信息确定为关键信息。

其中,对预处理信息进行打标可以更好地标记数据,便于后续数据处理过程更好
地查找对应数据,优选可以根据采集时间对预处理信息进行打标,并未打标后的数据添加
标记时段。

其中,虽然数据经过预处理后已经去除了大部分的无效数据,但是由于采集是实
时进行的,留下的有效数据量仍旧很大,因此可将数据按照用户标识和打标标记(如标记时
段)对数据进行分组,并根据一定筛选规则筛选出该分组中的关键信息,关键信息可以是该
分组中最具代表性的预处理信息。

S103、将所述关键信息按照预设形式显示在地理信息系统中。

其中,所述预设形式包括图表和/或文字。

其中,地理信息系统(Geographic Information System,GIS)是一种特定的十分
重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大
气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系
统。

本实施例的技术方案,通过根据预设采集规则实时对移动终端中的网络数据进行
采集,对采集数据进行预处理得到预处理信息,并按照预设打标规则对预处理信息进行打
标,经分组后将每一分组中最具代表性的预处理信息确定为关键信息,最后将关键信息按
照预设形式显示在地理信息系统中,其中,关键信息中包含了相应的位置信息、用户标识以
及采集时间,即代表了每一用户的实时位置,将关键信息转化为相应的图表和/或文字形式
并展示在地理信息系统中,即可直观地显示特定区域里大量用户的实时位置,由此可实现
自动更新人员流动状态,提高人员流动性分析的效率。

在上述技术方案的基础上,所述预处理信息优选还可以包括用户身份信息、年龄
信息和采集地信息中的至少一种;所述用户标识为用户手机号。

其中,用户身份信息可以是身份证号、家庭地址、姓名、昵称、邮箱、社交账号等数
据,采集地信息可以是采集地的地市代码。

实施例二

图2为本发明实施例二提供的一种基于移动终端的人员流动性分析方法的流程
图,本实施例在上述实施例一的基础上,优选是对操作S101、S102以及S103进一步优化,参
考图2,具体方法如下:

S201、根据预设采集规则实时对移动终端中的网络数据进行采集。

S202、对采集数据进行数据关联、清洗重复数据,并转化为预设格式的预处理信
息。

其中,可以由预处理集群对采集到的数据进行关联、清洗重复数据并进行格式转
换。

具体地,关联是指将含有相同内容的两条或者两条以上的数据关联在一起形成新
的数据,示例性的,数据1含有手机号1、身份证号和姓名,数据2含有手机号1、地址信息和年
龄,两条数据都含有手机号1,则可将两条数据关联在一起,形成数据3,该数据3含有手机号
1、身份证号、姓名、地址信息和年龄。

具体地,清洗重复数据是将该数据与以前存储的数据相比对,清洗掉重复数据。

具体地,格式转换是将数据进行统一转换,并对采集的数据补全信息,如采集到的
位置信息是一个经纬度坐标,则将该经纬度坐标所在地名也补充到数据中,然后将处理后
的数据转化为预设格式的预处理信息。其中,预设格式可以是protobuf格式,protobuf即
protocol buffers,是google的一种数据交换的格式,它独立于语言,独立于平台。google
提供了多种语言的实现:java、c#、c++、go和python,每一种实现都包含了相应语言的编译
器以及库文件,由于它是一种二进制的格式,比使用xml进行数据交换快许多,可以把它用
于分布式应用之间的数据通信或者异构环境下的数据交换,作为一种效率和兼容性都很优
秀的二进制数据传输格式,可以用于诸如网络传输、配置文件、数据存储等诸多领域。

S203、将预处理信息经分布式消息系统缓存后落地到分布式文件系统中保存。

其中,分布式消息系可以是kafka,Kafka是一个高性能、分布式的消息系统,广泛
用于日志收集、流式数据处理、在线和离线消息分发等场景。相比传统的ActiveMQ,Kafka并
行能力和吞吐量更高。由于数据采集设备在不同时段采集的数据量不同,因此存在这样的
情况:某一时段得到的预处理信息非常少,某一时段得到的预处理信息又急速暴增,如果没
有kafka来缓存,则很容易发生系统崩溃的状况,因此kafka主要起到均衡负载的作用。

其中,分布式文件系统可以是HDFS(Hadoop Distributed File System),HDFS是
Hadoop体系的分布式存储文件系统,非常适合存储处理超大文件,超大文件通常是指百MB、
设置数百TB大小的文件,目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。HDFS
的设计建立在更多地响应"一次写入、多次读写"任务的基础上,这意味着一个数据集一旦
由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务
请求。

进一步,由于HDFS对数据存储格式有一定要求,通常是将数据列化,并以parquet
格式落地到HDFS中。其中,parquet是面向分析型业务的列式存储格式,可以跳过不符合条
件的数据,只读取需要的数据,降低IO数据量,压缩编码以降低磁盘存储空间。由于同一列
的数据类型是一样的,还可以使用更高效的压缩编码(例如Run Length Encoding和Delta
Encoding)进一步节约存储空,只读取需要的列,支持向量运算,能够获取更好的扫描性能,
同时可以跟后续的spark sql(是一个用来处理结构化数据的spark组件)无缝结合。

进一步,对落地到HDFS中的预处理信息可以按照日期区分目录,以便后续进行每
日/时数据预分析调用,同时还可根据采集时间和用户标识等关键字段建立索引,以备后续
实时查询数据做准备。

S204、根据采集时间对预处理信息的每条数据进行打标。

具体地,对于存储在HDFS中的预处理信息,可使用spark sql按照日期目录解析该
日期目录下落地的Parquet文件,并将解析后的数据转化为RDD(Resilient Distributed
Datasets,弹性分布式数据集)。其中,RDD是分布式内存的一个抽象概念,RDD提供了一种高
度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的
转换操作而创建,然而这些限制使得实现容错的开销很低。对开发者而言,RDD可以看作是
Spark的一个对象,它本身运行于内存中,而内存中读写运算最高可达磁盘读写运算的100
倍。因此,将Parquet文件转化为RDD可以提高spark系统对数据的处理速度。

进一步,遍历内存中的RDD,并对RDD打标。优选打标规则是根据采集时间进行打
标。示例性的,假设HDFS中的预处理信息是以每天的日期区分目录,则打标规则可以是24小
时为周期,根据采集时间,凌晨零点记为1,每隔10分钟打标值+1,用来标记每条记录在每天
属于哪个时段,并将打标后的时段标记添加到该条数据中,内存中的RDD和原始HDFS中存储
的数据都相应添加时段标记。经过24小时后,再将第二天采集时间为凌晨零点的数据记为
1,每隔10分钟打标值+1,以此类推。

S205、根据打标后的时段标记和用户标识对预处理信息进行分组,并将分组后的
每条数据以key-Value格式存储。

其中,所述key集合中的数据包括用户标识和时段标记,所述Value集合中的数据
包括用户标识、时段标记、位置信息、用户身份信息、年龄信息以及采集地信息中的至少一
种。

具体地,可以使用RDD中groupby操作根据用户标识(如手机号)和时段标记进行分
组,即相同手机号在某一时段中的数据为一组,分组后成为Key-Value格式数据,其中用户
标识为手机号,位置信息为经纬度,则Key-Value具体为((手机号,时段标记),(手机号,时
段标记,经维度,地市代码,用户身份信息,采集时间)),分组数据便于进行数据统计、合并
以及比对等操作,分组后RDD继续置于内存中。

S206、根据采集时间对所有Value集合进行排序,并将每一分组中预设时间的
Value集合确定为关键信息。

具体地,可以按照采集时间对分组RDD中的Value集合进行排序,如此每一分组RDD
中的数据均为按照时间排列的有序数据。进一步,可将每一分组中特定位置的Value集合,
即预设时间段的Value集合确定为关键信息。示例性的,针对某一分组中存储的信息为手机
号1在12:00至12:10分的所有数据,每条数据按照采集时间顺序有序排列,一般认为每组数
据中最中间的数据精确度最高,最具有代表性,则将该组数据中最中间的数据即12:05分的
Value集合确定为关键信息。

进一步,如果后续数据处理操作需要根据手机号码归属地来展示相应人员流动情
况,则还需与手机号码归属地进行关联操作。具体地,将内存中的RDD跟手机号码归属地库
进行join操作,标识每条记录的手机归属地,并转化为新的RDD保存到内存和原HDFS中,新
RDD数据格式可以为(手机号,时段标记,经维度,地市代码,用户身份信息,采集时间,手机
归属地),如此可生成海量数据每日高频(10分钟)行踪记录。

S207、根据预设筛选条件筛选特定用户群体对应的关键信息。

其中,所述预设筛选条件包括指定年龄段、指定地市、指定手机号归属地、指定采
集地信息中的任意一种或者其组合。

具体地,可以使用spark sql根据预设筛选条件筛选出特定用户群体每隔N分钟的
关键信息。示例性的,使用spark sql获取指定地市所有用户每隔N分钟的关键信息;使用
spark sql获取指定地市且指定漫游地的所有用户每隔N分钟的关键信息;使用spark sql
获取指定地市且年龄在预设年龄段内的所有用户每隔N分钟的关键信息。

S208、将筛选后的关键信息中的位置信息按照预设形式显示在地理信息系统中。

具体地,将筛选后的关键信息中的经纬度以图表和/或文字的形式在GIS中呈现结
果。

实施例三

图3为本发明实施例三提供的一种基于移动终端的人员流动性分析装置的结构示
意图,本实施例可适用于自动进行人员流动性分析的情况,该装置可通过硬件和/或软件的
方式实现。参考图3,本实施例提供的基于移动终端的人员流动性分析装置具体包括:

采集预处理模块310,用于根据预设采集规则实时对移动终端中的网络数据进行
采集,对采集数据进行预处理得到预处理信息,所述预处理信息至少包括位置信息、用户标
识和采集时间;

打标分组模块320,用于按照预设打标规则对所述预处理信息进行打标,经分组后
将每一分组中最具代表性的预处理信息确定为关键信息;

显示模块330,用于将所述关键信息按照预设形式显示在地理信息系统中,所述预
设形式包括图表和/或文字。

本实施例中,所述预处理信息还可以包括用户身份信息、年龄信息和采集地信息
中的至少一种;

所述用户标识为用户手机号。

本实施例中,所述对采集数据进行预处理得到预处理信息可以包括:

对采集数据进行数据关联、清洗重复数据,并转化为预设格式的预处理信息;

将预处理信息经分布式消息系统缓存后落地到分布式文件系统中保存。

本实施例中,所述打标分组模块可以包括:

打标单元,用于根据采集时间对预处理信息的每条数据进行打标;

分组单元,用于根据打标后的时段标记和用户标识对预处理信息进行分组,并将
分组后的每条数据以key-Value格式存储,所述key集合中的数据包括用户标识和时段标
记,所述Value集合中的数据包括用户标识、时段标记、位置信息、用户身份信息、年龄信息
以及采集地信息中的至少一种;

排序单元,用于根据采集时间对所有Value集合进行排序,并将每一分组中预设时
间的Value集合确定为关键信息。

本实施例中,所述显示模块可以包括:

筛选单元,用于根据预设筛选条件筛选特定用户群体对应的关键信息,所述预设
筛选条件包括指定年龄段、指定地市、指定手机号归属地、指定采集地信息中的任意一种或
者其组合;

显示单元,用于将筛选后的关键信息中的位置信息按照预设形式显示在地理信息
系统中。

本实施例提供的基于移动终端的人员流动性分析装置,与本发明任意实施例所提
供的基于移动终端的人员流动性分析方法属于同一发明构思,可执行本发明任意实施例所
提供的基于移动终端的人员流动性分析方法,具备执行方法相应的功能模块和有益效果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,
本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、
重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行
了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还
可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

一种基于移动终端的人员流动性分析方法及装置.pdf_第1页
第1页 / 共12页
一种基于移动终端的人员流动性分析方法及装置.pdf_第2页
第2页 / 共12页
一种基于移动终端的人员流动性分析方法及装置.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《一种基于移动终端的人员流动性分析方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种基于移动终端的人员流动性分析方法及装置.pdf(12页珍藏版)》请在专利查询网上搜索。

本发明实施例公开了一种基于移动终端的人员流动性分析方法及装置。该方法包括:根据预设采集规则实时对移动终端中的网络数据进行采集,对采集数据进行预处理得到预处理信息,所述预处理信息至少包括位置信息、用户标识和采集时间;按照预设打标规则对所述预处理信息进行打标,经分组后将每一分组中最具代表性的预处理信息确定为关键信息;将所述关键信息按照预设形式显示在地理信息系统中,所述预设形式包括图表和/或文字。本发明。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1