基于手机位置时空转移概率的基站服务人数时序预测方法技术领域
本发明属于人口预测技术领域,涉及一种区域动态人口数量的预测方法,具体涉
及一种基于手机位置时空转移概率的基站服务人数时序预测方法。
技术背景
比较在大范围开放区域人口预测方面的两种传统方法,都是基于时间序列相关理
论演化而来的,第一种方法是移动平均法,另一种是ARIMA方法。前者根据时间序列,逐项推
移,依次计算包含一定项数的序时平均数,以此进行预测的方法,但是移动平均法没有考虑
空间因素对人群移动行为的影响,此外突发事件也会对预测结果产生比较大的影响;第二
种方法,是基于ARIMA模型,对人口数量进行预测,但是该方法中的一个前提假设是研究范
围内的人口总数保持稳定,而实际上城市内人口流动性较大,无法保证研究区域的人数处
于相对稳定的状态,因此这种方法也难以对区域内不同时间段内的人群数量进行准确的预
测。
发明内容
为了解决上述技术问题,本发明考虑人群移动特点,结合贝叶斯定理和马尔科夫
链的特征,提出了一种针对手机基站服务范围内手机用户人数的预测方法。
本发明所采用的技术方案是:一种基于手机位置时空转移概率的基站服务人数时
序预测方法,其特征在于,包括以下步骤:
步骤1:利用手机时空轨迹数据计算相等时间段内手机基站服务区域内的人数总
量;
步骤2:利用手机时空轨迹数据,将人群移动轨迹进行分割,计算研究区域中,计算
相邻时间段内各个基站之间来往的人数;
步骤3:基于贝叶斯以及马尔科夫链的相关理论,根据历史数据,计算当前时刻目
标基站内手机用户在下一时刻内出现在各个基站的转移概率;
步骤4:计算不同时间段间,每个目标基站范围内手机用户向各个基站的转移概
率,从而构建出研究区域内完整的时空转移概率矩阵;
步骤5:利用完整的时空转移概率矩阵,预测人群总数相对稳定的研究区域内手机
基站范围内服务人数。
本发明根据当前时段每个手机基站范围内用户数量预测下一时段各个基站的服
务范围内手机用户数量。该方法为城市内通讯资源的配置、人群移动预测预警提供了一种
更加准确有效的解决方案。与传统的区域内人数预测方法相比,该方法具有两大突出优势:
考虑区域间人群流动的时空特性;考虑研究区域内手机用户数的动态变化。为了使预测结
果更加贴近实际情况,提升预测的准确程度和稳定性,在马尔科夫链以及贝叶斯定理的理
论支撑下,方法尝试充分利用海量手机用户位置数据,结合贝叶斯定理和马尔科夫链的无
后效性,从群体角度提出一种的基于手机位置时空转移概率的基站服务人数预测方法。为
解决原始模型中有关研究区域内人口总数保持稳定的条件与城市人口总数动态变化不相
符合的实际情况,方法结合历史数据,利用当前时段各个基站范围内用户总数对下一时段
人口总数进行预测,并对变化的用户数进行动态分配,从而优化原有的预测方法。因此,本
发明具有如下优点:数据获取成本较低,模型结构简单,预测准确率能够达到95%以上,在
实际的生产生活中有很强的使用价值。
附图说明
附图1:是本发明实施例的完整流程。
附图2:是本发明实施例所涉及到区域人群预测方法与移动平均法和Castro方法
在准确率方面的比较。
附图3:是本发明实施例所涉及到的方法与其他2种方法准确率的分布情况。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发
明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不
用于限定本发明。
请见图1,本发明提供的一种基于手机位置时空转移概率的基站服务人数时序预
测方法,包括以下步骤:
步骤1:利用手机时空轨迹数据计算相等时间段内手机基站服务区域内的人数总
量;
步骤2:利用手机时空轨迹数据,将人群移动轨迹进行分割,计算研究区域中,计算
相邻时间段内各个基站之间来往的人数;
步骤3:基于贝叶斯以及马尔科夫链的相关理论,根据历史数据,计算当前时刻目
标基站内手机用户在下一时刻内出现在各个基站的转移概率;
步骤4:计算不同时间段间,每个目标基站范围内手机用户向各个基站的转移概
率,从而构建出研究区域内完整的时空转移概率矩阵;
步骤5:利用完整的时空转移概率矩阵,预测人群总数相对稳定的研究区域内手机
基站范围内服务人数。
本实施例中基站服务人数的时序预测将贝叶斯理论和马尔可夫链的无后效性结
合起来,计算了基站间的时空转移概率。运用贝叶斯理论从历史手机轨迹数据中获得当前
状态为li,下一时段位置为lj的时空转移概率假设城市区域总人数基本保持不变,按照
一定的时间间隔划分时段,统计各时段的基站服务人数,计算基站手机用户的时空转移概
率矩阵Pt,如公式(1)构建手机用户人数预测模型。用当前时段的各个基站服务人数和转移
概率矩阵Pt对下一时刻的各基站服务人数N_predictt+1进行预测。
N_predictt+1=Pt×Nt (1)
其中:Pt为时段t的转移概率矩阵,并且满足
Nt为t时段各基站区域的用户人数。
现实中由于存在城市间的人口流动、手机开关机,区域手机用户人数不断变化。针
对模型的假设,本发明利用历史数据对原始预测模型进行改进,以提升在人数变化幅度较
大的时间段内的预测准确率。从预测模型与实际情况的差异看,引起预测结果发生偏差的
主要原因是研究区域内总体人数的变化。因此,本发明主要针对相邻时间段的基站服务人
数波动,利用训练数据对原始模型进行改进,主要有以下两个改进点:
(1)利用训练数据,统计各时段基站服务人数,计算相邻时段基站服务人数的变化
值ΔNt→t+1。
利用历史数据,对模型进行训练。计算相邻时段的基站服务人数变化量ΔNt→t+1,
根据最大值和最小值平均分为n个状态区间[ai,bi],统计(具体到某
一天,t时段到t+1时段基站服务人数的变化量)在各个区间[ai,bi]的概率pi,按照公式(2)
对区间的均值进行加权平均得到ΔNt→t+1。
其中,
(2)改进转移概率矩阵,并用改进后的转移概率矩阵对ΔNt→t+1进行分配。
用(1)中相同的方法由实验训练数据的t时段和t+1时段的转移概率矩阵Pt,Pt+1计
算ΔPt→t+1,进行模型训练,得到更加贴近实际的转移概率矩阵Pt'。然后对时段t+1增加的人
数分配到各个基站,得到t+1时段各基站服务人数的预测值。
Pt'=Pt+ΔPt→t+1 (3)
N_predictt+1=Nt+ΔNt→t+1*Pt' (4)
本实施例根据湖北省某市2015年8月10日至2015年9月27日长达7周的手机用户的
手机位置更新数据,利用前30天的手机位置更新数据统计基站服务人数和基站间的流量信
息,对模型进行训练,对后面4天每个时段基站范围服务人口总数进行预测。
(1)对每天的手机轨迹数据,在数据库中查找各时段(如9点到9点59)轨迹数据中
的用户ID个数。
(2)逐个用户ID搜索时段内该用户的轨迹记录,按照TIME字段依次记录相邻轨迹
记录反映出的位置变动。
(3)对于同一用户同时段连续两条条及以上轨迹记录对应同一位置的情况,只保
留相邻记录中的第一条记录和最后一条记录。
(4)对该时段内所有用户的位置变动进行搜索,统计有相同位置变动的ID个数,记
为位置间流量。
(5)对每个位置,从某一时段的流量文件中,获取位置流向不同位置的流量
counti,j,计算基站i的总流出量
(6)按公式计算不同时段,人群在向各个位置的概率在手机基站位置文件中查找
流量文件中的对应的位置编号,确定转移概率对应的行列号,存入转移概率矩阵P。
上式中表示t时刻,由基站范围i向基站范围j的转移概率;表示由基站
范围i向基站范围j移动总人数。表示从i基站范围,向其他各个基站范围移动
总人数。
(7)利用工作日的数据计算相邻时段的基站服务人数变化量ΔNt→t+1,将其划分为
4个状态区间[ai,bi],统计在不同区间的概率作为马尔科夫链的转移概率pi,以pi为权,对
区间的均值进行加权平均得到ΔNt→t+1。
(8)用(7)中相同的方法由前10天的时段t和时段t+1的转移概率矩阵Pt,Pt+1计算
ΔPt→t+1,进行模型训练,得到更加贴近实际的转移概率矩阵Pt'。然后对时段t+1增加的人数
分配到各个基站,得到t+1时段各基站服务人数的预测值。
Pt'=Pt+ΔPt→t+1
N_predictt+1=Nt+ΔNt→t+1*Pt'
以下对本实施例的预测结果进行分析与比较;
为了方便评价不同基站服务人数预测的准确率,按照公式(10)利用预测准确度
Ri,t来评价不同时段各基站服务人数预测的准确性。
其中,Ni,t和依次表示时间段t基站i的服务人数的真实值和预测值。
每个时间段,所有的基站都会求得一个预测准确度。为了更好地评价每个时间段
基站服务人数预测的准确率,实验统计该城市所有基站的预测准确度R的平均值,中位数用
来评价方法的准确性,用四分位数之差(3Q-1Q)来评价模型的稳定性。
在这样的评价标准下,将本发明所涉及的时空转移概率方法与Castro的模型预测
以及基于时间序列的移动平均法三种方法进行基站服务人数预测准确率的对比。如图2所
示,本发明提出的时空转移概率方法对基站服务人数的预测准确率高于95%。
图3中图(a)(b)(c)表示三种方法对应的基站服务人数预测准确率的箱图,红色的
小圆表示异常值即与准确率与1Q距离超过1.5倍的四分位数之差(Q3-Q1)的基站。四分位数
之差(Q3-Q1)主要用于测度各种方法预测准确率的离散程度,如表1,本发明提出的时空转
移概率预测模型对不同基站的预测准确率的四分位数之差明显小于其他两种方法,说明本
发明的预测方法对不同基站服务人数的预测具有很好的稳定性和适用性。从箱图的主体部
分,时空转移概率方法可以覆盖93.1%的数据,Castro模型覆盖93.0%的数据,移动平均法
覆盖99.2%的数据。相对移动平均法来说,时空转移概率模型异常值相对较多,但是从异常
值的分布来看,时空转移概率模型的异常值集中在0.7-0.8之间,Castro的模型则集中在
0.6-0.75之间,移动平均法的异常值准确率低于50%。
如表1所示,对比3种方法预测准确率的平均数、中位数,不难发现实验发现本发明
提出的时空转移概率方法在一天的多个时段预测准确率都保持较高水平。平均预测准确率
达到95%。相较于Castro的模型,在人数波动较大的8点和19~21点时段,运用前6周工作日
手机数据进行训练之后,模型准确率大大提高。从时间序列角度出发的移动平均法整体上
的平均预测准确率只有79.79%,在不同时段准确率的波动较大,对于手机用户人数变化较
大的时段预测准确率很低。主要是由于移动平均法是一种常用的时间序列预测方法,该方
法受历史数据的影响很大,没有考虑结合基站之间的人群流动的时空特性,当基站服务人
数出现突增突减时,预测准确率明显降低。相比之下,本发明提出的时空转移概率预测模型
考虑时空特征,定量化描述人群移动,对基站服务人数进行更加准确的预测。
表1本发明所涉及到的方法与其他2种方法在均值、中值以及4分位数方面的比较
表
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本
发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权
利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发
明的请求保护范围应以所附权利要求为准。