城市道路行程时间噪声数据处理方法技术领域
本发明涉及一种城市道路行程时间噪声数据处理方法,服务于城市交通控制与管
理,属于智能交通研究领域。
背景技术
通过对城市道路行程时间进行科学合理的筛选,进而得到正常行程时间数据,可
以为城市交通管控提供坚实基础,也可为交通参与者提供动态决策依据,从而诱导城市交
通良性发展。
目前对城市道路行程时间的研究主要集中在行程时间预测以及行程时间分布规
律两方面,得到的研究成果都无法直接应用于城市交通管理和控制。而对行程时间噪声数
据的合理剔除,能得到精细化、精准化的行程时间数据,不仅可以用于行程时间预测等行程
时间特性的研究上,也可为研究交通流状态、出行等领域提供数据基础,进而服务于城市交
通管理和控制。在以往的行程时间噪声数据剔除中,研究者多采用三倍标准差法,但该方法
基于数据服从正态分布的假设。而在大多数情况下,行程时间分布并不满足正态条件,因此
三倍标准差法无法得到良好的剔除效果。随着视频检测器、浮动车、RFID等数据获取来源的
日益发展,海量城市道路行程时间数据的获取成为可能,对城市道路行程时间的科学研究
越发迫切,因此建立一个科学有效的城市道路行程时间噪声数据剔除方法尤为重要。
发明内容
本发明的目的在于提供一种城市道路行程时间噪声数据处理方法。该方法基于箱
型图的基本原理,结合城市道路行程时间特性,进而剔除由于驾驶员异常驾驶行为导致的
噪声数据。为实现上述目的,本发明提出的城市道路行程时间噪声数据处理方法包括计算
原始数据标准差、利用箱型图进行数据预处理、结合行程时间特性评估数据过度剔除概率
并更正常数据区间范围、结合行程时间特性评估噪声数据未被剔除概率并更新正常数据区
间范围四个步骤。
本方法的基本步骤如下:
c1、采集所需判别路段的时间窗内原始行程时间数据并计算其标准差。
c2、利用箱型图对所需判别路段的时间窗内原始行程时间数据进行数据预处理。
c3、结合行程时间特性评估数据过度剔除概率并更新正常数据区间范围。
c4、结合行程时间特性评估噪声数据未被剔除概率并更新正常数据区间范围。
c5、剔除行程时间噪声数据。
步骤c1计算时间窗内原始行程时间数据的标准差的过程包括:
c11、取所需判别路段l的时间窗为w分钟,则某一时段T内第k个时间窗内的行程时
间数据为[(k-1)w,kw]时段内检测到的行程时间数据,k=1,2,3,……,K。
c12、根据第k个时间窗内检测到的单车行程时间Tk,i,确定第k个时间窗内原始行
程时间数据的标准差σk:
式中,σk——l路段上第k个时间窗内检测到的所有车辆行程时间的标准差;
Tk,i——l路段上第k个时间窗内检测到的第i辆车的单车行程时间,其中i=1,2,
3,……,I;
——l路段上第k个时间窗内检测到的所有车辆行程时间的平均值;
I——l路段上第k个时间窗内检测到的所有车辆数。
步骤c2中利用箱型图进行数据预处理的过程包括:
c21、计算l路段上第k个时间窗内行程时间的下四分位数Qk,1,上四分位数Qk,3。
c22、计算l路段上第k个时间窗内行程时间的下边缘Qk,down,上边缘Qk,up:
Qk,down=Qk,1-1.5×(Qk,3-Qk,1)
Qk,up=Qk,3+1.5×(Qk,3-Qk,1)
式中,Qk,down——l路段上第k个时间窗内通过箱型图判定的行程时间的下边缘,小
于该值的行程时间为噪声数据;
Qk,up——l路段上第k个时间窗内通过箱型图判定的行程时间的上边缘,大于该值
的行程时间为噪声数据。
c23、提取l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的数据T
′k,i,计算数据标准差。
式中,σk′——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程
时间数据的标准差;
T′k,i——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程时间
数据,即T′k,i∈[Qk,down,Qk,up];
——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程时间
数据的平均值;
I′——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程时间数
据的个数;
步骤c3中结合行程时间特性评估数据过度剔除概率并更新正常数据区间范围的
过程包括:
c31、结合行程时间特性评估l路段上第k个时间窗内行程时间数据的过度剔除概
率。
城市道路中在短时段内连续通过的车辆之间,其正常行程时间既具有波动性又具
有稳定性。当行程时间的稳定性表征明显时,数据标准差小;当行程时间的波动性表征明显
时,数据的标准差大。反之,在通过箱型图进行数据处理后,数据标准差σk′过小则存在数据
被过度剔除的可能性。结合城市道路行程时间特性,定义过度剔除概率:
式中,p1——l路段上第k个时间窗内通过箱型图处理后,数据被过度剔除的概率;
σP——l路段上时间窗内正常行程时间数据的标准差。
c32、根据过度剔除概率更新正常行程时间数据范围。
当过度剔除概率大于阈值P1时,说明数据存在过度剔除。P1取值和l路段下游信号
方案有关:
式中,gl,r表示下游路口该方向的红灯时长,Cl表示该路口的信号周期时长。
应结合行程时间波动特性,重新计算该时间窗内正常行程时间的下边缘和上边
缘:
Q′k,down=Qk,1-ΔT/2
Q′k,up=Qk,3+ΔT/2
式中,Q′k,down——l路段上第k个时间窗内排除过度剔除情况后的行程时间的下边
缘,小于该值的行程时间为噪声数据;
Q′k,up——l路段上第k个时间窗内排除过度剔除情况后的的行程时间的上边缘,
大于该值的行程时间为噪声数据。
ΔT——l路段上行程时间波动的正常范围
步骤c4中结合行程时间特性评估噪声数据未被剔除概率并更新正常数据区间范
围的过程包括:
c41、结合行程时间特性评估l路段上第k个时间窗内行程时间噪声数据未被剔除
概率。
城市道路中正常行驶且连续通过的车辆之间,行程时间具有连续性,即正常行程
时间具有平稳特性,而不会发生突变。因此可以利用行程时间的连续性判断是否存在噪声
数据未被剔除的可能性,即该时间窗k与上一时间窗k-1的标准差是否存在突变。结合城市
道路行程时间特性,定义噪声数据未被剔除概率:
式中,p2——l路段上第k个时间窗内通过箱型图处理后,噪声数据未被剔除的概
率;
c42、根据未被剔除概率更新正常行程时间数据范围。
当未被剔除概率大于阈值P2时,说明存在噪声数据未被剔除。
根据行程时间的稳定性和连续性,可利用上一时间窗的下边缘和上边缘作为替代
值。即结合行程时间特性,重新计算该时间窗内正常行程时间的下边缘和上边缘:
Q″k,down=Qk-1,down
Q″k,up=Qk-1,up
步骤c5中剔除行程时间噪声数据的过程包括:
c51、当第k个时间窗过渡剔除概率p1>P1时,该时间窗内正常行程时间的下边缘和
上边缘为Q′k,down和Q′k,up;
c52、当第k个时间窗未被剔除概率p2>P2时,该时间窗内正常行程时间的下边缘和
上边缘为Q″k,down和Q″k,up;
c53、当第k个时间窗过渡剔除概率p1≤P1时,且未被剔除概率p2≤P2时,该时间窗
内正常行程时间的下边缘和上边缘为Qk,down和Qk,up。
本发明的有益效果:本发明结合箱型图异常数据处理方法及行程时间数据的稳定
性、波动性和连续性特征,对城市道路行程时间数据中存在的噪声数据进行剔除,为行程时
间数据的进一步研究及交通管理控制提供了数据基础,同时该方法充分利用行程时间数据
特性,参数计算不依赖人为选取,易于工程实现。
附图说明
图1为行程时间噪声数据处理方法流程图;
图2为箱型图异常数据处理示意图;
图3为过渡剔除情况示意图;
图4为噪声数据未被剔除情况示意图;
图5为行程时间噪声数据处理效果对比图。
具体实施方式
下面结合附图对本发明进行详细阐述,如图1所示,本发明的具体步骤如下:
步骤一计算时间窗内原始行程时间数据的标准差:
根据第k个时间窗内检测到的单车行程时间Tk,i,确定第k个时间窗内原始行程时
间数据的标准差σk:
式中,σk——l路段上第k个时间窗内检测到的所有车辆行程时间的标准差;
Tk,i——l路段上第k个时间窗内检测到的第i辆车的单车行程时间,其中i=1,2,
3,……,I;
——l路段上第k个时间窗内检测到的所有车辆行程时间的平均值;
I——l路段上第k个时间窗内检测到的所有车辆数。
步骤二利用箱型图进行数据预处理:
如图2为l路段行程时间的时间窗示意图,计算l路段上第k个时间窗内行程时间的
下四分位数Qk,1,上四分位数Qk,3,分别处于图中“下四分位数”和“上四分位数”,l路段上第k
个时间窗内行程时间的下边缘Qk,down,上边缘Qk,up分别处于图中“下边缘”和“上边缘”:
Qk,down=Qk,1-1.5×(Qk,2-Qk,1)
Qk,up=Qk,3+1.5×(Qk,3-Qk,1)
式中,Qk,down——l路段上第k个时间窗内通过箱型图判定的行程时间的下边缘,小
于该值的行程时间为噪声数据;
Qk,up——l路段上第k个时间窗内通过箱型图判定的行程时间的上边缘,大于该值
的行程时间为噪声数据。
计算数据标准差。
式中,σk′——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程
时间数据的标准差;
T′k,i——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程时间
数据,即T′k,i∈[Qk,down,Qk,up];
——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程时间
数据的平均值;
I′——l路段上第k个时间窗内位于下边缘Qk,down和上边缘Qk,up之间的行程时间数
据的个数;
步骤三结合行程时间特性评估数据过度剔除概率并更新正常数据区间范围:
结合行程时间特性评估l路段上第k个时间窗内行程时间数据的过度剔除概率。
城市道路中在短时段内连续通过的车辆之间,其正常行程时间既具有波动性又具
有稳定性。当行程时间的稳定性表征明显时,数据标准差小;当行程时间的波动性表征明显
时,数据的标准差大。反之,在通过箱型图进行数据处理后,数据标准差σk′过小则存在数据
被过度剔除的可能性。结合城市道路行程时间特性,定义过度剔除概率:
式中,p1——l路段上第k个时间窗内通过箱型图处理后,数据被过度剔除的概率;
σP——l路段上时间窗内正常行程时间数据的标准差。
根据过度剔除概率更新正常行程时间数据范围。
当过度剔除概率大于阈值P1时,说明数据存在过度剔除。如图3所示,第一行为剔
除前的示意图,第二行为箱形图数据处理示意图,最后一行为过度剔除后示意图。应结合行
程时间波动特性,重新计算该时间窗内正常行程时间的下边缘和上边缘:
Q′k,down=Qk,1-ΔT/2
Q′k,up=Qk,3+ΔT/2
式中,Q′k,down——l路段上第k个时间窗内排除过度剔除情况后的行程时间的下边
缘,小于该值的行程时间为噪声数据;
Q′k,up——l路段上第k个时间窗内排除过度剔除情况后的的行程时间的上边缘,
大于该值的行程时间为噪声数据。
ΔT——l路段上行程时间波动的正常范围
步骤四结合行程时间特性评估噪声数据未被剔除概率并更新正常数据区间范围:
结合行程时间特性评估l路段上第k个时间窗内行程时间噪声数据未被剔除概率。
城市道路中正常行驶且连续通过的车辆之间,行程时间具有连续性,即正常行程
时间具有平稳特性,而不会发生突变。因此可以利用行程时间的连续性判断是否存在噪声
数据未被剔除的可能性,即该时间窗k与上一时间窗k-1的标准差是否存在突变。结合城市
道路行程时间特性,定义噪声数据未被剔除概率:
式中,p2——l路段上第k个时间窗内通过箱型图处理后,噪声数据未被剔除的概
率;
根据未被剔除概率更新正常行程时间数据范围。
当未被剔除概率大于阈值P2时,说明存在噪声数据未被剔除。如图4所示,第一行
为剔除前的示意图,第二行为箱形图数据处理示意图,最后一行为噪声数据未完全剔除示
意图。根据行程时间的稳定性和连续性,可利用上一时间窗的下边缘和上边缘作为替代值。
即结合行程时间特性,重新计算该时间窗内正常行程时间的下边缘和上边缘:
Q″k,down=Qk-1,down
Q″k,up=Qk-1,up
步骤五剔除行程时间噪声数据:
当第k个时间窗过渡剔除概率p1>P1时,该时间窗内正常行程时间的下边缘和上边
缘为Q′k,down和Q′k,up;
当第k个时间窗未被剔除概率p2>P2时,该时间窗内正常行程时间的下边缘和上边
缘为Q″k,down和Q″k,up;
当第k个时间窗过渡剔除概率p1≤P1时,且未被剔除概率p2≤P2时,该时间窗内正
常行程时间的下边缘和上边缘为Qk,down和Qk,up。图5为一个行程时间噪声数据利用本方法处
理后的对比图。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的
人能够了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明
精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围内。