基于关联规则的道路交通事故数据挖掘方法及装置 【技术领域】
本发明涉及通信领域,尤其涉及一种基于关联规则的道路交通事故数据挖掘方法及装置。
背景技术
智能交通系统是目前能全面有效地解决交通运输领域问题,特别是交通拥挤、交通阻塞、交通事故和交通污染等问题的最佳途径。其中,交通事件(包括事故,交通管制等)对交通流及路况的影响是智能交通系统的热点研究方向之一,
在当前,我国的道路交通状况存在着道路等级低、交通混行严重、行人干扰大、高速公路刚刚起步等特点。因此,需要合理分析交通事故,特别是利用科技手段准确把握交通事故的特征和趋势,以提高道路的安全设计和有针对性地制定道路交通管理措施,从而减少道路交通事故的发生。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:目前无法实现与事故发生的条件因素相关的有效分析和统计,难以为交通事故的预防、处理和决策等工作服务。
【发明内容】
本发明的实施例提供一种基于关联规则的道路交通事故数据挖掘方法及装置,能够实现与事故发生的条件因素相关的有效分析和统计,为交通事故的预防、处理和决策等工作服务。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于关联规则的道路交通事故数据挖掘方法,包括:
从道路交通事故的历史数据中获取规定时间范围和规定路段范围的历史数据,作为关联规则挖掘数据;
确定所述关联规则挖掘数据的交通事故属性;
根据所述关联规则挖掘数据,所述交通事故属性和最小支持度,获取频繁项集;
根据所述频繁项集和最小置信度,获取事故关联规则。
一种基于关联规则的道路交通事故数据挖掘装置,包括:
数据获取单元,用于从道路交通事故的历史数据中获取规定时间范围和规定路段范围的历史数据,作为关联规则挖掘数据;
属性确定单元,用于确定所述关联规则挖掘数据的交通事故属性;
项集获取单元,用于根据所述数据获取单元获取的关联规则挖掘数据,所述属性确定单元确定的交通事故属性和最小支持度,获取频繁项集;
规则获取单元,用于根据所述项集获取单元获取的频繁项集和最小置信度,获取事故关联规则。
本发明实施例提供的基于关联规则的道路交通事故数据挖掘方法及装置,通过从道路交通事故的历史数据中获取规定时间范围和规定路段范围的历史数据,作为关联规则挖掘数据;确定所述关联规则挖掘数据的交通事故属性;并根据所述关联规则挖掘数据,所述交通事故属性和最小支持度,获取频繁项集;然后,根据所述频繁项集和最小置信度,获取事故关联规则。因此,实现了与事故发生的条件因素相关的有效分析和统计,进而为交通事故的预防、处理和决策等工作服务。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于关联规则的道路交通事故数据挖掘方法的流程示意图;
图2为本发明实施例提供的一种基于关联规则的道路交通事故数据挖掘装置的构成示意图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了能够实现与事故发生的条件因素相关地有效分析和统计,为交通事故的预防、处理和决策等工作服务,本发明实施例提供了一种基于关联规则的道路交通事故数据挖掘方法,如图1所示,包括:
101、从道路交通事故的历史数据中获取规定时间范围和规定路段范围的历史数据,作为关联规则挖掘数据;
例如,预先存储所采集到的道路交通事故的历史数据。从存储的道路交通事故的历史数据中提取一定时间范围和一定路段范围的数据,将提取的数据作为关联规则挖掘数据。其中,路段范围可以是整个市区、某个辖区或某一条道路。
102、确定所述关联规则挖掘数据的交通事故属性;
其中,交通事故属性可以是指道路交通事故发生时,驾驶员属性、车辆属性、道路属性、天气属性、时间属性和事故本身属性的集合。
关联规则挖掘数据的交通事故属性还可以具有概念分层,主要有三层:
第一层是驾驶员属性,车辆属性,道路属性,天气属性,时间属性和事故本身属性。
第二层是第一层的细化,例如,驾驶员属性可细化为性别、年龄、驾龄、驾证种类、驾驶人员类型、出行目的等。其他属性的细化方式与驾驶员属性的细化方式相似,在此不再赘述。
第三层是对第二层的更进一步细化,主要是对道路交通事故每一属性维的刻度(也就是粒度)进行分析。例如,性别属性可细化为男、女、未知。年龄属性可细化为1-6岁,7-9岁,10-12岁,13-15岁,16-20岁,21-25岁,26-30岁,31-35岁,36-40岁,41-45岁,46-50岁,51-55岁,56-60岁,61-65岁,65岁以上。驾龄属性可细化为1年及以下,2年,3年,4年,5年,6-10年,11-15年,16-20年,20年以上。驾照种类属性可细化为正式,学习,临时,正式实习期,正式未年审,农机,军队,武警等。驾驶人员类型可细化为职业驾驶员,非职业驾驶员,非驾驶员等。出行目的属性可细化为上、下班,道路作业,职务出行,运输,其它工作出行,上、下学,社交活动,文娱活动,观光旅游,购物,闲游,其它生活出行等。
103、根据所述关联规则挖掘数据,所述交通事故属性和最小支持度,获取频繁项集;
在本发明实施例中,假设A、B、C分别代表规则的前提条件,则支持度是指在所有的记录中,A、B、C同时出现的概率。
上述的交通事故属性的数据模型是多维多层的,而进行多维多层的数据挖掘是比较繁琐的,这里对其进行简化。即,在进行关联规则分析前,预先指定该维的哪一个层次参与关联分析,其它层次不参与关联分析,从而将问题简化为单纯的多维数据模型的挖掘。
举例而言,可以在进行事故关联规则分析之前,对事故主要原因选择第三层,其它维都是单层的,通过这样的指定,就可以得到多维单层的交通事故属性数据,便于下面的关联分析。
交通事故属性的数据结构一般使用一颗概念层次树(Concept HierarchyTree)来组织。其中,概念层次树是指数据库中各属性值和概念依据抽象程度不同而构成的一个层次结构。
举例而言,在概念层次树的建立过程中,需要选定待分析的交通事故本身与驾驶员、车辆、道路、天气、时间等具体选项信息,然后采用自顶向下的策略,由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项集累加计数,直到不能再找到频繁项集。即是,一旦找到概念层1的所有频繁项集,就开始在第2层找频繁项集,如此下去,找到所有概念层的所有频繁项集。
并且,可以在每一层使用多维Apriori算法发现频繁项集,以发现各个因素之间的联系。其中,Apriori算法是一种基于两阶段频集思想的递推算法。在这里,所有支持度大于最小支持度的项集称为频繁项集。
举例而言,假设通过上述方法得到多维单层的交通事故属性数据,如n维数据库D[D1,D2,...,Dn],并通过用户输入或系统预先存储获得最小支持度,根据D[D1,D2,...,Dn],找出所有符合最小支持度的频繁项集。
另外,还可以通过用户输入或系统预先存储获得用户的限制条件,该用户的限制条件可以称为第一用户限制条件。那么,可以根据D[D1,D2,...,Dn],找出所有符合最小支持度和第一用户限制条件的频繁项集。
104、根据所述频繁项集和最小置信度,获取事故关联规则。
在本发明实施例中,假设A、B、C分别代表规则的前提条件,D代表规则的结果,则置信度表示在A、B、C同时出现的条件下,发生情况D的概率。
可以在按照步骤103产生频繁项集后,通过用户输入或系统预先存储获得最小支持度,然后,根据上一步骤产生的频繁项集得到大于最小置信度的关联规则,即事故关联规则。
另外,还可以通过用户输入或系统预先存储获得用户的限制条件,该用户的限制条件可以称为第二用户限制条件。那么,可以根据上一步骤产生的频繁项集,最小置信度和第二用户限制条件。得到满足最小置信度和第二用户限制条件的关联规则,即事故关联规则。
获得事故关联规则后,可以采用文本形式来描述事故关联规则结果,例如以(A,B,C)→D(sup;con)形式描述,其中A、B、C分别代表规则的前提条件,D代表规则的结果,sup和con表示该规则的支持度和置信度,取值均为0%到100%之间。当一条规则满足一定的最小支持度和最小置信度时,可以认为该规则是比较常见的,可信度比较高的。
本发明实施例提供的基于关联规则的道路交通事故数据挖掘方法,通过从道路交通事故的历史数据中获取规定时间范围和规定路段范围的历史数据,作为关联规则挖掘数据;确定所述关联规则挖掘数据的交通事故属性;并根据所述关联规则挖掘数据,所述交通事故属性和最小支持度,获取频繁项集;然后,根据所述频繁项集和最小置信度,获取事故关联规则。因此,实现了与事故发生的条件因素相关的有效分析和统计,进而为交通事故的预防、处理和决策等工作服务。
与上述方法相对应地,本发明实施例还提供了一种基于关联规则的道路交通事故数据挖掘装置,如图2所示,包括:
数据获取单元201,用于从道路交通事故的历史数据中获取规定时间范围和规定路段范围的历史数据,作为关联规则挖掘数据;
属性确定单元202,用于确定所述关联规则挖掘数据的交通事故属性;
项集获取单元203,用于根据所述数据获取单元201获取的关联规则挖掘数据,所述属性确定单元202确定的交通事故属性和最小支持度,获取频繁项集;
规则获取单元204,用于根据所述项集获取单元203获取的频繁项集和最小置信度,获取事故关联规则。
进一步地,所述属性确定单元202具体包括:
层次存储子单元,用于存储设定的交通事故属性的层次;
属性确定子单元,用于按照所述层次存储子单元存储的层次,确定所述关联规则挖掘数据的交通事故属性。
进一步地,所述项集获取单元203具体包括:
项集条件获取子单元,用于获取最小支持度和第一用户限制条件;
项集获取子单元,用于根据所述数据获取单元获取的关联规则挖掘数据,和所述属性确定单元确定的交通事故属性,以及所述条件获取子单元获取的最小支持度和第一用户限制条件,获取频繁项集。
进一步地,所述项集获取子单元,具体用于根据所述数据获取单元获取的关联规则挖掘数据,和所述属性确定单元确定的每一层的交通事故属性,以及所述条件获取子单元获取的最小支持度和第一用户限制条件,获取所述层的频繁项集。
进一步地,所述规则获取单元204具体包括:
规则条件获取子单元,用于获取最小置信度和第二用户限制条件;
规则获取子单元,用于根据所述项集获取单元获取的频繁项集,以及所述规则条件获取子单元获取的最小置信度和第二用户限制条件,获取满足所述最小置信度和所述第二用户限制条件的关联规则;将获取的关联规则作为事故关联规则。
本发明实施例提供的基于关联规则的道路交通事故数据挖掘装置,通过从道路交通事故的历史数据中获取规定时间范围和规定路段范围的历史数据,作为关联规则挖掘数据;确定所述关联规则挖掘数据的交通事故属性;并根据所述关联规则挖掘数据,所述交通事故属性和最小支持度,获取频繁项集;然后,根据所述频繁项集和最小置信度,获取事故关联规则。因此,实现了与事故发生的条件因素相关的有效分析和统计,进而为交通事故的预防、处理和决策等工作服务。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。