一种行为预测方法和装置技术领域
本发明涉及行为预测技术领域,具体而言,涉及一种行为预测方法和装置。
背景技术
当前,我们的社会在经济政治和科学技术等方面均经历着巨大的改变。社会的发
展虽然给我们的生活带来了许许多多的便利,但是,形形色色的违法犯罪行为也时常出现
在我们身边。这些呈现出高科技化、团伙化、智能化的犯罪行为严重影响这我们正常生活秩
序。长久以往,更是阻碍社会和谐发展一大障碍。长年累月下来,监狱改造信息管理系统中
积累了大量的犯罪人员相关数据。然而,该如何利用好这些已有的犯罪人员相关数据,实现
对犯罪行为的有效分析和管控,是摆在监狱管理人员面前的一大难题,也是监狱系统迫切
需要研究的课题。
现有技术中提供的人员再犯罪的预测方案大体分为两种:一种是基于决策树算法
的再犯罪预测方法,该方法首先选用样本属性,该样本属性是用于预测犯罪分子再犯罪的
可能因素,其次从搜集的惯犯实施刑事案件材料中选取代表性案件,并在决策树分类模型
中对上述代表性案件进行分类训练,最后通过决策树输出一组规则,以通过该规则判断犯
罪分子是否再犯罪。另一种是基于综合科学的再犯罪预测方法,该方法综合社会学、心理学
和管理学等科学学科,研究再犯罪风险与风险评估、再犯罪风险的基本因素和再犯罪风险
的各种主客观因素,最后给出再犯罪风险评估的实体标准。
发明人在研究中发现,现有技术中基于决策树算法的再犯罪预测方法由于受限于
决策树算法自身存在的多值偏向的问题,导致预测的结果较为单一且预测准确度较低,而
基于综合科学的再预测方法,操作过程复杂,实用性较差。另外,对于同时满足预测准确度
高和实用性佳的犯罪行为再预测尚无完善的方案。
发明内容
有鉴于此,本发明的目的在于提供一种行为预测方法和装置,利用改进的关联规
则算法对用户的行为进行预测,预测的准确度较高,且操作过程简单,具有较高的实用性。
第一方面,本发明实施例提供了一种行为预测方法,所述方法包括:
获取多个用户的历史数据集合,其中,每个所述历史数据集合均包括多个历史数
据,所述历史数据包括目标行为;
对所有所述历史数据进行处理,得到所有所述历史数据对应的最大频繁项集,其
中,所述最大频繁项集中包括多个元素,每个所述元素按照支持度由小到大的顺序排列,
且,每个所述元素包括多个所述历史数据,每个所述元素中的各个所述历史数据按照支持
度由小到大的顺序排列;
根据目标行为和所述最大频繁项集中的各个所述历史数据,确定用于推导所述目
标行为的多个有效关联规则;
根据目标用户的所述历史数据集合和各个所述有效关联规则,确定所述目标用户
执行所述目标行为的概率。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所
述对所有所述历史数据进行处理,得到所有所述历史数据对应的最大频繁项集,包括:
对所有所述历史数据进行处理,得到所述历史数据对应的第K候选项集,其中,所
述第K候选项集包括多个候选元素,每个所述候选元素均包括K个所述历史数据,且每个所
述候选元素中,支持度最小的所述历史数据为首位历史数据,支持度最大的所述历史数据
为末位历史数据;其中,K大于等于2;
对所述第K候选项集进行处理,得到第K频繁项集,其中,所述第K频繁项集包括多
个频繁元素,每个所述频繁元素的支持度均大于预设支持度,各个所述频繁元素按照支持
度由小到大的顺序进行排序,每个所述频繁元素均包括K个所述历史数据,且每个所述频繁
元素中,支持度最小的所述历史数据为首位历史数据,支持度最大的所述历史数据为末位
历史数据;
若所述第K频繁项集中,存在前K-1个所述历史数据相同的多个所述频繁元素,则
将前K-1个所述历史数据相同的多个所述频繁元素进行合并,得到第K+1候选项集,若所述
第K频繁项集中,不存在前K-1个所述历史数据相同的多个所述频繁元素,则将所述第K频繁
项集确定为所有所述历史数据对应的最大频繁项集。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种
可能的实施方式,其中,所述对所述第K候选项集进行处理,得到第K频繁项集,包括:
对于所述第K候选项集中的每个所述候选元素,确定所述候选元素中的前K-1个所
述历史数据共同出现的所述历史数据集合,根据确定的所述历史数据集合确定所述候选元
素的支持度;
根据所述第K候选项集中每个所述候选元素的支持度,以及所述预设支持度,对各
个所述候选元素进行筛选,得到支持度大于所述预设支持度的所述候选元素;
根据得到的每个所述候选元素的支持度由小到大的顺序,对得到的每个所述候选
元素进行排序,得到第K频繁项集。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种
可能的实施方式,其中,所述对所有所述历史数据进行处理,得到所有所述历史数据对应的
最大频繁项集,还包括:
将所有所述历史数据进行组合,得到第一候选项集;
确定所述第一候选项集对应的第一频繁项集,其中,所述第一频繁项集中,每个所
述历史数据的支持度均大于所述预设支持度,且每个所述历史数据按照支持度由小到大的
顺序进行排序;
根据所述第一频繁项集中各个所述历史数据的顺序,对所述第一频繁项集中的各
个所述历史数据进行组合,得到第二候选项集,其中,所述第二候选项集包括多个候选元
素,每个所述候选元素均包括两个所述历史数据,且每个所述候选元素中,支持度最小的所
述历史数据为首位历史数据,支持度最大的所述历史数据为末位历史数据。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所
述根据目标行为和所述最大频繁项集中的各个所述历史数据,确定用于推导所述目标行为
的多个有效关联规则,包括:
根据目标行为和所述最大频繁项集中的各个所述历史数据,确定推导出的所述历
史数据为所述目标行为的多个关联规则;
确定支持度、置信度均满足要求的所述关联规则为有效关联规则。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种
可能的实施方式,其中,还包括:
根据每个所述有效关联规则中用于推导的所述历史数据,在所有所述历史数据中
出现的第一概率,以及推倒出的所述历史数据,在所有所述历史数据中出现的第二概率,确
定每个所述有效关联规则的必然度;
根据每个所述有效关联规则的必然度和每个所述有效关联规则的置信度,更新每
个所述有效关联规则的置信度。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种
可能的实施方式,其中,所述根据目标用户的所述历史数据集合和各个所述有效关联规则,
确定所述目标用户执行所述目标行为的概率,包括:
在多个所述有效关联规则中确定与所述目标用户的所述历史数据集合对应的所
述有效关联规则;
将对应的所述有效关联规则更新后的所述置信度作为所述目标用户执行所述目
标行为的概率。
第二方面,本发明实施例还提供了一种行为预测装置,所述装置包括:
获取模块,用于获取多个用户的历史数据集合,其中,每个所述历史数据集合均包
括多个历史数据,所述历史数据包括目标行为;
处理模块,用于对所有所述历史数据进行处理,得到所有所述历史数据对应的最
大频繁项集,其中,所述最大频繁项集中包括多个元素,每个所述元素按照支持度由小到大
的顺序排列,且,每个所述元素包括多个所述历史数据,每个所述元素中的各个所述历史数
据按照支持度由小到大的顺序排列;
规则确定模块,用于根据目标行为和所述最大频繁项集中的各个所述历史数据,
确定用于推导所述目标行为的多个有效关联规则;
行为确定模块,用于根据目标用户的所述历史数据集合和各个所述有效关联规
则,确定所述目标用户执行所述目标行为的概率。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所
述处理模块包括:
第一处理单元,用于对所有所述历史数据进行处理,得到所述历史数据对应的第K
候选项集,其中,所述第K候选项集包括多个候选元素,每个所述候选元素均包括K个所述历
史数据,且每个所述候选元素中,支持度最小的所述历史数据为首位历史数据,支持度最大
的所述历史数据为末位历史数据;其中,K大于等于2;
第二处理单元,用于对所述第K候选项集进行处理,得到第K频繁项集,其中,所述
第K频繁项集包括多个频繁元素,每个所述频繁元素的支持度均大于预设支持度,各个所述
频繁元素按照支持度由小到大的顺序进行排序,每个所述频繁元素均包括K个所述历史数
据,且每个所述频繁元素中,支持度最小的所述历史数据为首位历史数据,支持度最大的所
述历史数据为末位历史数据;
生成单元,用于在所述第K频繁项集中存在前K-1个所述历史数据相同的多个所述
频繁元素时,将前K-1个所述历史数据相同的多个所述频繁元素进行合并,得到第K+1候选
项集,在所述第K频繁项集中不存在前K-1个所述历史数据相同的多个所述频繁元素时,将
所述第K频繁项集确定为所有所述历史数据对应的最大频繁项集。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种
可能的实施方式,其中,所述第二处理单元包括:
确定子单元,用于对于所述第K候选项集中的每个所述候选元素,确定所述候选元
素中的前K-1个所述历史数据共同出现的所述历史数据集合,根据确定的所述历史数据集
合确定所述候选元素的支持度;
筛选子单元,用于根据所述第K候选项集中每个所述候选元素的支持度,以及所述
预设支持度,对各个所述候选元素进行筛选,得到支持度大于所述预设支持度的所述候选
元素;
排序子单元,用于根据得到的每个所述候选元素的支持度由小到大的顺序,对得
到的每个所述候选元素进行排序,得到第K频繁项集。
本发明实施例提供的行为预测方法和装置,与现有技术中基于决策树算法的再犯
罪预测方法所导致的预测结果单一且预测准确度较差以及基于综合科学的再预测方法,操
作过程复杂,实用性较差相比,其首先获取多个用户的历史数据集合,其中,每个历史数据
集合均包括多个历史数据,历史数据包括目标行为,然后对所有历史数据进行处理,得到所
有历史数据对应的最大频繁项集,其中,最大频繁项集中包括多个元素,每个元素按照支持
度由小到大的顺序排列,且,每个元素包括多个历史数据,每个元素中的各个历史数据按照
支持度由小到大的顺序排列,再者根据目标行为和最大频繁项集中的各个历史数据,确定
用于推导目标行为的多个有效关联规则,最后根据目标用户的历史数据集合和各个有效关
联规则,确定目标用户执行目标行为的概率,其利用改进的关联规则算法对目标用户执行
目标行为进行预测,预测的准确度较高,且操作过程简单,实用性较佳。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合
所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附
图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种行为预测方法的流程图;
图2示出了本发明实施例所提供的另一种行为预测方法的流程图;
图3示出了本发明实施例所提供的另一种行为预测方法的流程图;
图4示出了本发明实施例所提供的另一种行为预测方法的流程图;
图5示出了本发明实施例所提供的另一种行为预测方法的流程图;
图6示出了本发明实施例所提供的另一种行为预测方法的流程图;
图7示出了本发明实施例所提供的一种行为预测装置的结构示意图;
图8示出了本发明实施例所提供的一种行为预测装置中处理模块的结构示意图;
图9示出了本发明实施例所提供的一种行为预测装置中第二处理单元的结构示意
图。
主要元件符号说明:
11、获取模块;22、处理模块;33、规则确定模块;44、行为确定模块;221、第一处理
单元;222、第二处理单元;223、生成单元;2221、确定子单元;2222、筛选子单元;2223、排序
子单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅
是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实
施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的
实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实
施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所
有其他实施例,都属于本发明保护的范围。
考虑到现有技术中基于决策树算法的再犯罪预测方法由于受限于决策树算法自
身存在的多值偏向的问题,导致预测的结果较为单一且预测准确度较低,而基于综合科学
的再预测方法,操作过程复杂,实用性较差。另外,对于同时满足预测准确度高和实用性佳
的犯罪行为再预测尚无完善的方案。基于此,本发明实施例提供了一种行为预测方法和装
置,利用改进的关联规则算法对用户的行为进行预测,预测的准确度较高,且操作过程简
单,具有较高的实用性。
参见图1所示的本发明实施例提供的行为预测方法的流程图,所述方法具体包括
如下步骤:
S101、获取多个用户的历史数据集合,其中,每个历史数据集合均包括多个历史数
据,历史数据包括目标行为;
具体的,考虑到本发明实施例所提供的行为预测方法的具体应用场景,本发明实
施例中,上述获取的用户的历史数据来自于公安大数据中的历史犯罪人员数据库。其中,上
述历史数据可以包括性别、年龄、婚姻状况、文化程度、就业情况、夜间出行情况、同伙接触
情况、涉毒情况、涉赌情况、二手市场出入情况、犯罪次数等信息,多个历史数据则是指上述
历史数据中的多个。
另外,对于获取的历史数据而言,本发明实施例所提供的行为预测方法对其进行
数据清洗和数据转化,得到的历史数据为:性别={男、女};年龄={少年、青年、壮年、中年、
老年};婚姻状况={已婚、未婚、离异};文化程度={文盲、初中及以下、高中、大学、研究生
及以上};就业情况={长期就业、短期就业、长期失业、短期失业};夜间出行情况={频繁、
少数、没有};前科人员接触情况={频繁、一般、很少};涉毒情况={未涉毒、涉毒嫌疑较小、
涉毒嫌疑较大、已涉毒};涉赌情况={未涉赌、涉赌嫌疑较小、涉赌嫌疑较大、已涉赌};二手
市场出入情况={频繁、少数、没有};犯罪次数={一次、两次、多次}。
S102、对所有历史数据进行处理,得到所有历史数据对应的最大频繁项集,其中,
最大频繁项集中包括多个元素,每个元素按照支持度由小到大的顺序排列,且,每个元素包
括多个历史数据,每个元素中的各个历史数据按照支持度由小到大的顺序排列;
具体的,本发明实施例所提供的行为预测方法将对上述转化后的历史数据进行处
理以得到历史数据对应的最大频繁项集,其中,最大频繁项集中包括多个元素,每个元素按
照支持度由小到大的顺序排列,且,每个元素包括多个历史数据,每个元素中的各个历史数
据按照支持度由小到大的顺序排列。
S103、根据目标行为和最大频繁项集中的各个历史数据,确定用于推导目标行为
的多个有效关联规则;
S104、根据目标用户的历史数据集合和各个有效关联规则,确定目标用户执行目
标行为的概率。
具体的,本发明实施例所提供的行为预测方法首先基于最大频繁项集,确定用于
推导目标行为的多个关联规则,然后基于预设条件对多个关联规则进行滤过,得到有效关
联规则,最后根据有效关联规则,确定目标用户执行上述目标行为的概率。
例如,基于改进后的关联规则Apriori算法对目标行为为上述犯罪次数为“多次”
进行关联规则的确定。对于该关联规则的置信度即是指历史犯罪人员再次犯罪,这个事件
发生的概率大小;关联规则的支持度在业务中的含义为:在所有历史犯罪人员中,再次犯罪
的人员占整体人员的比例大小。置信度和支持度是设置的最低参照值,高于该最低参照值
的关联规则才不会被过滤掉(即符合预设条件),才会最终确定出对应的有效关联规则。其
中,若得出的有效关联规则结果过多,或对事件发生的概率有较高要求时,则适当调高置信
度和支持度;若得出的有效关联规则结果过于贫乏,或对事件发生的概率要求一般,则适当
降低置信度和支持度的值。
另外,接下来对根据目标用户的历史数据集合和各个有效关联规则,确定目标用
户执行目标行为的概率(置信度)进行如下举例:
1){性别=男,年龄=壮年,婚姻状况=离异,就业情况=长期失业、夜间出行情况
=频繁}{犯罪次数=多次},支持度占比=7.2%,置信度=76.7%;
2){年龄=中年,前科人员接触情况=频繁、涉毒情况=涉毒嫌疑较大}{犯罪次数
=多次},支持度占比=6.3%,置信度=77.3%;
3){年龄=中年,前科人员接触情况=频繁、二手市场出入情况=频繁}{犯罪次数
=多次},支持度占比=5.7%,置信度=80.5%;
4){就业情况=短期失业、二手市场出入情况=频繁、涉赌情况=已涉赌}{犯罪次
数=多次},支持度占比=7.9%,置信度=82.7%。
其中,支持度占比为:关联规则所代表的样本数在整体样本中的占比,置信度为:
该关联规则发生的可能性比例。由上述可知,公安部门应加强对已失业、前科人员接触频
繁、二手市场出入频繁、涉毒、涉赌的盗窃前科人员进行重点监控,另外,盗窃再犯罪重要诱
因有:失业、前科人员接触频繁、二手市场出入频繁、涉毒、涉赌。
本发明实施例提供的行为预测方法,与现有技术中基于决策树算法的再犯罪预测
方法所导致的预测结果单一且预测准确度较差以及基于综合科学的再预测方法,操作过程
复杂,实用性较差相比,其首先获取多个用户的历史数据集合,其中,每个历史数据集合均
包括多个历史数据,历史数据包括目标行为,然后对所有历史数据进行处理,得到所有历史
数据对应的最大频繁项集,其中,最大频繁项集中包括多个元素,每个元素按照支持度由小
到大的顺序排列,且,每个元素包括多个历史数据,每个元素中的各个历史数据按照支持度
由小到大的顺序排列,再者根据目标行为和最大频繁项集中的各个历史数据,确定用于推
导目标行为的多个有效关联规则,最后根据目标用户的历史数据集合和各个有效关联规
则,确定目标用户执行目标行为的概率,其利用改进的关联规则算法对目标用户执行目标
行为进行预测,预测的准确度较高,且操作过程简单,实用性较佳。
为了更好的得到最大频繁项集,上述S102的处理过程,具体通过如下步骤实现,参
见图2所示的流程图,所述方法还包括:
S201、对所有历史数据进行处理,得到历史数据对应的第K候选项集,其中,第K候
选项集包括多个候选元素,每个候选元素均包括K个历史数据,且每个候选元素中,支持度
最小的历史数据为首位历史数据,支持度最大的历史数据为末位历史数据;其中,K大于等
于2;
S202、对第K候选项集进行处理,得到第K频繁项集,其中,第K频繁项集包括多个频
繁元素,每个频繁元素的支持度均大于预设支持度,各个频繁元素按照支持度由小到大的
顺序进行排序,每个频繁元素均包括K个历史数据,且每个频繁元素中,支持度最小的历史
数据为首位历史数据,支持度最大的历史数据为末位历史数据;
为了得到上述第K频繁项集,本发明实施例所提供的行为预测方法将基于预设支
持度对第K候选项集中的候选元素进行筛选,并根据筛选后的候选元素进行排序,参见图3,
上述由第K候选项集生成第K频繁项集的过程具体通过如下步骤实现:
S2021、对于第K候选项集中的每个候选元素,确定候选元素中的前K-1个历史数据
共同出现的历史数据集合,根据确定的历史数据集合确定候选元素的支持度;
S2022、根据第K候选项集中每个候选元素的支持度,以及预设支持度,对各个候选
元素进行筛选,得到支持度大于预设支持度的候选元素;
S2023、根据得到的每个候选元素的支持度由小到大的顺序,对得到的每个候选元
素进行排序,得到第K频繁项集。
S203、若第K频繁项集中,存在前K-1个历史数据相同的多个频繁元素,则将前K-1
个历史数据相同的多个频繁元素进行合并,得到第K+1候选项集,若第K频繁项集中,不存在
前K-1个历史数据相同的多个频繁元素,则将第K频繁项集确定为所有历史数据对应的最大
频繁项集。
另外,本发明实施例所提供的行为预测方法中的第2候选项集是通过第1频繁项集
自连接生成的,而该第1频繁项集又是通过对第1候选项集进行筛选得到的,那么,参见图4,
上述由第一候选项集得到第1频繁项集,再又第1频繁项集得到第2候选项集的具体过程如
下:
S301、将所有历史数据进行组合,得到第一候选项集;
S302、确定第一候选项集对应的第一频繁项集,其中,第一频繁项集中,每个历史
数据的支持度均大于预设支持度,且每个历史数据按照支持度由小到大的顺序进行排序;
S303、根据第一频繁项集中各个历史数据的顺序,对第一频繁项集中的各个历史
数据进行组合,得到第二候选项集,其中,第二候选项集包括多个候选元素,每个候选元素
均包括两个历史数据,且每个候选元素中,支持度最小的历史数据为首位历史数据,支持度
最大的历史数据为末位历史数据。
为了更好的对上述最大频繁项集的生成进行阐述,接下来具体举例说明:假设有:
原始数据库D={T1,T2,T3,…,T8,T9},共有9个事务项(对应于历史数据集),分别为:事务T1
={I1,I2,I5};T2={I2,I4};T3={I2,I3};T4={I1,I2,I4};T5={I1,I3};T6={I2,I3};T7={I1,
I3};T8={I1,I2,I3,I5};T9={I1,I2,I3},其中,I1、I2、I3、I4、I5对应于各个历史数据,令预设
最小支持度min_sup=2,置信度confidence=60%。
Step1:删除小于min_sup的项最后得到L1,把每一项处理成(项,事务集合,支持
度)的格式,生成频繁1-项集表E1,如下:
表E1
项
事务集合
支持度
I2
T1,T2,T3,T4,T6,T7,T8,T9
7
I1
T1,T4,T5,T7,T8,T9
6
I3
T3,T5,T6,T7,T8,T9
6
I4
T2,T4
2
I5
T1,T8
2
其中表中对L1按支持度从小到大排序,使其为I2>I1>I3>I4=I5。根据需要可通过支
持度排名进行频繁1-项集(对应于第一频繁项集)的过滤,例如:表E1中所有项的支持度均
满足最小支持度(大于等于2),假设当前表中80%的项的支持度均大于5,那么在为了提高
算法效率的情况,剩下的支持度为2的项可以被过滤掉。
Step2:候选2-项集(对应于第二候选项集)为:C2=L1*L1(*为自连接运算)
C2={(U1,U2)},其中U1,U2∈(I1,I2,I3,I4,I5)
![]()
C2的处理方法为:将U1,U2分开,找出两者中支持度最小的那个项,以最小项对应的
事务集合为标准,在该事务集合中,统计U1,U2的支持度。
具体举例为:
(1)在(I5,I4),(I5,I3),(I5,I1),(I5,I2)这四个项中,项I5的支持度在表E1较小,则
以I5对应的事务集合{T1,T8}为标准,在表E1中分别扫描I4,I3,I1,I2在集合{T1,T8}中出现
的次数:
![]()
四个项扫描只含两个元素的事务集合{T1,T8},共计扫描2*4=8次。
(2)在(I4,I1),(I4,I3),(I4,I2)这三个项中,项I4的支持度在表E1较小,则以I4对应
的事务集合{T2,T4}为标准,在表E1中分别扫描I3,I1,I2在集合{T2,T4}中出现的次数:
![]()
三个项扫描只含两个元素的事务集合{T2,T4},共计扫描2*3=6次。
(3)在(I3,I1),(I3,I2)两项中,项I3的支持度在表E1较小,则以I3对应的事务集合
{T3,T5,T6,T7,T8,T9}为标准,在表E1中分别扫描I1,I2在集合{T3,T5,T6,T7,T8,T9}中出现
的次数:
![]()
两个项扫描只含六个元素的事务集合{T2,T4},共计扫描6*2=12次。
(4)在(I1,I2)中,项I1的支持度在表E1较小,则以I1对应的事务集合{T1,T4,T5,T7,
T8,T9}为标准,在表E1中扫描I2在集合{T1,T4,T5,T7,T8,T9}中出现的次数:
项
事务集合
支持度
I1,I2
T1,T4,T5,T7,T8,T9
4
一个项扫描只含六个元素的事务集合{T2,T4},共计扫描6*1=6次。
那么,对于C2的处理共扫描了8+6+12+6=32次。删除支持度小于2的项,则第二频
繁项集为L2={(I5,I1),(I5,I2),(I4,I2),(I3,I1),(I3,I2),(I1,I2)}
Step3:候选k-项集(对应于第K候选项集)为:Ck=Lk-1*Lk-1(k≥2)(*为自连接运
算)
自连接操作(k≥2时):根据Apriori的性质,k≥2时,两个第(k-1)频繁项集自连
接,需要前(k-2)项相同才能生成候选k-项集。本发明实施例中将第(k-1)频繁项集的前(k-
2)项作为Key值,最后一项为Value值,由Map函数输出。Reduce函数将相同Key值的数据规约
到同一Reduce函数,快速的实现自连接操作。以2-项频繁集(对应于第二频繁项集)生成3-
项候选集(对应于第三候选项集)为例:在L2={(I5,I1),(I5,I2),(I4,I2),(I3,I1),(I3,I2),
(I1,I2)}中,经过Map函数处理,输出结果为:<I5,I1>,<I5,I2><I4,I2>,<I3,I1>,<I3,I2>,<I1,
I2>,Map Re duce将其排序后生成的结果为:<I5,[(I1),I2]>,<I4,I2>,<I3,[(I1),I2]>,<I1,
I2>。将该结果输入Re duce函数中进行处理,输出结果为:<I5,I1,I2>,<I3,I1,I2>,此结果作
为3-项候选集。
k≥2时,在处理好较为耗时的自连接操作后,则得到频繁k项集(对应于第K频繁项
集)Lk的步骤可归纳为:
(1)将Lk-1按支持度从小到大排序有:Lk-1(1)<Lk-1(2)<…Lk-1(i)<…<Lk-1(n_(k-1));
(2)按照排序好的Lk-1生成候选k项集Ck(第K候选项集),对Ck进行处理:候选k项集
Ck={(U1,U2,…,Uk)},其中U1,U2,…,Uk∈(I1,I2,I3,I4,I5)
在k个项U1,U2,…,Uk中找出在表E1中对应的支持度最小的项Umin,以Umin对应的事
务集合为标准,在表E1中扫描U1,U2,…,Uk(已剔除Umin)的支持度。在删除小于min_sup的项
后可得频繁k项集Lk。
Step4:按step1至step3的操作顺序直至找出最大频繁项集。
考虑到本发明实施例所提供的行为预测方法的具体应用场景,上述S103对应的规
则确定过程具体通过如下步骤实现,参见图5,上述方法还包括:
S401、根据目标行为和最大频繁项集中的各个历史数据,确定推导出的历史数据
为目标行为的多个关联规则;
S402、确定支持度、置信度均满足要求的关联规则为有效关联规则。
具体的,本发明实施例提供的行为预测方法根据目标行为和最大频繁项集中的各
个历史数据,确定推导出的历史数据为目标行为的多个关联规则后,将找出支持度、置信度
不低于最低值的一系列关联规则作为有效关联规则。
其中,本发明实施例所提供的行为预测方法在确定出有效关联规则后,还通过必
然度对该有效关联规则的置信度进行更新,具体的,将根据每个有效关联规则中用于推导
的历史数据,在所有历史数据中出现的第一概率,以及推倒出的历史数据,在所有历史数据
中出现的第二概率,确定每个有效关联规则的必然度;
根据每个有效关联规则的必然度和每个有效关联规则的置信度,更新每个有效关
联规则的置信度。
为了更好的阐述必然度的概念,接下来对必然度的导出过程进行具体的说明。
在关联规则算法中,对于有效关联规则
而言:
1)若项a在数据库中出现的概率越大,则
出现的必然性越强;
2)若在项a出现的前提下项b的概率大于项b单独出现的概率,则表示项a出现能引
发项b的出现,则
出现的必然性越强;
3)若项b在数据库中出现的概率越大,则能推出项b的条件项增多,则
出现的
需必然性越弱。从客观角度考虑规则引发
出现的因素,提出出现的必然度
如下:
![]()
最后,基于上述必然度对有效关联规则的置信度进行更新,得到更新后的置信度。
为了更好的对用户行为进行预测,参见图6,本发明实施例所提供的行为预测方法
中的行为预测过程具体通过如下步骤实现:
S501、在多个有效关联规则中确定与目标用户的历史数据集合对应的有效关联规
则;
S502、将对应的有效关联规则更新后的置信度作为目标用户执行目标行为的概
率。
具体的,对于前文的历史犯罪人员的历史数据而言,其最终确定的目标用户执行
目标行为的概率(置信度)将发生如下改变:
1){性别=男,年龄=壮年,婚姻状况=离异,就业情况=长期失业、夜间出行情况
=频繁}{犯罪次数=多次},支持度占比=7.2%,更新的置信度=72.8%;
2){年龄=中年,前科人员接触情况=频繁、涉毒情况=涉毒嫌疑较大}{犯罪次数
=多次},支持度占比=6.3%,更新的置信度=61.8%;
3){年龄=中年,前科人员接触情况=频繁、二手市场出入情况=频繁}{犯罪次数
=多次},支持度占比=5.7%,更新的置信度=74.1%;
4){就业情况=短期失业、二手市场出入情况=频繁、涉赌情况=已涉赌}{犯罪次
数=多次},支持度占比=7.9%,更新的置信度=79.3%。
由上述可知,公安部门应加强对已失业、前科人员接触频繁、二手市场出入频繁、
涉毒、涉赌的盗窃前科人员进行重点监控,另外,盗窃再犯罪重要诱因有:失业、前科人员接
触频繁、二手市场出入频繁、涉毒、涉赌。
本发明实施例提供的行为预测方法,与现有技术中基于决策树算法的再犯罪预测
方法所导致的预测结果单一且预测准确度较差以及基于综合科学的再预测方法,操作过程
复杂,实用性较差相比,其首先获取多个用户的历史数据集合,其中,每个历史数据集合均
包括多个历史数据,历史数据包括目标行为,然后对所有历史数据进行处理,得到所有历史
数据对应的最大频繁项集,其中,最大频繁项集中包括多个元素,每个元素按照支持度由小
到大的顺序排列,且,每个元素包括多个历史数据,每个元素中的各个历史数据按照支持度
由小到大的顺序排列,再者根据目标行为和最大频繁项集中的各个历史数据,确定用于推
导目标行为的多个有效关联规则,最后根据目标用户的历史数据集合和各个有效关联规
则,确定目标用户执行目标行为的概率,其利用改进的关联规则算法对目标用户执行目标
行为进行预测,预测的准确度较高,且操作过程简单,实用性较佳。
本发明实施例还提供了一种行为预测装置,所述装置用于执行上述行为预测方
法,参见图7,所述装置包括:
获取模块11,用于获取多个用户的历史数据集合,其中,每个历史数据集合均包括
多个历史数据,历史数据包括目标行为;
处理模块22,用于对所有历史数据进行处理,得到所有历史数据对应的最大频繁
项集,其中,最大频繁项集中包括多个元素,每个元素按照支持度由小到大的顺序排列,且,
每个元素包括多个历史数据,每个元素中的各个历史数据按照支持度由小到大的顺序排
列;
规则确定模块33,用于根据目标行为和最大频繁项集中的各个历史数据,确定用
于推导目标行为的多个有效关联规则;
行为确定模块44,用于根据目标用户的历史数据集合和各个有效关联规则,确定
目标用户执行目标行为的概率。
为了更好的得到最大频繁项集,参见图8,上述处理模块22具体包括:
第一处理单元221,用于对所有历史数据进行处理,得到历史数据对应的第K候选
项集,其中,第K候选项集包括多个候选元素,每个候选元素均包括K个历史数据,且每个候
选元素中,支持度最小的历史数据为首位历史数据,支持度最大的历史数据为末位历史数
据;其中,K大于等于2;
第二处理单元222,用于对第K候选项集进行处理,得到第K频繁项集,其中,第K频
繁项集包括多个频繁元素,每个频繁元素的支持度均大于预设支持度,各个频繁元素按照
支持度由小到大的顺序进行排序,每个频繁元素均包括K个历史数据,且每个频繁元素中,
支持度最小的历史数据为首位历史数据,支持度最大的历史数据为末位历史数据;
生成单元223,用于在第K频繁项集中存在前K-1个历史数据相同的多个频繁元素
时,将前K-1个历史数据相同的多个频繁元素进行合并,得到第K+1候选项集,在第K频繁项
集中不存在前K-1个历史数据相同的多个频繁元素时,将第K频繁项集确定为所有历史数据
对应的最大频繁项集。
其中,为了得到上述第K频繁项集,本发明实施例所提供的行为预测装置将基于预
设支持度对第K候选项集中的候选元素进行筛选,并根据筛选后的候选元素进行排序,参见
图9,上述第二处理单元222包括:
确定子单元2221,用于对于第K候选项集中的每个候选元素,确定候选元素中的前
K-1个历史数据共同出现的历史数据集合,根据确定的历史数据集合确定候选元素的支持
度;
筛选子单元2222,用于根据第K候选项集中每个候选元素的支持度,以及预设支持
度,对各个候选元素进行筛选,得到支持度大于预设支持度的候选元素;
排序子单元2223,用于根据得到的每个候选元素的支持度由小到大的顺序,对得
到的每个候选元素进行排序,得到第K频繁项集。
另外,本发明实施例所提供的行为预测装置中的第2候选项集是通过第1频繁项集
自连接生成的,而该第1频繁项集又是通过对第1候选项集进行筛选得到的,那么,本发明实
施例所提供的处理模块22还包括:
第一组合单元,用于将所有历史数据进行组合,得到第一候选项集;
确定单元,用于确定第一候选项集对应的第一频繁项集,其中,第一频繁项集中,
每个历史数据的支持度均大于预设支持度,且每个历史数据按照支持度由小到大的顺序进
行排序;
第二组合单元,用于根据第一频繁项集中各个历史数据的顺序,对第一频繁项集
中的各个历史数据进行组合,得到第二候选项集,其中,第二候选项集包括多个候选元素,
每个候选元素均包括两个历史数据,且每个候选元素中,支持度最小的历史数据为首位历
史数据,支持度最大的历史数据为末位历史数据。
考虑到本发明实施例所提供的行为预测装置的具体应用场景,上述规则确定模块
33还用于根据目标行为和最大频繁项集中的各个历史数据,确定推导出的历史数据为目标
行为的多个关联规则;确定支持度、置信度均满足要求的关联规则为有效关联规则。
其中,本发明实施例所提供的行为预测装置在确定出有效关联规则后,还将通过
自身包括的更新模块基于必然度对该有效关联规则的置信度进行更新,其中,上述更新模
块,用于根据每个有效关联规则中用于推导的历史数据,在所有历史数据中出现的第一概
率,以及推倒出的历史数据,在所有历史数据中出现的第二概率,确定每个有效关联规则的
必然度;根据每个有效关联规则的必然度和每个有效关联规则的置信度,更新每个有效关
联规则的置信度。
为了更好的对用户行为进行预测,本发明实施例所提供的行为预测装置中的行为
确定模块44还用于,在多个有效关联规则中确定与目标用户的历史数据集合对应的有效关
联规则;将对应的有效关联规则更新后的置信度作为目标用户执行目标行为的概率。
本发明实施例提供的行为预测装置,与现有技术中基于决策树算法的再犯罪预测
方法所导致的预测结果单一且预测准确度较差以及基于综合科学的再预测方法,操作过程
复杂,实用性较差相比,其首先获取多个用户的历史数据集合,其中,每个历史数据集合均
包括多个历史数据,历史数据包括目标行为,然后对所有历史数据进行处理,得到所有历史
数据对应的最大频繁项集,其中,最大频繁项集中包括多个元素,每个元素按照支持度由小
到大的顺序排列,且,每个元素包括多个历史数据,每个元素中的各个历史数据按照支持度
由小到大的顺序排列,再者根据目标行为和最大频繁项集中的各个历史数据,确定用于推
导目标行为的多个有效关联规则,最后根据目标用户的历史数据集合和各个有效关联规
则,确定目标用户执行目标行为的概率,其利用改进的关联规则算法对目标用户执行目标
行为进行预测,预测的准确度较高,且操作过程简单,实用性较佳。
另外,本发明实施例所提供的行为预测方法和装置还能够带来如下技术效果:
(1)通过运用改进后的关联规则算法,克服了决策树算法多值偏向、决策树算法预
测再犯罪的结果为单一且不准确的缺陷;
(2)在基于社会学、心理学和管理学方面的再犯罪研究领域,避免了其复杂性和不
易推广性,节省了一定的人力物力。同时运用机器学习中的关联规则对数据进行的自我迭
代,在一定程度上也避免了由于人为参与所造成的主观性。
(3)通过置信度给出案件属性与再犯罪之间关联的概率,置信度大小的自由调整
对寻找影响再犯罪的因素指标更为方便灵活,结合专家的经验指导,可以使关联规则的结
果更为准确。
本发明实施例所提供的进行行为预测的方法的计算机程序产品,包括存储了程序
代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述
的方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的行为预测的装置可以为设备上的特定硬件或者安装于设
备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述
方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应
内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装
置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方
式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻
辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可
以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间
的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连
接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可
以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以
存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说
对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计
算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个
人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存
储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一
个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第
一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明
的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发
明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员
在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使
相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护
范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。