一种可信行为识别的方法和装置.pdf

上传人:54 文档编号:6168077 上传时间:2019-05-16 格式:PDF 页数:20 大小:1.71MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210293487.8

申请日:

2012.08.16

公开号:

CN103593609A

公开日:

2014.02.19

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 21/55申请日:20120816|||公开

IPC分类号:

G06F21/55(2013.01)I; G06F17/30

主分类号:

G06F21/55

申请人:

阿里巴巴集团控股有限公司

发明人:

李剑

地址:

英属开曼群岛大开曼资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京润泽恒知识产权代理有限公司 11319

代理人:

赵娟

PDF下载: PDF下载
内容摘要

本申请提供了一种可信行为识别的方法和装置,其中所述方法包括:预置可信行为数据集合以及不可信行为数据集合;获取特定行为的目标页面焦点行为数据;判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;若归属于可信行为数据集合,则允许所述特定行为的执行;若归属于不可信行为数据集合,则中止所述特定行为的执行。本申请的一种可信行为识别的方法和装置,用以准确检测出网上的不可信行为,提高对可信行为识别的准确性,尤其是可信支付行为的准确性,从而提高用户网上操作的安全性。

权利要求书

权利要求书
1.  一种可信行为识别的方法,其特征在于,包括:
预置可信行为数据集合以及不可信行为数据集合;
获取特定行为的目标页面焦点行为数据;
判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
若归属于可信行为数据集合,则允许所述特定行为的执行;
若归属于不可信行为数据集合,则中止所述特定行为的执行。

2.  根据权利要求1所述的方法,其特征在于,所述预置可信行为数据集合以及不可信行为数据集合的步骤包括:
采集历史的页面焦点行为数据;
将所述历史的页面焦点行为数据按指定格式转换为样本数据;
对所述样本数据进行聚类,形成多个相似样本数据的集合;
分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。

3.  根据权利要求1或2所述的方法,其特征在于,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。

4.  根据权利要求3所述的方法,其特征在于,所述预置可信行为数 据集合以及不可信行为数据集合的步骤还包括;
将所采集的历史页面焦点行为数据中的无效数据进行删除;
从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据。

5.  根据权利要求4所述的方法,其特征在于,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。

6.  根据权利要求5所述的方法,其特征在于,所述对样本数据进行聚类,形成多个相似样本数据的集合的步骤进一步包括:
若样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1,a2,...,aJ];
使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样 本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合,则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合Cj的充分必要条件,其中,所述相似度采用欧式距离取倒数的计算方法。

7.  根据权利要求6所述的方法,其特征在于,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址;
统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。

8.  根据权利要求6所述的方法,其特征在于,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
若出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;
若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的 比率低于第二预设阈值,则判定当前相似样本数据集合的类别为可信行为类别;
若出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值,则统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。

9.  根据权利要求1或2或3或5或6或7或8所述的方法,其特征在于,还包括:
定期更新所述可信行为数据集合以及不可信行为数据集合。

10.  根据权利要求9所述的方法,其特征在于,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。

11.  根据权利要求2或4或5或6或7或8所述的方法,其特征在于,所述判断目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤包括:
将所述目标页面焦点行为数据中的无效数据进行删除;
将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。

12.  根据权利要求11所述的方法,其特征在于,所述根据指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤进一步包括:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:Similar(X,mj),j∈[1,k];
其中,k=k1+k2;
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Simlarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。

13.  一种可信行为识别的装置,其特征在于,包括:
聚类模块,用于预置可信行为数据集合以及不可信行为数据集合;
行为焦点数据获取模块,用于获取特定行为的目标页面焦点行为数据;
可信行为判断模块,用于判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,允许所述特定行为的执行;
不可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,中止所述特定行为的执行。

14.  根据权利要求13所述的装置,其特征在于,所述聚类模块包括:
历史数据采集子模块,用于采集历史的页面焦点行为数据;
样本生成子模块,用于将所述历史的页面焦点行为数据按指定格式转换为样本数据;
聚类处理子模块,用于对所述样本数据进行聚类,形成多个相似样本数据的集合;
类别确定子模块,用于分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
数据集合组织子模块,用于将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。

15.  根据权利要求13或14所述的装置,其特征在于,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。

16.  根据权利要求15所述的装置,其特征在于,所述聚类模块还包括;
无效数据删除子模块,与历史数据采集子模块连接,用于将所采集的历史页面焦点行为数据中的无效数据进行删除;
抽样子模块,用于从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据,并传输至样本生成子模块。

17.  根据权利要求16所述的装置,其特征在于,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总 和。

18.  根据权利要求13或14或16或17所述的装置,其特征在于,还包括:
更新模块,用于定期更新所述可信行为数据集合以及不可信行为数据集合。

19.  根据权利要求18所述的装置,其特征在于,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。

20.  根据权利要求13或14或16或17或18或19所述的装置,其特征在于,所述可信行为判断模块包括:
数据清洗子模块,用于将所述目标页面焦点行为数据中的无效数据进行删除;
格式转换子模块,用于将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
相似度判定子模块,用于根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。

说明书

说明书一种可信行为识别的方法和装置
技术领域
本申请涉及可信计算的技术领域,特别是涉及一种可信行为识别的方法和一种可信行为识别的装置。
背景技术
随着网络技术和应用的飞速发展,互联网日益呈现出复杂、异构等特点,当前的网络体系已经暴露出严重的不足,网络正面临着严峻的安全和服务质量保证问题等重大挑战。例如,在网络支付中,用户账户存在大量风险。如:账户盗用、账户欺诈。账户欺诈又包含很多种形式,如用户被网络钓鱼、客户端中木马、被虚假客服欺诈等等。这些威胁严重影响了用户账户的资金安全、信息安全。
目前,网络可信问题已得到全世界的重视,保障网络的可信成为网络进一步发展的迫切需求。可信计算是研究网络可信的关键,尽管目前尚没有一个明确的定义,但人们对可信计算的目的都有统一的认识:提高网络和服务的安全性。在可信计算中,可信信息的来源包括直接经验、推荐信息和用户的历史行为数据。其中,用户的历史行为数据是一个最客观的重要信息来源,其真实地反映了用户的行为变化,但要从庞杂的用户历史行为数据中提取出有用的信息是非常困难的。
以网络支付中的可信行为识别为例,现有技术中,用户的行为风险分析是根据用户的业务行为进行判断的,如针对用户支付过程中,每个业务操作的行为:用户登录-》用户浏览商品页面-》用户下单购买-》用户确认支付进行如下分析:
1)用户在以上整个支付环节中操作环境的可信度(如是否为异地登陆);
2)黑白名单可信度判断(如:付款IP地址是否在黑名单内);
3)创建交易的IP地址是否频率很快等。
这种现有技术往往会出现以下问题:
a)批量CC(ChallengeCollapsar)攻击引起的异常支付行为,特别是一些速率较慢的攻击方式,如:批量创建交易、炒作信用的行为,这些异常交易由于完全在攻击者控制之下进行,攻击者即是账户的所有者,基于用户支付行为的可信分析方法无法检测出异常;
b)在正常用户电脑中木马,木马在用户电脑上自动创建交易、自动付款。比如:用户在中木马时,木马会在用户电脑上自动创建付款交易,如果用户没有使用安全认证产品、仅仅使用了数字证书,或者使用U盾且U盾正好插在电脑上的时候,就会被木马远程自动创建交易,造成用户资金损失。
c)基于黑白名单、异地登陆等技术判断支付过程是否可信,往往会造成较大误杀。
d)第三方支付平台还会遇到批量盗用的事件。黑客利用各种方式获取用户认证信息,并且,使用机器爬虫进行批量登录,批量付款,批量销赃,造成支付平台用户大量资金损失和信息泄露。
以上只是列举了一些场景,在这些场景中,由于在用户登录-》用户浏览商品页面-》用户确认购买-》用户确认支付的过程中,用户业务行为都是正常的,无法检测出不可信的支付行为。即采用现有技术很难对可信行为进行准确识别,尤其是很难对可信支付行为进行准确识别。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种可信行为识别的机制,用以准确检测出网上的不可信行为,提高对可信行为识别的准确性,尤其是可信支付行为的准确性,从而提高用户网上操作的安全性。
发明内容
本申请的目的是提供一种可信行为识别的方法和装置,用以准确检测出网上的不可信行为,提高对可信行为识别的准确性,尤其是可信支 付行为的准确性,从而提高用户网上操作的安全性。
为了解决上述问题,本申请公开了一种可信行为识别的方法,包括:
预置可信行为数据集合以及不可信行为数据集合;
获取特定行为的目标页面焦点行为数据;
判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
若归属于可信行为数据集合,则允许所述特定行为的执行;
若归属于不可信行为数据集合,则中止所述特定行为的执行。
优选地,所述预置可信行为数据集合以及不可信行为数据集合的步骤包括:
采集历史的页面焦点行为数据;
将所述历史的页面焦点行为数据按指定格式转换为样本数据;
对所述样本数据进行聚类,形成多个相似样本数据的集合;
分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
优选地,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述预置可信行为数据集合以及不可信行为数据集合的步 骤还包括;
将所采集的历史页面焦点行为数据中的无效数据进行删除;
从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据。
优选地,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
优选地,所述对样本数据进行聚类,形成多个相似样本数据的集合的步骤进一步包括:
若样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1,a2,...,aJ};
使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样 本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合,则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合Cj的充分必要条件,其中,所述相似度采用欧式距离取倒数的计算方法。
优选地,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址;
统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
优选地,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
若出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;
若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的 比率低于第二预设阈值,则判定当前相似样本数据集合的类别为可信行为类别;
若出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值,则统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
优选地,所述方法,还包括:
定期更新所述可信行为数据集合以及不可信行为数据集合。
优选地,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述判断目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤包括:
将所述目标页面焦点行为数据中的无效数据进行删除;
将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目 标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。
优选地,所述根据指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤进一步包括:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:Similar(X,mj),j∈[1,k];
其中,k=k1+k2;
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Simlarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。
本申请实施例还公开了一种可信行为识别的装置,包括:
聚类模块,用于预置可信行为数据集合以及不可信行为数据集合;
行为焦点数据获取模块,用于获取特定行为的目标页面焦点行为数 据;
可信行为判断模块,用于判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,允许所述特定行为的执行;
不可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,中止所述特定行为的执行。
优选地,所述聚类模块包括:
历史数据采集子模块,用于采集历史的页面焦点行为数据;
样本生成子模块,用于将所述历史的页面焦点行为数据按指定格式转换为样本数据;
聚类处理子模块,用于对所述样本数据进行聚类,形成多个相似样本数据的集合;
类别确定子模块,用于分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
数据集合组织子模块,用于将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
优选地,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述聚类模块还包括;
无效数据删除子模块,与历史数据采集子模块连接,用于将所采集的历史页面焦点行为数据中的无效数据进行删除;
抽样子模块,用于从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据,并传输至样本生成子模块。
优选地,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
优选地,所述装置,还包括:
更新模块,用于定期更新所述可信行为数据集合以及不可信行为数据集合。
优选地,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述可信行为判断模块包括:
数据清洗子模块,用于将所述目标页面焦点行为数据中的无效数据进行删除;
格式转换子模块,用于将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
相似度判定子模块,用于根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合
与现有技术相比,本申请包括以下优点:
现有技术中,面对真实环境中的海量数据,没有很好的手段能够将用户行为进行分类(分类要求用户类别已知、用户每一类别的特征已知),而本申请通过采集用户的历史页面焦点行为数据,进行建模分析,将用户行为聚类成不同类别,并标记出可信类别和非可信类别。然后在用户特定行为过程中,基于页面焦点行为数据进行可信支付行为分析,通过实时采集用户操作数据,与预置的聚类类别进行对比,从而实现对用户的特定行为实时地可信判断。本申请能够更加细致、精确地描述用户的特定行为,对于不可信的行为,能够更准确的被发现,并会对不可信行为发起验证或阻断该特定行为的继续执行,从而可以有效提高用户网上操作的安全性。
附图说明
图1是本申请的一种可信行为识别的方法实施例的步骤流程图;
图2是本申请的一种可信行为识别的装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,采用基于页面焦点行为的可信分析机制对用户的特定行为进行可信识别,具体而言,即通过采集用户在特定业务过程中(如网络支付业务过程中)的页面焦点行为,使用页面焦点行为数据对用户行为进行刻画,对历史行为进行建模聚类,并对用户的特定行为进行实时的可信支付判断。若为可信行为,则允许该特定行为继续执行,若为不可信行为,则向用户发起验证或阻断该特定行为的继续执行。
参照图1,其示出了本申请的一种可信行为识别的方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,预置可信行为数据集合以及不可信行为数据集合;
在本申请的一种优选实施例中,所述可信行为数据集合以及不可信行为数据集合可以通过对历史的页面焦点行为数据进行建模聚类生成,具体可以包括如下子步骤:
子步骤S11,采集历史的页面焦点行为数据;
页面焦点行为数据是指在web页面中,用户正在操作的对象的相关数据。比如,用户正在输入用户名,页面焦点行为对象就是页面的用户名输入框;用户正在输入密码,页面焦点行为对象就是页面的密码输入框。页面焦点行为描述了用户在页面上操作的轨迹,可以用于刻画用户的行为。
页面焦点行为可以包括页面对象获得焦点和失去焦点两种行为。在本申请实施例中,所述页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
例如,假设所采集的历史页面焦点行为数据包括如下数据分组:
[{'y':118,'x':182,'type':1,'target':'username','time':125},src=’www.abc.com/xxx.htm’,
{'y':118,'x':182,'type':0,'target':'username','time':225},src=’www.abc.com/xxx.htm’},
{'y':356,'x':678,'type':1,'target':'password','time':525},herf=’www.abc.com/yyy.htm’},
{'y':356,'x':678,'type':0,'target':'password','time':725}],herf=’www.abc.com/yyy.htm’}]
上述每一条数据分组代表一次页面焦点行为对象的操作。其中,'x','y'用于标识焦点行为对象在web页面上的位置,'type'用于标识当前是失去焦点行为对象或获得焦点行为对象;'target'用于标识焦点操作当前的焦点行为对象;'time'用于标识当前页面焦点行为对象的操作距离页面加载的时间差;'src'、'herf'分别用于标识焦点行为对象的src属性以及herf属性。
在具体实现中,所述历史页面焦点行为数据可以使用Javascript(JS)脚本或客户端程序进行采集。还可以进一步在采集端对历史页面焦点行 为数据进行加密,由服务端在接收到历史页面焦点行为数据后进行解密。
子步骤S12,将所采集的历史页面焦点行为数据中的无效数据进行删除;
在实际中,所述无效数据可以包括数据格式不正确,或数据解密失败的数据。
子步骤S13,从删除过无效数据的中抽样出预设数量的历史页面焦点行为数据;
在历史页面焦点行为数据量较大的情况下,可以采用数据抽样算法在海量的历史页面焦点行为数据中挑选出一部分历史页面焦点行为数据,如10万条,用于数据建模。
子步骤S14,将所述历史的页面焦点行为数据按指定格式转换为样本数据;
作为本申请实施例具体应用的一种示例,每条样本数据可以包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均 值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
其中,上述a1—a7每一维度都可以采用数字表示,即模型输入数据可以采用向量表示为:X={a1,a2,...,aJ]。
需要说明的是,上述a1—a7的设置仅仅用作示例,在实际中,本领域技术人员根据实际情况设置更多内容的样本数据,如还有a8,a9,a10等;或者,设置其它内容的样本数据都是可行的,本申请对此无需加以限制。
子步骤S15,对所述样本数据进行聚类,形成多个相似样本数据的集合;
在具体实现中,可以对历史页面焦点行为数据进行建模描述:
假设样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1.a2,...,aJ]。
在具体实现中,可以使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合(即第j个聚类),则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法可以为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合(聚类)Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合C1的 充分必要条件,其中,所述相似度可以采用欧式距离取倒数的计算方法。
子步骤S16,分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
作为本申请实施例具体应用的一种示例,可以采用如下方式分别确定所述多个相似样本数据的集合的类别:
获取所述相似样本数据集合中样本数据的IP地址;
统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
例如,对于相似样本数据集合C1,假设其中样本数据的数量为n,则统计这n个样本数据的IP地址,计算每一个IP地址对应样本数据的个数,将该个数除以n,则得到每个IP在该类别集合C1中出现的百分比,将所有IP地址百分比求均值,即可得到该类别集合的“IP出现的百分比均值”。一般而言,非可信行为类别的IP地址出现的百分比均值较大,而可信行为类别的IP地址出现的百分比均值比较小。故可将高于第一预设阈值的相似样本数据集合的类别判定为不可信行为类别;将低于第一预设阈值的相似样本数据集合的类别判定为可信行为类别。
作为本申请实施例具体应用的另一种示例,可以采用如下方式分别确定所述多个相似样本数据的集合的类别:
获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
若出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值,则判定当前相似样本数据集合的类别为不可信 行为类别;
若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,则判定当前相似样本数据集合的类别为可信行为类别;
若出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值,则统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。例如,计算一个相似样本数据集合中样本数据的IP地址、mac地址出现在黑名单和白名单中的比率。出现在黑名单中的比率较高的,则确定为非可信行为类别;出现在白名单中的比率较高的,则确定为可信行为类别。
当然,上述确定相似样本数据集合的类别的方法仅仅用作示例,上述两种示例也可以结合使用,本领域技术人员根据实际情况采用任一种确定方式都是可行的。需要说明的是,用于确定相似样本数据集合的类别的数据,不能为样本数据中的数据,即前述a1—a7。
子步骤S17,将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
在实际中,所述可信行为数据集合及不可信行为数据集合可以采用数据库的形式部署在一台服务器或多台服务器中。在实际应用中,若数据量较大,所述行为建模聚类过程可以使用hadoop(一个能够对大量数据进行分布式处理的软件框架)集群计算可以更好的支持运算。
在具体实现中,本申请实施例还可以包括如下步骤:
定期更新所述可信行为数据集合以及不可信行为数据集合。
由于历史页面焦点行为数据不断积累,需要定期更新历史数据,定期进行抽样、建模、聚类分析,从而保证数据模型和聚类结果的准确性。
步骤102,获取特定行为的目标页面焦点行为数据;
作为本申请实施例具体应用的一种示例,所述特定行为可以包括用户的网上支付行为,在这种情况下,所述目标页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
例如,一次用户支付行为涉及用户登录页面,用户浏览商品页面,用户下单购买页面以及用户确认支付页面,则目标页面焦点行为数据包括在上述各web页面上的焦点行为对象;相应的失去/获得焦点行为对象的时间;焦点行为对象在上述各web页面上的特征信息;以及失去/获得焦点行为对象的动作。
步骤103,判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
与前述对历史页面焦点行为数据进行抽样,建模,聚类的处理过程相应,在本申请的一种优选实施例中,所述步骤103可以包括如下子步骤:
子步骤S21,将所述目标页面焦点行为数据中的无效数据进行删除;
在实际中,所述无效数据可以包括数据格式不正确,或数据解密失 败的数据。
子步骤S22,将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
作为本申请实施例具体应用的一种示例,所述样本数据的指定格式可以包括:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
其中,上述a1—a7每一维度都可以采用数字表示,即样本数据可以采用向量表示为:X={a1,a2,...,aJ]。
子步骤S23,根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为 数据集合。
具体而言,所述子步骤S23可以采用如下计算方式:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:
Similar(X,mj),j∈[1,k];
其中,k=k1+k2;
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similamn(j-jr),并且Cj(j-jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。
当然,上述判断类别归属的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种类别归属判断方法均是可行的,本申请对此无需加以限制。
步骤104,若归属于可信行为数据集合,则允许所述特定行为的执行;
步骤105,若归属于不可信行为数据集合,则中止所述特定行为的执行。
例如,对于用户支付行为,若判定该次支付行为的目标页面焦点行 为数据属于不可信行为数据集合,则中止用户支付行为的继续执行,并对此次不可信的支付行为加强认证校验,或禁止该次支付。
在实际应用中,上述判断目标页面焦点行为数据归属于何种类别的过程可以使用java语言做后台计算,并提供webservice(系统对外的接口)接口进行可信判断服务。所述页面焦点行为的可信判断,可以使用单独一个页面的焦点行为进行聚类和判断,也可以使用多个页面的焦点行为,组合在一起进行聚类和判断,本申请对此不作限制。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图2,示出了本申请的一种可信行为识别的装置实施例的结构框图,具体可以包括如下模块:
聚类模块201,用于预置可信行为数据集合以及不可信行为数据集合;
行为焦点数据获取模块202,用于获取特定行为的目标页面焦点行为数据;
可信行为判断模块203,用于判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
可信行为处理模块204,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,允许所述特定行为的执行;
不可信行为处理模块205,用于在判定所述目标页面焦点行为数据归 属于可信行为数据集合时,中止所述特定行为的执行。
在本申请的一种优选实施例中,所述聚类模块201可以包括如下子模块:
历史数据采集子模块,用于采集历史的页面焦点行为数据;
样本生成子模块,用于将所述历史的页面焦点行为数据按指定格式转换为样本数据;
聚类处理子模块,用于对所述样本数据进行聚类,形成多个相似样本数据的集合;
类别确定子模块,用于分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
数据集合组织子模块,用于将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
在本申请实施例中,所述页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
在具体实现中,所述聚类模块201还可以包括如下子模块;
无效数据删除子模块,与历史数据采集子模块连接,用于将所采集的历史页面焦点行为数据中的无效数据进行删除;
抽样子模块,用于从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据,并传输至样本生成子模块。
作为本申请实施例具体应用的一种示例,所述每条样本数据可以包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
在本申请的一种优选示例中,所述聚类处理子模块可以采用如下方式对样本数据进行聚类,形成多个相似样本数据的集合:
若样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1,a2,...,aJ];
使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合,则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合Cj的充分必要条件,其中,所述相似度采用欧式距离取倒数的计算方法。
在本申请的一种优选示例中,所述类别确定子模块可以进一步包括如下单元:
IP获取单元,用于获取所述相似样本数据集合中样本数据的IP地址;
第一统计单元,用于统计所述相似样本数据集合中各IP地址所占百分比的均值;
第一可信类别判定单元,用于在高于第一预设阈值时,判定当前相似样本数据集合的类别为不可信行为类别;
第二可信类别判定单元,用于在低于第一预设阈值时,判定当前相似样本数据集合的类别为可信行为类别。
在本申请的另一种优选示例中,所述类别确定子模块可以进一步包括如下单元:
通信地址获取单元,用于获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
第二统计单元,用于统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
第三可信类别判定单元,用于在出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值时,判定当前相似样本数据集合的类别为不可信行为类别;
第四可信类别判定单元,用于在出现在白名单中的比率高于第三预 设阈值,且出现在黑名单中的比率低于第二预设阈值时,判定当前相似样本数据集合的类别为可信行为类别;
第三统计单元,用于在出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,在出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值时,则统计所述相似样本数据集合中各IP地址所占百分比的均值;
第五可信类别判定单元,用于在所述均值高于第一预设阈值时,判定当前相似样本数据集合的类别为不可信行为类别;
第六可信类别判定单元,用于在所述均值低于第一预设阈值时,判定当前相似样本数据集合的类别为可信行为类别。
在申请实施例中,还可以包括更新模块,用于定期更新所述可信行为数据集合以及不可信行为数据集合。
作为本申请实施例具体应用的一种示例,所述特定行为可以包括用户支付行为。在这种情况下,所述目标页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
在具体实现中,所述可信行为判断模块203可以包括如下子模块:
数据清洗子模块,用于将所述目标页面焦点行为数据中的无效数据进行删除;
格式转换子模块,用于将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
相似度判定子模块,用于根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。
具体而言,所述相似度判定子模块可以采用如下方式进行归属判定:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:
Similar(X,mj),j∈[1,k];
其中,k=k1+k2;
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similarmin(j=jr),并且Cj(j=jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得 知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种可信行为识别的方法和一种可信行为识别的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

一种可信行为识别的方法和装置.pdf_第1页
第1页 / 共20页
一种可信行为识别的方法和装置.pdf_第2页
第2页 / 共20页
一种可信行为识别的方法和装置.pdf_第3页
第3页 / 共20页
点击查看更多>>
资源描述

《一种可信行为识别的方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种可信行为识别的方法和装置.pdf(20页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103593609 A (43)申请公布日 2014.02.19 CN 103593609 A (21)申请号 201210293487.8 (22)申请日 2012.08.16 G06F 21/55(2013.01) G06F 17/30(2006.01) (71)申请人 阿里巴巴集团控股有限公司 地址 英属开曼群岛大开曼资本大厦一座四 层 847 号邮箱 (72)发明人 李剑 (74)专利代理机构 北京润泽恒知识产权代理有 限公司 11319 代理人 赵娟 (54) 发明名称 一种可信行为识别的方法和装置 (57) 摘要 本申请提供了一种可信行为识别的方法和装 置。

2、, 其中所述方法包括 : 预置可信行为数据集合 以及不可信行为数据集合 ; 获取特定行为的目标 页面焦点行为数据 ; 判断所述目标页面焦点行为 数据归属于可信行为数据集合或不可信行为数 据集合 ; 若归属于可信行为数据集合, 则允许所 述特定行为的执行 ; 若归属于不可信行为数据集 合, 则中止所述特定行为的执行。 本申请的一种可 信行为识别的方法和装置, 用以准确检测出网上 的不可信行为, 提高对可信行为识别的准确性, 尤 其是可信支付行为的准确性, 从而提高用户网上 操作的安全性。 (51)Int.Cl. 权利要求书 4 页 说明书 14 页 附图 1 页 (19)中华人民共和国国家知识产。

3、权局 (12)发明专利申请 权利要求书4页 说明书14页 附图1页 (10)申请公布号 CN 103593609 A CN 103593609 A 1/4 页 2 1. 一种可信行为识别的方法, 其特征在于, 包括 : 预置可信行为数据集合以及不可信行为数据集合 ; 获取特定行为的目标页面焦点行为数据 ; 判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合 ; 若归属于可信行为数据集合, 则允许所述特定行为的执行 ; 若归属于不可信行为数据集合, 则中止所述特定行为的执行。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述预置可信行为数据集合以及不可信 行为数据集合。

4、的步骤包括 : 采集历史的页面焦点行为数据 ; 将所述历史的页面焦点行为数据按指定格式转换为样本数据 ; 对所述样本数据进行聚类, 形成多个相似样本数据的集合 ; 分别确定所述多个相似样本数据的集合的类别, 所述类别为可信行为类别或不可信行 为类别 ; 将可信行为类别的相似样本数据集合组织为可信行为数据集合, 将不可信行为类别的 相似样本数据集合组织为不可信行为数据集合。 3. 根据权利要求 1 或 2 所述的方法, 其特征在于, 所述页面焦点行为数据包括 : 在 web 页面上的焦点行为对象 ; 失去 / 获得焦点行为对象的动作 ; 失去 / 获得焦点行为对象的时间 ; 焦点行为对象的特征信。

5、息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上的位 置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 4. 根据权利要求 3 所述的方法, 其特征在于, 所述预置可信行为数据集合以及不可信 行为数据集合的步骤还包括 ; 将所采集的历史页面焦点行为数据中的无效数据进行删除 ; 从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为 数据。 5. 根据权利要求 4 所述的方法, 其特征在于, 所述每条样本数据包括如下数据内容 : 焦点移动最小距离 a1 : 是指两两焦点行为对象操作移动距离的最小值 ; 焦点移动最大距离 a2。

6、 : 是指两两焦点行为对象操作移动距离的最大值 ; 焦点移动平均距离 a3 : 是指两两焦点行为对象操作移动距离的平均值 ; 焦点移动最小速度 a4 : 是指两两焦点行为对象操作移动速度的最小值 ; 焦点移动最大速度 a5 : 是指两两焦点行为对象操作移动速度的最大值 ; 焦点移动平均速度 a6 : 是指两两焦点行为对象操作移动速度的平均值 ; 焦点移动总距离 a7 : 是指所有两两焦点行为对象操作移动距离的总和。 6. 根据权利要求 5 所述的方法, 其特征在于, 所述对样本数据进行聚类, 形成多个相似 样本数据的集合的步骤进一步包括 : 若样本数据的集合为 D X1, X2, ., Xn,。

7、 样本数据的容量为 nXi, i 1, n 为某 一样本数据, X a1, a2, ., aJ ; 使用聚类算法对所述样本数据的集合进行聚类, 假设 k 表示聚类的样本数据的数目, 权 利 要 求 书 CN 103593609 A 2 2/4 页 3 Cj, j 1, k 表示第 j 个相似样本数据集合, 则聚类后的类别相似样本数据集合为 : H C1, C2, ., Ck ; 其中, 所述聚类算法为 : 假设 mj为聚类 Cj, j 1, k 的聚类中心, Similar(Xi, mj) 为 Xi和 mj的相似度, 即某 条样本数据 Xi和某个相似样本数据集合 Cj的相似度 ; 定义 Sim。

8、ilarmin为类别最小相似度, Similar(Xi, mj) Similarmin, 且 Similar(Xi, mj) 是 Xi和所有类别聚类中心的最大相似度, 为 Xi属于某个相似样本数据集合 Cj的充分必要 条件, 其中, 所述相似度采用欧式距离取倒数的计算方法。 7. 根据权利要求 6 所述的方法, 其特征在于, 所述分别确定多个相似样本数据的集合 的类别的步骤进一步包括 : 获取所述相似样本数据集合中样本数据的 IP 地址 ; 统计所述相似样本数据集合中各 IP 地址所占百分比的均值, 若高于第一预设阈值, 则 判定当前相似样本数据集合的类别为不可信行为类别 ; 若低于第一预设阈。

9、值, 则判定当前 相似样本数据集合的类别为可信行为类别。 8. 根据权利要求 6 所述的方法, 其特征在于, 所述分别确定多个相似样本数据的集合 的类别的步骤进一步包括 : 获取所述相似样本数据集合中样本数据的 IP 地址和 / 或 MAC 地址 ; 统计所述相似样本数据集合中 IP 地址和 / 或 MAC 地址出现在黑名单中的比率和出现 在白名单中的比率 ; 若出现在黑名单中的比率高于第二预设阈值, 且出现在白名单中的比率低于第三预设 阈值, 则判定当前相似样本数据集合的类别为不可信行为类别 ; 若出现在白名单中的比率高于第三预设阈值, 且出现在黑名单中的比率低于第二预设 阈值, 则判定当前。

10、相似样本数据集合的类别为可信行为类别 ; 若出现在白名单中的比率低于第三预设阈值, 且出现在黑名单中的比率低于第二预设 阈值, 或者, 若出现在白名单中的比率高于第三预设阈值, 且出现在黑名单中的比率高于第 二预设阈值, 则统计所述相似样本数据集合中各 IP 地址所占百分比的均值, 若高于第一预 设阈值, 则判定当前相似样本数据集合的类别为不可信行为类别 ; 若低于第一预设阈值, 则 判定当前相似样本数据集合的类别为可信行为类别。 9. 根据权利要求 1 或 2 或 3 或 5 或 6 或 7 或 8 所述的方法, 其特征在于, 还包括 : 定期更新所述可信行为数据集合以及不可信行为数据集合。。

11、 10. 根据权利要求 9 所述的方法, 其特征在于, 所述目标页面焦点行为数据包括 : 在 web 页面上的焦点行为对象 ; 失去 / 获得焦点行为对象的动作 ; 失去 / 获得焦点行为对象的时间 ; 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上的位 置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 11. 根据权利要求 2 或 4 或 5 或 6 或 7 或 8 所述的方法, 其特征在于, 所述判断目标页 面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤包括 : 将所述目标页面焦点行为数据中的无效数。

12、据进行删除 ; 权 利 要 求 书 CN 103593609 A 3 3/4 页 4 将删除过无效数据的目标页面焦点行为数据, 转化为所述样本数据的指定格式 ; 根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集 合的相似度, 以及, 所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似 样本数据集合的相似度, 判定所述目标页面焦点行为数据归属于可信行为数据集合或不可 信行为数据集合。 12. 根据权利要求 11 所述的方法, 其特征在于, 所述根据指定格式的目标页面焦点行 为数据与可信行为数据集合中相似样本数据集合的相似度, 以及, 所述指定格式的目标页 面焦点。

13、行为数据与不可信行为数据集合中相似样本数据集合的相似度, 判定所述目标页面 焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤进一步包括 : 分别计算所述指定格式的目标页面焦点行为数据 X, 与可信行为数据集合中 k1个 相似样本数据集合, 以及, 与不可信行为数据集合中 k2个相似样本数据集合的相似 度 :Similar(X, mj), j 1, k ; 其中, k k1+k2; 从所述 k 个相似度中提取相似度最大值 max(Similar(X, mj), j 1, k ; 假设当 j jr时, Similar(X, mj), j 1, k 获得最大值, 则 : 如果 Simil。

14、ar(X, mj) Similarmn(j jr) , 并且 Cj(j jr) 为可信行为类别的相似 样本数据集合, 则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合 ; 如果 Similar(X, mj) Simlarmn(j jr) , 并且 Cj(j jr) 为不可信行为类别的相似 样本数据集合, 则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合 ; 如果 Similar(Xmj) Similarmin(j jr) , 则判定当前目标页面焦点行为数据支付行 归属于不可信行为数据集合。 13. 一种可信行为识别的装置, 其特征在于, 包括 : 聚类模块, 用于预置可信。

15、行为数据集合以及不可信行为数据集合 ; 行为焦点数据获取模块, 用于获取特定行为的目标页面焦点行为数据 ; 可信行为判断模块, 用于判断所述目标页面焦点行为数据归属于可信行为数据集合或 不可信行为数据集合 ; 可信行为处理模块, 用于在判定所述目标页面焦点行为数据归属于可信行为数据集合 时, 允许所述特定行为的执行 ; 不可信行为处理模块, 用于在判定所述目标页面焦点行为数据归属于可信行为数据集 合时, 中止所述特定行为的执行。 14. 根据权利要求 13 所述的装置, 其特征在于, 所述聚类模块包括 : 历史数据采集子模块, 用于采集历史的页面焦点行为数据 ; 样本生成子模块, 用于将所述历。

16、史的页面焦点行为数据按指定格式转换为样本数据 ; 聚类处理子模块, 用于对所述样本数据进行聚类, 形成多个相似样本数据的集合 ; 类别确定子模块, 用于分别确定所述多个相似样本数据的集合的类别, 所述类别为可 信行为类别或不可信行为类别 ; 数据集合组织子模块, 用于将可信行为类别的相似样本数据集合组织为可信行为数据 集合, 将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。 15. 根据权利要求 13 或 14 所述的装置, 其特征在于, 所述页面焦点行为数据包括 : 权 利 要 求 书 CN 103593609 A 4 4/4 页 5 在 web 页面上的焦点行为对象 ; 失去 。

17、/ 获得焦点行为对象的动作 ; 失去 / 获得焦点行为对象的时间 ; 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上的位 置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 16. 根据权利要求 15 所述的装置, 其特征在于, 所述聚类模块还包括 ; 无效数据删除子模块, 与历史数据采集子模块连接, 用于将所采集的历史页面焦点行 为数据中的无效数据进行删除 ; 抽样子模块, 用于从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历 史页面焦点行为数据, 并传输至样本生成子模块。 17. 根据权利要求 16 所述的。

18、装置, 其特征在于, 所述每条样本数据包括如下数据内容 : 焦点移动最小距离 a1 : 是指两两焦点行为对象操作移动距离的最小值 ; 焦点移动最大距离 a2 : 是指两两焦点行为对象操作移动距离的最大值 ; 焦点移动平均距离 a3 : 是指两两焦点行为对象操作移动距离的平均值 ; 焦点移动最小速度 a4 : 是指两两焦点行为对象操作移动速度的最小值 ; 焦点移动最大速度 a5 : 是指两两焦点行为对象操作移动速度的最大值 ; 焦点移动平均速度 a6 : 是指两两焦点行为对象操作移动速度的平均值 ; 焦点移动总距离 a7 : 是指所有两两焦点行为对象操作移动距离的总和。 18. 根据权利要求 1。

19、3 或 14 或 16 或 17 所述的装置, 其特征在于, 还包括 : 更新模块, 用于定期更新所述可信行为数据集合以及不可信行为数据集合。 19. 根据权利要求 18 所述的装置, 其特征在于, 所述目标页面焦点行为数据包括 : 在 web 页面上的焦点行为对象 ; 失去 / 获得焦点行为对象的动作 ; 失去 / 获得焦点行为对象的时间 ; 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上的位 置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 20. 根据权利要求 13 或 14 或 16 或 17 或 18 或 1。

20、9 所述的装置, 其特征在于, 所述可信 行为判断模块包括 : 数据清洗子模块, 用于将所述目标页面焦点行为数据中的无效数据进行删除 ; 格式转换子模块, 用于将删除过无效数据的目标页面焦点行为数据, 转化为所述样本 数据的指定格式 ; 相似度判定子模块, 用于根据所述指定格式的目标页面焦点行为数据与可信行为数据 集合中相似样本数据集合的相似度, 以及, 所述指定格式的目标页面焦点行为数据与不可 信行为数据集合中相似样本数据集合的相似度, 判定所述目标页面焦点行为数据归属于可 信行为数据集合或不可信行为数据集合。 权 利 要 求 书 CN 103593609 A 5 1/14 页 6 一种可信。

21、行为识别的方法和装置 技术领域 0001 本申请涉及可信计算的技术领域, 特别是涉及一种可信行为识别的方法和一种可 信行为识别的装置。 背景技术 0002 随着网络技术和应用的飞速发展, 互联网日益呈现出复杂、 异构等特点, 当前的网 络体系已经暴露出严重的不足, 网络正面临着严峻的安全和服务质量保证问题等重大挑 战。例如, 在网络支付中, 用户账户存在大量风险。如 : 账户盗用、 账户欺诈。账户欺诈又包 含很多种形式, 如用户被网络钓鱼、 客户端中木马、 被虚假客服欺诈等等。这些威胁严重影 响了用户账户的资金安全、 信息安全。 0003 目前, 网络可信问题已得到全世界的重视, 保障网络的可。

22、信成为网络进一步发展 的迫切需求。 可信计算是研究网络可信的关键, 尽管目前尚没有一个明确的定义, 但人们对 可信计算的目的都有统一的认识 : 提高网络和服务的安全性。 在可信计算中, 可信信息的来 源包括直接经验、 推荐信息和用户的历史行为数据。 其中, 用户的历史行为数据是一个最客 观的重要信息来源, 其真实地反映了用户的行为变化, 但要从庞杂的用户历史行为数据中 提取出有用的信息是非常困难的。 0004 以网络支付中的可信行为识别为例, 现有技术中, 用户的行为风险分析是根据用 户的业务行为进行判断的, 如针对用户支付过程中, 每个业务操作的行为 : 用户登录 - 用 户浏览商品页面 -。

23、 用户下单购买 - 用户确认支付进行如下分析 : 0005 1) 用户在以上整个支付环节中操作环境的可信度 (如是否为异地登陆) ; 0006 2) 黑白名单可信度判断 (如 : 付款 IP 地址是否在黑名单内) ; 0007 3) 创建交易的 IP 地址是否频率很快等。 0008 这种现有技术往往会出现以下问题 : 0009 a) 批量 CC (ChallengeCollapsar) 攻击引起的异常支付行为, 特别是一些速率较慢 的攻击方式, 如 : 批量创建交易、 炒作信用的行为, 这些异常交易由于完全在攻击者控制之 下进行, 攻击者即是账户的所有者, 基于用户支付行为的可信分析方法无法检。

24、测出异常 ; 0010 b) 在正常用户电脑中木马, 木马在用户电脑上自动创建交易、 自动付款。比如 : 用 户在中木马时, 木马会在用户电脑上自动创建付款交易, 如果用户没有使用安全认证产品、 仅仅使用了数字证书, 或者使用U盾且U盾正好插在电脑上的时候, 就会被木马远程自动创 建交易, 造成用户资金损失。 0011 c) 基于黑白名单、 异地登陆等技术判断支付过程是否可信, 往往会造成较大误杀。 0012 d) 第三方支付平台还会遇到批量盗用的事件。 黑客利用各种方式获取用户认证信 息, 并且, 使用机器爬虫进行批量登录, 批量付款, 批量销赃, 造成支付平台用户大量资金损 失和信息泄露。。

25、 0013 以上只是列举了一些场景, 在这些场景中, 由于在用户登录 - 用户浏览商品页 面 - 用户确认购买 - 用户确认支付的过程中, 用户业务行为都是正常的, 无法检测出不可 说 明 书 CN 103593609 A 6 2/14 页 7 信的支付行为。即采用现有技术很难对可信行为进行准确识别, 尤其是很难对可信支付行 为进行准确识别。 0014 因此, 目前需要本领域技术人员迫切解决的一个技术问题就是 : 提出一种可信行 为识别的机制, 用以准确检测出网上的不可信行为, 提高对可信行为识别的准确性, 尤其是 可信支付行为的准确性, 从而提高用户网上操作的安全性。 发明内容 0015 本。

26、申请的目的是提供一种可信行为识别的方法和装置, 用以准确检测出网上的不 可信行为, 提高对可信行为识别的准确性, 尤其是可信支付行为的准确性, 从而提高用户网 上操作的安全性。 0016 为了解决上述问题, 本申请公开了一种可信行为识别的方法, 包括 : 0017 预置可信行为数据集合以及不可信行为数据集合 ; 0018 获取特定行为的目标页面焦点行为数据 ; 0019 判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集 合 ; 0020 若归属于可信行为数据集合, 则允许所述特定行为的执行 ; 0021 若归属于不可信行为数据集合, 则中止所述特定行为的执行。 0022 优。

27、选地, 所述预置可信行为数据集合以及不可信行为数据集合的步骤包括 : 0023 采集历史的页面焦点行为数据 ; 0024 将所述历史的页面焦点行为数据按指定格式转换为样本数据 ; 0025 对所述样本数据进行聚类, 形成多个相似样本数据的集合 ; 0026 分别确定所述多个相似样本数据的集合的类别, 所述类别为可信行为类别或不可 信行为类别 ; 0027 将可信行为类别的相似样本数据集合组织为可信行为数据集合, 将不可信行为类 别的相似样本数据集合组织为不可信行为数据集合。 0028 优选地, 所述页面焦点行为数据包括 : 0029 在 web 页面上的焦点行为对象 ; 0030 失去 / 获。

28、得焦点行为对象的动作 ; 0031 失去 / 获得焦点行为对象的时间 ; 0032 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上 的位置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 0033 优选地, 所述预置可信行为数据集合以及不可信行为数据集合的步骤还包括 ; 0034 将所采集的历史页面焦点行为数据中的无效数据进行删除 ; 0035 从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点 行为数据。 0036 优选地, 所述每条样本数据包括如下数据内容 : 0037 焦点移动最小距离 a1 : 。

29、是指两两焦点行为对象操作移动距离的最小值 ; 0038 焦点移动最大距离 a2 : 是指两两焦点行为对象操作移动距离的最大值 ; 0039 焦点移动平均距离 a3 : 是指两两焦点行为对象操作移动距离的平均值 ; 说 明 书 CN 103593609 A 7 3/14 页 8 0040 焦点移动最小速度 a4 : 是指两两焦点行为对象操作移动速度的最小值 ; 0041 焦点移动最大速度 a5 : 是指两两焦点行为对象操作移动速度的最大值 ; 0042 焦点移动平均速度 a6 : 是指两两焦点行为对象操作移动速度的平均值 ; 0043 焦点移动总距离 a7 : 是指所有两两焦点行为对象操作移动距。

30、离的总和。 0044 优选地, 所述对样本数据进行聚类, 形成多个相似样本数据的集合的步骤进一步 包括 : 0045 若样本数据的集合为 D X1, X2, ., Xn, 样本数据的容量为 nXi, i 1, n 为某一样本数据, X a1, a2, ., aJ ; 0046 使用聚类算法对所述样本数据的集合进行聚类, 假设 k 表示聚类的样本数据的数 目, Cj, j 1, k 表示第 j 个相似样本数据集合, 则聚类后的类别相似样本数据集合为 : H C1, C2, ., Ck ; 0047 其中, 所述聚类算法为 : 0048 假设 mj为聚类 Cj, j 1, k 的聚类中心, Sim。

31、ilar(Xi, mj) 为 Xi和 mj的相似度, 即某条样本数据 Xi和某个相似样本数据集合 Cj的相似度 ; 0049 定义 Similarmin为类别最小相似度, Similar(Xi, mj) Similarmin, 且 Similar(Xi, mj) 是 Xi和所有类别聚类中心的最大相似度, 为 Xi属于某个相似样本数据集合 Cj的充分必 要条件, 其中, 所述相似度采用欧式距离取倒数的计算方法。 0050 优选地, 所述分别确定多个相似样本数据的集合的类别的步骤进一步包括 : 0051 获取所述相似样本数据集合中样本数据的 IP 地址 ; 0052 统计所述相似样本数据集合中各 。

32、IP 地址所占百分比的均值, 若高于第一预设阈 值, 则判定当前相似样本数据集合的类别为不可信行为类别 ; 若低于第一预设阈值, 则判定 当前相似样本数据集合的类别为可信行为类别。 0053 优选地, 所述分别确定多个相似样本数据的集合的类别的步骤进一步包括 : 0054 获取所述相似样本数据集合中样本数据的 IP 地址和 / 或 MAC 地址 ; 0055 统计所述相似样本数据集合中 IP 地址和 / 或 MAC 地址出现在黑名单中的比率和 出现在白名单中的比率 ; 0056 若出现在黑名单中的比率高于第二预设阈值, 且出现在白名单中的比率低于第三 预设阈值, 则判定当前相似样本数据集合的类。

33、别为不可信行为类别 ; 0057 若出现在白名单中的比率高于第三预设阈值, 且出现在黑名单中的比率低于第二 预设阈值, 则判定当前相似样本数据集合的类别为可信行为类别 ; 0058 若出现在白名单中的比率低于第三预设阈值, 且出现在黑名单中的比率低于第二 预设阈值, 或者, 若出现在白名单中的比率高于第三预设阈值, 且出现在黑名单中的比率高 于第二预设阈值, 则统计所述相似样本数据集合中各 IP 地址所占百分比的均值, 若高于第 一预设阈值, 则判定当前相似样本数据集合的类别为不可信行为类别 ; 若低于第一预设阈 值, 则判定当前相似样本数据集合的类别为可信行为类别。 0059 优选地, 所述。

34、方法, 还包括 : 0060 定期更新所述可信行为数据集合以及不可信行为数据集合。 0061 优选地, 所述目标页面焦点行为数据包括 : 0062 在 web 页面上的焦点行为对象 ; 说 明 书 CN 103593609 A 8 4/14 页 9 0063 失去 / 获得焦点行为对象的动作 ; 0064 失去 / 获得焦点行为对象的时间 ; 0065 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上 的位置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 0066 优选地, 所述判断目标页面焦点行为数据归属于可信行为数据。

35、集合或不可信行为 数据集合的步骤包括 : 0067 将所述目标页面焦点行为数据中的无效数据进行删除 ; 0068 将删除过无效数据的目标页面焦点行为数据, 转化为所述样本数据的指定格式 ; 0069 根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数 据集合的相似度, 以及, 所述指定格式的目标页面焦点行为数据与不可信行为数据集合中 相似样本数据集合的相似度, 判定所述目标页面焦点行为数据归属于可信行为数据集合或 不可信行为数据集合。 0070 优选地, 所述根据指定格式的目标页面焦点行为数据与可信行为数据集合中相似 样本数据集合的相似度, 以及, 所述指定格式的目标页面焦点。

36、行为数据与不可信行为数据 集合中相似样本数据集合的相似度, 判定所述目标页面焦点行为数据归属于可信行为数据 集合或不可信行为数据集合的步骤进一步包括 : 0071 分别计算所述指定格式的目标页面焦点行为数据 X, 与可信行为数据集合中 k1 个相似样本数据集合, 以及, 与不可信行为数据集合中 k2个相似样本数据集合的相似 度 :Similar(X, mj), j 1, k ; 0072 其中, k k1+k2; 0073 从所述 k 个相似度中提取相似度最大值 max(Similar(X, mj), j 1, k ; 0074 假设当 j jr时, Similar(X, mj), j 1, 。

37、k 获得最大值, 则 : 0075 如果 Similar(X, mj) Similarmn(j jr) , 并且 Cj(j jr) 为可信行为类别的 相似样本数据集合, 则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合 ; 0076 如果 Similar(X, mj) Simlarmn(j jr) , 并且 Cj(j jr) 为不可信行为类别 的相似样本数据集合, 则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集 合 ; 0077 如果 Similar(Xmj) Similarmin(j jr) , 则判定当前目标页面焦点行为数据支 付行归属于不可信行为数据集合。 0078。

38、 本申请实施例还公开了一种可信行为识别的装置, 包括 : 0079 聚类模块, 用于预置可信行为数据集合以及不可信行为数据集合 ; 0080 行为焦点数据获取模块, 用于获取特定行为的目标页面焦点行为数据 ; 0081 可信行为判断模块, 用于判断所述目标页面焦点行为数据归属于可信行为数据集 合或不可信行为数据集合 ; 0082 可信行为处理模块, 用于在判定所述目标页面焦点行为数据归属于可信行为数据 集合时, 允许所述特定行为的执行 ; 0083 不可信行为处理模块, 用于在判定所述目标页面焦点行为数据归属于可信行为数 据集合时, 中止所述特定行为的执行。 0084 优选地, 所述聚类模块包。

39、括 : 说 明 书 CN 103593609 A 9 5/14 页 10 0085 历史数据采集子模块, 用于采集历史的页面焦点行为数据 ; 0086 样本生成子模块, 用于将所述历史的页面焦点行为数据按指定格式转换为样本数 据 ; 0087 聚类处理子模块, 用于对所述样本数据进行聚类, 形成多个相似样本数据的集 合 ; 0088 类别确定子模块, 用于分别确定所述多个相似样本数据的集合的类别, 所述类别 为可信行为类别或不可信行为类别 ; 0089 数据集合组织子模块, 用于将可信行为类别的相似样本数据集合组织为可信行为 数据集合, 将不可信行为类别的相似样本数据集合组织为不可信行为数据集。

40、合。 0090 优选地, 所述页面焦点行为数据包括 : 0091 在 web 页面上的焦点行为对象 ; 0092 失去 / 获得焦点行为对象的动作 ; 0093 失去 / 获得焦点行为对象的时间 ; 0094 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上 的位置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 0095 优选地, 所述聚类模块还包括 ; 0096 无效数据删除子模块, 与历史数据采集子模块连接, 用于将所采集的历史页面焦 点行为数据中的无效数据进行删除 ; 0097 抽样子模块, 用于从删除过无效数据的。

41、历史页面焦点行为数据中抽样出预设数量 的历史页面焦点行为数据, 并传输至样本生成子模块。 0098 优选地, 所述每条样本数据包括如下数据内容 : 0099 焦点移动最小距离 a1 : 是指两两焦点行为对象操作移动距离的最小值 ; 0100 焦点移动最大距离 a2 : 是指两两焦点行为对象操作移动距离的最大值 ; 0101 焦点移动平均距离 a3 : 是指两两焦点行为对象操作移动距离的平均值 ; 0102 焦点移动最小速度 a4 : 是指两两焦点行为对象操作移动速度的最小值 ; 0103 焦点移动最大速度 a5 : 是指两两焦点行为对象操作移动速度的最大值 ; 0104 焦点移动平均速度 a6。

42、 : 是指两两焦点行为对象操作移动速度的平均值 ; 0105 焦点移动总距离 a7 : 是指所有两两焦点行为对象操作移动距离的总和。 0106 优选地, 所述装置, 还包括 : 0107 更新模块, 用于定期更新所述可信行为数据集合以及不可信行为数据集合。 0108 优选地, 所述目标页面焦点行为数据包括 : 0109 在 web 页面上的焦点行为对象 ; 0110 失去 / 获得焦点行为对象的动作 ; 0111 失去 / 获得焦点行为对象的时间 ; 0112 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上 的位置 ; 焦点行为对象的 src 属性以及 。

43、herf 属性 ; 焦点行为对象的宽和高。 0113 优选地, 所述可信行为判断模块包括 : 0114 数据清洗子模块, 用于将所述目标页面焦点行为数据中的无效数据进行删除 ; 0115 格式转换子模块, 用于将删除过无效数据的目标页面焦点行为数据, 转化为所述 说 明 书 CN 103593609 A 10 6/14 页 11 样本数据的指定格式 ; 0116 相似度判定子模块, 用于根据所述指定格式的目标页面焦点行为数据与可信行为 数据集合中相似样本数据集合的相似度, 以及, 所述指定格式的目标页面焦点行为数据与 不可信行为数据集合中相似样本数据集合的相似度, 判定所述目标页面焦点行为数据。

44、归属 于可信行为数据集合或不可信行为数据集合 0117 与现有技术相比, 本申请包括以下优点 : 0118 现有技术中, 面对真实环境中的海量数据, 没有很好的手段能够将用户行为进行 分类 (分类要求用户类别已知、 用户每一类别的特征已知) , 而本申请通过采集用户的历史 页面焦点行为数据, 进行建模分析, 将用户行为聚类成不同类别, 并标记出可信类别和非可 信类别。 然后在用户特定行为过程中, 基于页面焦点行为数据进行可信支付行为分析, 通过 实时采集用户操作数据, 与预置的聚类类别进行对比, 从而实现对用户的特定行为实时地 可信判断。本申请能够更加细致、 精确地描述用户的特定行为, 对于不。

45、可信的行为, 能够更 准确的被发现, 并会对不可信行为发起验证或阻断该特定行为的继续执行, 从而可以有效 提高用户网上操作的安全性。 附图说明 0119 图 1 是本申请的一种可信行为识别的方法实施例的步骤流程图 ; 0120 图 2 是本申请的一种可信行为识别的装置实施例的结构框图。 具体实施方式 0121 为使本申请的上述目的、 特征和优点能够更加明显易懂, 下面结合附图和具体实 施方式对本申请作进一步详细的说明。 0122 本申请实施例的核心构思之一在于, 采用基于页面焦点行为的可信分析机制对用 户的特定行为进行可信识别, 具体而言, 即通过采集用户在特定业务过程中 (如网络支付业 务过。

46、程中) 的页面焦点行为, 使用页面焦点行为数据对用户行为进行刻画, 对历史行为进行 建模聚类, 并对用户的特定行为进行实时的可信支付判断。 若为可信行为, 则允许该特定行 为继续执行, 若为不可信行为, 则向用户发起验证或阻断该特定行为的继续执行。 0123 参照图 1, 其示出了本申请的一种可信行为识别的方法实施例 1 的步骤流程图, 具 体可以包括如下步骤 : 0124 步骤 101, 预置可信行为数据集合以及不可信行为数据集合 ; 0125 在本申请的一种优选实施例中, 所述可信行为数据集合以及不可信行为数据集合 可以通过对历史的页面焦点行为数据进行建模聚类生成, 具体可以包括如下子步骤。

47、 : 0126 子步骤 S11, 采集历史的页面焦点行为数据 ; 0127 页面焦点行为数据是指在 web 页面中, 用户正在操作的对象的相关数据。比如, 用 户正在输入用户名, 页面焦点行为对象就是页面的用户名输入框 ; 用户正在输入密码, 页面 焦点行为对象就是页面的密码输入框。页面焦点行为描述了用户在页面上操作的轨迹, 可 以用于刻画用户的行为。 0128 页面焦点行为可以包括页面对象获得焦点和失去焦点两种行为。 在本申请实施例 中, 所述页面焦点行为数据可以包括 : 说 明 书 CN 103593609 A 11 7/14 页 12 0129 在 web 页面上的焦点行为对象 ; 01。

48、30 失去 / 获得焦点行为对象的动作 ; 0131 失去 / 获得焦点行为对象的时间 ; 0132 焦点行为对象的特征信息, 其中, 所述特征信息包括 : 焦点行为对象在 web 页面上 的位置 ; 焦点行为对象的 src 属性以及 herf 属性 ; 焦点行为对象的宽和高。 0133 例如, 假设所采集的历史页面焦点行为数据包括如下数据分组 : 0134 y:118,x:182,type:1,target:username,time:125, src= www. , 0135 y:118,x:182,type:0,target:username,time:225, src= www. , 0136 y:356,x:678,type:1,target:password,time:525, herf www. , 0137 y:356,x:678,type:0,targe。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1