协作式垃圾邮件防范方法.pdf

上传人:1****2 文档编号:1114801 上传时间:2018-04-01 格式:PDF 页数:14 大小:793.14KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910028695.3

申请日:

2009.01.05

公开号:

CN101494546A

公开日:

2009.07.29

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):H04L 12/18申请日:20090105授权公告日:20110420终止日期:20140105|||授权|||实质审查的生效|||公开

IPC分类号:

H04L12/18; H04L12/58; H04L9/36

主分类号:

H04L12/18

申请人:

东南大学

发明人:

曹玖新; 罗军舟; 林加镇; 姚 燚; 刘永生; 孙学胜

地址:

210096江苏省南京市四牌楼2号

优先权:

专利代理机构:

南京经纬专利商标代理有限公司

代理人:

叶连生

PDF下载: PDF下载
内容摘要

一种协作式垃圾邮件防范方法主要解决目前互联网的邮件安全问题,涉及蜜罐原理以及垃圾邮件过滤等相关技术。该方法采用分布式网络结构,包括电子邮件服务器和目录服务器。在体系结构中,邮件服务器是过滤垃圾邮件的主体,同时负责垃圾邮件样本采集,为了提高样本采集的实时性,提取所采集到样本的特征并进行初级判断(一级判断),然后向目录服务器提交“疑似垃圾邮件”特征。目录服务器对接收到的“疑似垃圾邮件”特征进行第二次筛选(二级判断),生成垃圾邮件过滤规则并存储到规则库中,然后通过统一接口及时把已更新的规则发布到各邮件服务器的本地规则库,从而实现过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。

权利要求书

1.  一种协作式垃圾邮件防范方法,其特征在于该方法具体如下:
第一步,邮件服务器读取邮件帐户的相关信息,并结合这些信息根据蜜罐帐户评价公式对每个帐户进行评分,然后按照从大到小的顺序把计算所得到的分值写入系统的帐户数据库中,更新帐户评分表并根据蜜罐选择算法,从系统的邮件帐户中选择一定数量的帐户作为蜜罐帐户从而生成蜜罐集合;
第二步,根据垃圾邮件的行为特征,定期从这些蜜罐帐户集合中进行邮件样本采集并提取样本的特征,组成特征向量并用这些特征向量表示样本集合;
第三步,利用这些样本特征向量在蜜罐集合中重复度即样本出现的次数,对其进行初次判断即一级判断,从而初步提高样本的准确度;
第四步,邮件服务器把经过一级判断的特征向量提交到目录服务器,目录服务器再对这些特征向量进行第二次判断即二级判断,筛选出准确度更高的特征向量并生成过滤规则;
第五步,目录服务器把新生成的过滤规则发布到各邮件服务器的规则库中进行更新,各邮件服务器利用这些已经更新的规则在收到新的电子邮件时进行垃圾邮件过滤。

2.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:生成蜜罐集合的过程是首先设置初始蜜罐集合为空,然后系统读取数据库中的帐户评分表,优先选择分数较高的帐户并把这些帐户添加进蜜罐集合中,每次增加蜜罐帐户后,对集合中的垃圾邮件数量进行统计;由于服务器中的垃圾邮件数量是有限的,因此随着集合的不断增大,从集合中采集到的垃圾邮件数量将趋于定值,当增加蜜罐帐户后集合中的垃圾邮件增量小于确定的阈值时,就可确定最终的蜜罐集合;
在进行蜜罐帐户选择时,其确定候选蜜罐的评价公式为:
V(t,Δt)=(λ1*S1(t-Δt)H1(t-Δt)+(1-λ1)*S2(Δt)H2(Δt))*λ2+S2(Δt)*(1-λ2)]]>
其中:
V:系统中某个帐户的得分,表示该帐户被选为蜜罐的可能性大小;V的值越大,则该帐户被选为蜜罐帐户的可能性越大,反之越小;
t:时间变量,表示算法执行的时刻点;
Δt:时间区间变量,表示前后两次执行算法的时间间隔;
S1(t-Δt):表示帐户在(t-Δt)时刻之前收到的垃圾邮件历史总数;
S2(Δt):表示帐户在最近Δt时间段内收到的垃圾邮件总数;
H1(t-Δt):表示帐户在(t-Δt)时刻之前收到的合法邮件历史总数;
H2(Δt):表示帐户在最近Δt时间段内收到的合法邮件总数;
λ1:权值,取值在0和1之间。该值可以根据实际系统进行调节;
λ2:权值,取值在0和1之间。该值可以根据实际系统进行调节。

3.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:邮件样本采集是指由于垃圾邮件具有群发的行为特征,一封垃圾邮件经常同时出现在若干蜜罐帐户中,利用这个特征进行样本采集,这需要统计一封邮件在蜜罐集合中的分布,即集合中同时收到这封邮件的帐户数量;如果集合中收到同一封邮件的帐户数量大于指定的阈值,那么就可以把这封邮件判别为“疑似”垃圾邮件并进行采集;

4.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:提取样本的特征是指对从蜜罐帐户集合中采集到的垃圾邮件样本进行特征抽取,用特征向量的形式表示样本,以便于后续的存储和计算;采用针对邮件头部和邮件内容指纹信息,而非邮件内容本身的特征提取方法生成轻量级的特征向量;
所述样本的特征向量形式如下:
F=<SA,SIP,FP>
特征向量F中各分量的意义如下表所示:

  分量名  分量的意义  SA  发送人邮件地址,即邮件头部信息中Return-Path部分  SIP  邮件源IP,邮件头部信息中最后一个Received字段中的第一个IP地址  FP  邮件内容的指纹信息



5.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:一级判断的过程是统计出各特征向量在集合中的重复度,如果重复度大于预设定的某个阈值,则保留该特征向量;然后在集合中删除特征库已有的特征向量,同时把最终生成的特征向量集写入系统的特征库中,完成更新操作,邮件服务器把经过一级判断的特征向量提交到目录服务器;
一级判断的运算过程为:
C=Am×n×S=R1R2&CenterDot;&CenterDot;&CenterDot;Rm×S=R1×SR2×S&CenterDot;&CenterDot;&CenterDot;Rm×S=Σi=1nr1i×s1iΣi=1nr2i×s2i&CenterDot;&CenterDot;&CenterDot;Σi=1nrmi×smi=c1c2&CenterDot;&CenterDot;&CenterDot;cm]]>
其中C为置信度矩阵,目录服务器根据置信度矩阵对特征进行第二次筛选;
所述邮件服务器通过统一的接口把生成的向量集提交到目录服务器,目录服务器中开辟专门的缓冲区,用来存储待处理的特征向量集,当目录服务器接收到某个邮件服务器发来的特征向量集时,暂时将其存入系统的缓冲区中,当接收到的特征向量集合达到一定数量时才对其进行二级判断。

6.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:二级判断即根据各邮件服务器识别垃圾邮件的准确度,以及特征向量在各邮件服务中的重复度,实现联合判断,计算出垃圾邮件特征的置信度,淘汰掉置信度较低的特征向量;
二级判断是目录服务器利用各邮件服务器的准确度矩阵以及特征向量的重复度矩阵进行运算,从而生成各特征向量的置信度矩阵;其中准确度矩阵为:
ST=[s1 s2...sn]
si表示服务器i识别垃圾邮件的准确度大小。重复度矩阵为:
Am×n=R1R2&CenterDot;&CenterDot;&CenterDot;Rm=r11r12&CenterDot;&CenterDot;&CenterDot;r1nr21r22&CenterDot;&CenterDot;&CenterDot;r2n&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;rm1rm2&CenterDot;&CenterDot;&CenterDot;rmn]]>
Am×n中,m表示不同的特征向量个数,n表示邮件服务器数量,Rp表示特征向量p的重复度矩阵,rpq表示特征向量p在邮件服务器q中的重复度;

7.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:第四步中所述的过滤规则包括邮件内容的指纹信息和黑名单列表两个部分,这两个部分都可以从特征向量中抽取出来。

8.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:第五步中的更新过程指从规则库中读取已更新的过滤规则,然后将其发布到各邮件服务器中,实现邮件服务器过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。

9.
  根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:第五步中对新的电子邮件进行垃圾邮件过滤时,首先提取此封邮件的特征向量;然后检索系统的缓冲区是否存在与之匹配的特征向量,如果存在,则把此封邮件判断为垃圾邮件,否则检索此封邮件的发送端主机信息是否在黑名单列表中,如果匹配到黑名单则判断为垃圾邮件;当检索不到相匹配的指纹信息或黑名单时,系统将根据预设定的邮件最长可以滞留在队列中的时间,将该邮件投入邮件队列,并在固定的时间间隔重新按照上述的流程进行判断;如果在最长滞留时间内,系统中仍未出现匹配的过滤规则,那么就把该邮件判定为合法邮件,并投递到相应的帐户。

说明书

协作式垃圾邮件防范方法
技术领域
本发明是一种利用了蜜罐原理以及垃圾邮件过滤等相关技术,涉及网络安全特别是电子邮件安全领域。
背景技术
而近年来,垃圾邮件的传播形式和内容已经出现了新的变化,其危害日益严重:占用了大量的网络资源,降低网络的运行效率;浪费邮件用户大量的时间;成为病毒,木马和网络钓鱼的主要传播途径,严重威胁网络安全;此外,垃圾邮件传播不良信息,对社会造成严重的负面影响。然而,现有的垃圾邮件过滤技术却不能很好地应对这种形势。进一步提高互联网抵御垃圾邮件风险的能力,更好地满足用户对防范垃圾邮件的需求,已成为了网络安全领域里一个迫切的任务。
目前普遍采用的垃圾邮件过滤技术主要有:
一、黑白名单的过滤技术。这种技术需要用户手动维护一个黑白名单列表,并以此为依据进行垃圾邮件过滤。
二、,基于统计的过滤技术。现有的基于统计的技术,例如支持向量机(Support VectorMachine,SVM)方法以及Bayes方法等,对样本的统计规律进行学习和归纳,并以此为依据对新邮件进行判别分类。
三、基于规则的过滤技术。现有的基于规则的方法通过对大量样本的训练得到显式规则,再利用这些规则对垃圾邮件进行过滤。基于规则的方法主要有Ripper方法,决策树方法和Boosting方法等。
以上垃圾邮件过滤技术存在很大不足。首先缺少协作性,由于各邮件服务器独立地过滤垃圾邮件,缺少信息交换,没有形成体系,因此无法相互协作,进行大规模地防范垃圾邮件;其次,计算复杂度高,为了获得过滤规则或垃圾邮件特征,必须对大量的样本进行训练,抽取样本内容,过滤规则也较复杂,导致较高的计算复杂性。再次,缺乏实时性,过滤规则或垃圾邮件特征更新周期较长,更新速度慢,无法过滤最新的垃圾邮件,存在滞后性;最后缺乏适应性,目前网络上垃圾邮件的形式产生了新的变化,出现了以图片等非文本格式为内容的垃圾邮件。而现有的基于内容的过滤方法以分析邮件的文本内容为基础,因此无法过滤以图片形式传播的垃圾邮件,导致系统出现大量的漏判,降低了过滤准确率。
发明内容
技术问题:本发明针对现有垃圾邮件过滤技术的不足,提出一种新的协作式垃圾邮件过滤方法。这种方法具有协作性,快速免疫性以及适应性的特点,能够在互联网环境下进行大规模地拦截垃圾邮件。本发明通过引入目录服务器,把各邮件服务器整合起来。在邮件服务器中利用蜜罐技术进行样本采集,经过一级判断后把样本的特征向量提交到目录服务器,目录服务对这些特征向量进行第二次判断筛选后生成过滤规则,然后把已更新的过滤规则发布到其它邮件服务器中,实现协作式垃圾邮件防范。
技术方案:本发明的协作式垃圾邮件防范方法具体如下:
第一步,邮件服务器读取邮件帐户的相关信息,并结合这些信息根据蜜罐帐户评价公式对每个帐户进行评分,然后按照从大到小的顺序把计算所得到的分值写入系统的帐户数据库中,更新帐户评分表并根据蜜罐选择算法,从系统的邮件帐户中选择一定数量的帐户作为蜜罐帐户从而生成蜜罐集合;
第二步,根据垃圾邮件的行为特征,定期从这些蜜罐帐户集合中进行邮件样本采集并提取样本的特征,组成特征向量并用这些特征向量表示样本集合;
第三步,利用这些样本特征向量在蜜罐集合中重复度即样本出现的次数,对其进行初次判断即一级判断,从而初步提高样本的准确度;
第四步,邮件服务器把经过一级判断的特征向量提交到目录服务器,目录服务器再对这些特征向量进行第二次判断即二级判断,筛选出准确度更高的特征向量并生成过滤规则;
第五步,目录服务器把新生成的过滤规则发布到各邮件服务器的规则库中进行更新,各邮件服务器利用这些已经更新的规则在收到新的电子邮件时进行垃圾邮件过滤。
生成蜜罐集合的过程是首先设置初始蜜罐集合为空,然后系统读取数据库中的帐户评分表,优先选择分数较高的帐户并把这些帐户添加进蜜罐集合中,每次增加蜜罐帐户后,对集合中的垃圾邮件数量进行统计;由于服务器中的垃圾邮件数量是有限的,因此随着集合的不断增大,从集合中采集到的垃圾邮件数量将趋于定值,当增加蜜罐帐户后集合中的垃圾邮件增量小于确定的阈值时,就可确定最终的蜜罐集合;
在进行蜜罐帐户选择时,其确定候选蜜罐的评价公式为:
V(t,Δt)=(λ1*S1(t-Δt)H1(t-Δt)+(1-λ1)*S2(Δt)H2(Δt))*λ2+S2(Δt)*(1-λ2)]]>
其中:
V:系统中某个帐户的得分,表示该帐户被选为蜜罐的可能性大小;V的值越大,则该帐户被选为蜜罐帐户的可能性越大,反之越小;
t:时间变量,表示算法执行的时刻点;
Δt:时间区间变量,表示前后两次执行算法的时间间隔;
S1(t-Δt):表示帐户在(t-Δt)时刻之前收到的垃圾邮件历史总数;
S2(Δt):表示帐户在最近Δt时间段内收到的垃圾邮件总数;
H1(t-Δt):表示帐户在(t-Δt)时刻之前收到的合法邮件历史总数;
H2(Δt):表示帐户在最近Δt时间段内收到的合法邮件总数;
λ1:权值,取值在0和1之间。该值可以根据实际系统进行调节;
λ2:权值,取值在0和1之间。该值可以根据实际系统进行调节。
邮件样本采集是指由于垃圾邮件具有群发的行为特征,一封垃圾邮件经常同时出现在若干蜜罐帐户中,利用这个特征进行样本采集,这需要统计一封邮件在蜜罐集合中的分布,即集合中同时收到这封邮件的帐户数量;如果集合中收到同一封邮件的帐户数量大于指定的阈值,那么就可以把这封邮件判别为“疑似”垃圾邮件并进行采集;
提取样本的特征是指对从蜜罐帐户集合中采集到的垃圾邮件样本进行特征抽取,用特征向量的形式表示样本,以便于后续的存储和计算;采用针对邮件头部和邮件内容指纹信息,而非邮件内容本身的特征提取方法生成轻量级的特征向量;
所述样本的特征向量形式如下:
F=<SA,SIP,FP>
特征向量F中各分量的意义如下表所示:

  分量名  分量的意义  SA  发送人邮件地址,即邮件头部信息中Return-Path部分  SIP  邮件源IP,邮件头部信息中最后一个Received字段中的第一个IP地址  FP  邮件内容的指纹信息


一级判断的过程是统计出各特征向量在集合中的重复度,如果重复度大于预设定的某个阈值,则保留该特征向量;然后在集合中删除特征库已有的特征向量,同时把最终生成的特征向量集写入系统的特征库中,完成更新操作,邮件服务器把经过一级判断的特征向量提交到目录服务器;
一级判断的运算过程为:
C=Am×n×S=R1R2&CenterDot;&CenterDot;&CenterDot;Rm×S=R1×SR2×S&CenterDot;&CenterDot;&CenterDot;Rm×S=Σi=1nr1i×s1iΣi=1nr2i×s2i&CenterDot;&CenterDot;&CenterDot;Σi=1nrmi×smi=c1c2&CenterDot;&CenterDot;&CenterDot;cm]]>
其中C为置信度矩阵,目录服务器根据置信度矩阵对特征进行第二次筛选;
所述邮件服务器通过统一的接口把生成的向量集提交到目录服务器,目录服务器中开辟专门的缓冲区,用来存储待处理的特征向量集,当目录服务器接收到某个邮件服务器发来的特征向量集时,暂时将其存入系统的缓冲区中,当接收到的特征向量集合达到一定数量时才对其进行二级判断。
二级判断即根据各邮件服务器识别垃圾邮件的准确度,以及特征向量在各邮件服务中的重复度,实现联合判断,计算出垃圾邮件特征的置信度,淘汰掉置信度较低的特征向量;
二级判断是目录服务器利用各邮件服务器的准确度矩阵以及特征向量的重复度矩阵进行运算,从而生成各特征向量的置信度矩阵;其中准确度矩阵为:
ST=[s1 s2...sn]
si表示服务器i识别垃圾邮件的准确度大小。重复度矩阵为:
Am×n=R1R2&CenterDot;&CenterDot;&CenterDot;Rm=r11r12&CenterDot;&CenterDot;&CenterDot;r1nr21r22&CenterDot;&CenterDot;&CenterDot;r2n&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;rm1rm2&CenterDot;&CenterDot;&CenterDot;rmn]]>
Am×n中,m表示不同的特征向量个数,n表示邮件服务器数量,Rp表示特征向量p的重复度矩阵,rpq表示特征向量p在邮件服务器q中的重复度;
第四步中所述的过滤规则包括邮件内容的指纹信息和黑名单列表两个部分,这两个部分都可以从特征向量中抽取出来。
第五步中的更新过程指从规则库中读取已更新的过滤规则,然后将其发布到各邮件服务器中,实现邮件服务器过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。
第五步中对新的电子邮件进行垃圾邮件过滤时,首先提取此封邮件的特征向量;然后检索系统的缓冲区是否存在与之匹配的特征向量,如果存在,则把此封邮件判断为垃圾邮件,否则检索此封邮件的发送端主机信息是否在黑名单列表中,如果匹配到黑名单则判断为垃圾邮件;当检索不到相匹配的指纹信息或黑名单时,系统将根据预设定的邮件最长可以滞留在队列中的时间,将该邮件投入邮件队列,并在固定的时间间隔重新按照上述的流程进行判断;如果在最长滞留时间内,系统中仍未出现匹配的过滤规则,那么就把该邮件判定为合法邮件,并投递到相应的帐户。
有益效果:本发明的特点是在分布式环境中引入目录服务器,把各邮件服务器整合起来,并设计了两级判断机制对“疑似垃圾邮件”样本进行判断和筛选,提高了规则的准确度。本发明具有协作性,快速免疫性以及适应性的特优点,能够在互联网环境下进行大规模地拦截垃圾邮件。根据试验测的结果显示,本发明在垃圾邮件协作防范方面处于国际领先水平。
附图说明
图1为本发明所述的蜜罐帐户选择流程图;
图2为本发明所述的协作式垃圾邮件防范体系示意图;
图3为本发明所述的垃圾邮件过滤流程图。
具体实施方式
本发明所述的方法进一步描述为:
a.邮件服务器读取邮件帐户的相关信息,并结合这些信息根据蜜罐帐户评价公式对每个帐户进行评分,然后按照从大到小的顺序把计算所得到的分值写入系统的帐户数据库中,更新帐户评分表;
b.确定蜜罐集合:在这个阶段,首先设置初始蜜罐集合为空,然后系统读取数据库中的帐户评分表,优先选择分数较高的帐户并把这些帐户添加进蜜罐集合中,每次增加蜜罐帐户后,对集合中的垃圾邮件数量进行统计;由于服务器中的垃圾邮件数量是有限的,因此随着集合的不断增大,从集合中采集到的垃圾邮件数量将趋于定值,当增加蜜罐帐户后集合中的垃圾邮件增量小于确定的阈值时,就可确定最终的蜜罐集合;
c.样本采集:由于垃圾邮件具有群发的行为特征,一封垃圾邮件经常同时出现在若干蜜罐帐户中,利用这个特征进行样本采集,需要统计一封邮件在蜜罐集合中的分布,即集合中同时收到这封邮件的帐户数量;如果集合中收到同一封邮件的帐户数量大于指定的阈值,那么就可以把这封邮件判别为“疑似”垃圾邮件并进行采集;
d.特征提取:对从蜜罐帐户集合中采集到的垃圾邮件样本进行特征抽取,用特征向量的形式表示样本,以便于后续的存储和计算;采用针对邮件头部和邮件内容指纹信息,而非邮件内容本身的特征提取方法生成轻量级的特征向量;
e.一级判断:首先统计出各特征向量在集合中的重复度,如果重复度大于预设定的某个阈值,则保留该特征向量;然后在集合中删除特征库已有的特征向量,同时把最终生成的特征向量集写入系统的特征库中,完成更新操作,邮件服务器把经过一级判断的特征向量提交到目录服务器;
f.二级判断:根据各邮件服务器识别垃圾邮件的准确度,以及特征向量在各邮件服务中的重复度,实现联合判断,计算出垃圾邮件特征的置信度,淘汰掉置信度较低的特征向量;
g.生成过滤规则并把过滤规则分布到各邮件服务器,各邮件服务器利用已更新的过滤规则进行垃圾邮件过滤。
在进行蜜罐帐户选择时,其确定候选蜜罐的评价公式为:
V(t,Δt)=(λ1*S1(t-Δt)H1(t-Δt)+(1-λ1)*S2(Δt)H2(Δt))*λ2+S2(Δt)*(1-λ2)]]>
其中:
V:系统中某个帐户的得分,表示该帐户被选为蜜罐的可能性大小;V的值越大,则该帐户被选为蜜罐帐户的可能性越大,反之越小;
t:时间变量,表示算法执行的时刻点;
Δt:时间区间变量,表示前后两次执行算法的时间间隔;
S1(t-Δt):表示帐户在(t-Δt)时刻之前收到的垃圾邮件历史总数;
S2(Δt):表示帐户在最近Δt时间段内收到的垃圾邮件总数;
H1(t-Δt):表示帐户在(t-Δt)时刻之前收到的合法邮件历史总数;
H2(Δt):表示帐户在最近Δt时间段内收到的合法邮件总数;
λ1:权值,取值在0和1之间。该值可以根据实际系统进行调节;
λ2:权值,取值在0和1之间。该值可以根据实际系统进行调节。
样本的特征向量形式如下:
F=<SA,SIP,FP>
特征向量T中各分量的意义如下表所示:
  分量名  分量的意义  SA  发送人邮件地址,即邮件头部信息中Return-Path部分  SIP  邮件源IP,邮件头部信息中最后一个Received字段中的第一个IP地址  FP  邮件内容的指纹信息

为了得到邮件内容的指纹信息即特征向量的的FP分量,本文采用开放源代码的Nilsimsa摘要方法的改进版本。Nilsimsa实际上是一种Hash算法,它在邮件的相似性计算方面具有较大的优势。
所述邮件服务器通过统一的接口把生成的向量集提交到目录服务器,目录服务器中开辟专门的缓冲区,用来存储待处理的特征向量集,当目录服务器接收到某个邮件服务器发来的特征向量集时,暂时将其存入系统的缓冲区中,当接收到的特征向量集合达到一定数量时才对其进行二级判断。
二级判断是目录服务器利用各邮件服务器的准确度矩阵以及特征向量的重复度矩阵进行运算,从而生成各特征向量的置信度矩阵;其中准确度矩阵为:
ST=[s1 s2...sn]
si表示服务器i识别垃圾邮件的准确度大小。重复度矩阵为:
Am×n=R1R2&CenterDot;&CenterDot;&CenterDot;Rm=r11r12&CenterDot;&CenterDot;&CenterDot;r1nr21r22&CenterDot;&CenterDot;&CenterDot;r2n&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;rm1rm2&CenterDot;&CenterDot;&CenterDot;rmn]]>
Am×n中,m表示不同的特征向量个数,n表示邮件服务器数量,Rp表示特征向量p的重复度矩阵,rpq表示特征向量p在邮件服务器q中的重复度。一级判断的运算过程为:
C=Am×n×S=R1R2&CenterDot;&CenterDot;&CenterDot;Rm×S=R1×SR2×S&CenterDot;&CenterDot;&CenterDot;Rm×S=Σi=1nr1i×s1iΣi=1nr2i×s2i&CenterDot;&CenterDot;&CenterDot;Σi=1nrmi×smi=c1c2&CenterDot;&CenterDot;&CenterDot;cm]]>
其中C为置信度矩阵,目录服务器根据置信度矩阵对特征进行第二次筛选。
过滤规则包括邮件内容的指纹信息和黑名单列表两个部分,这两个部分都可以从特征向量中抽取出来。
从规则库中读取已更新的过滤规则,然后将其发布到各邮件服务器中,实现邮件服务器过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。
当邮件服务器收到一封新的电子邮件时,首先提取此封邮件的特征向量;然后检索系统的缓冲区是否存在与之匹配的特征向量,如果存在,则把此封邮件判断为垃圾邮件,否则检索此封邮件的发送端主机信息是否在黑名单列表中,如果匹配到黑名单则判断为垃圾邮件;当检索不到相匹配的指纹信息或黑名单时,系统将根据预设定的邮件最长可以滞留在队列中的时间,将该邮件投入邮件队列,并在固定的时间间隔重新按照上述的流程进行判断;如果在最长滞留时间内,系统中仍未出现匹配的过滤规则,那么就把该邮件判定为合法邮件,并投递到相应的帐户。
如图2所示,本发明的部署需要构建一个由目录服务器和若干邮件服务器组成的网络。在邮件服务器中,其主要构成模块和功能如下:
(1)样本采集模块。由样本采集,特征提取和一级判断三个子模块构成。其中,样本采集子模块统计邮件账户的历史信息,从服务器中选出一定数量的邮件帐户作为蜜罐账户,利用垃圾邮件的群发特征定期从蜜罐账户集合中采集疑似垃圾邮件样本;特征提取子模块主要通过抽取疑似垃圾邮件的头部信息和邮件内容指纹信息(而不是分析邮件内容本身),生成轻量级的特征向量;一级判断子模块则根据蜜罐账户集合中样本的重复度,对抽取的特征进行第一次判断和筛选,然后提交到目录服务器。
(2)规则更新模块。接收目录服务器发布的最新过滤规则并转储到本地规则库中。
(3)垃圾邮件过滤模块。从邮件缓冲队列中接收邮件,提取出其特征向量,检索本地规则库中是否有匹配的规则,如果匹配成功,则把该邮件判定为垃圾邮件,否则,设定一个缓存时间,并将该邮件存入用户缓冲区,如果在缓存时间内仍未出现匹配的规则,那么就把该邮件判定为合法邮件。
在目录服务器中,其主要构成模块和功能如下:
(1)二级判断模块。根据特征向量被各邮件服务器提交的次数(即重复度)以及各邮件服务器判断垃圾邮件的准确度,对其进行第二次判断,筛选出高准确度的特征向量集合。
(2)规则生成模块。对特征向量集合进行重构,生成过滤规则,并存储到目录服务器的规则库中。
(3)规则发布模块。根据设定的周期,快速发现规则库中的已更新规则,并将其下发至各邮件服务中,实现邮件服务器本地规则库的快速实时更新
基于本发明开发了原型系统,包括以上所述的各功能子模块,从实施效果来看,本发明能够在进行大规模垃圾邮件拦截的同时,提高垃圾邮件过滤的准确度,同时系统对新型垃圾邮件具有快速免疫能力,对不同类型的垃圾邮件具有适应性,能够过滤诸如以Web页或图片为内容的垃圾邮件。

协作式垃圾邮件防范方法.pdf_第1页
第1页 / 共14页
协作式垃圾邮件防范方法.pdf_第2页
第2页 / 共14页
协作式垃圾邮件防范方法.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《协作式垃圾邮件防范方法.pdf》由会员分享,可在线阅读,更多相关《协作式垃圾邮件防范方法.pdf(14页珍藏版)》请在专利查询网上搜索。

一种协作式垃圾邮件防范方法主要解决目前互联网的邮件安全问题,涉及蜜罐原理以及垃圾邮件过滤等相关技术。该方法采用分布式网络结构,包括电子邮件服务器和目录服务器。在体系结构中,邮件服务器是过滤垃圾邮件的主体,同时负责垃圾邮件样本采集,为了提高样本采集的实时性,提取所采集到样本的特征并进行初级判断(一级判断),然后向目录服务器提交“疑似垃圾邮件”特征。目录服务器对接收到的“疑似垃圾邮件”特征进行第二次筛。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1