实体属性的关联和分析.pdf

上传人:a1 文档编号:4571672 上传时间:2018-10-20 格式:PDF 页数:34 大小:1.78MB
返回 下载 相关 举报
摘要
申请专利号:

CN200880009772.4

申请日:

2008.01.24

公开号:

CN101730904A

公开日:

2010.06.09

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06Q 50/00申请日:20080124|||公开

IPC分类号:

G06Q50/00

主分类号:

G06Q50/00

申请人:

迈可菲公司

发明人:

D·阿尔佩罗维奇; A·M·埃尔南德斯; P·朱格; S·克拉泽; P·A·施内克; Y·唐; J·A·齐齐亚斯基

地址:

美国加利福尼亚州

优先权:

2007.01.24 US 11/626,462

专利代理机构:

中国专利代理(香港)有限公司 72001

代理人:

王岳;李家麟

PDF下载: PDF下载
内容摘要

对一个或更多个数据处理器进行操作的方法和系统,其用于通过分析实体的属性将声誉分配给发送消息的实体,将所述属性与已知属性关联起来以确定共享属性的实体之间的关系,并将一个相关实体的声誉的一部分归于另一相关实体的声誉。

权利要求书

1: 一种计算机实现方法,其可操作来将声誉分配给与所接收的通信相关联的发送消息的实体,所述方法包括以下步骤: 从第一实体接收通信; 根据所接收的所述通信得出所述第一实体的一个或更多个属性; 分析与所述第一实体相关联的并基于所接收的所述通信的所述属性; 取回用于多个已知实体的已知属性信息; 将所接收的所述通信的所述属性与所述已知属性信息关联起来; 根据所述第一实体和共享至少一个共同属性或共同的属性模式的一个或更多个其它实体,来定义所述第一实体和所述一个或更多个其它实体之间的关系,所述一个或更多个其它实体从所述多个已知实体选择;以及 根据所定义的所述关系和所述至少一个共同属性或共同的属性模式,来将与所述第一实体或者所述一个或更多个其它实体中的一个相关联的第一声誉的一部分归于与所述第一实体或者所述一个或更多个其它实体中的另一个相关联的第二声誉。
2: 如权利要求1所述的方法,其中所述属性包括用于识别实体之间的关联的证据属性。
3: 如权利要求2所述的方法,进一步包括确定与实体相关联的所述证据属性是否相应于包括由一组行为属性定义的行为参数文件的已知属性,所述确定步骤通过比较所述证据属性与所述一组行为属性来进行。
4: 如权利要求3所述的方法,其中用于垃圾邮件发送者的行为参数文件定义具有发送不想要的通信的声誉的实体。
5: 如权利要求3所述的方法,其中所述行为参数文件定义具有发送欺骗性通信的声誉的实体。
6: 如权利要求3所述的方法,其中所述行为参数文件定义具有发送合法消息的声誉的实体。
7: 如权利要求3所述的方法,其中所述行为参数文件定义具有黑客侵入网络的声誉的实体。
8: 如权利要求3所述的方法,其中所述行为参数文件定义具有侵入私有网络的声誉的实体。
9: 如权利要求3所述的方法,其中所述行为参数文件定义具有发送群发邮件的声誉的实体。
10: 如权利要求3所述的方法,其中所述行为参数文件定义具有发送包括病毒的恶意通信的声誉的实体。
11: 如权利要求3所述的方法,其中所述行为参数文件定义具有伪造合法网站的声誉的实体。
12: 如权利要求3所述的方法,其中一组属性对于已经使用声誉定义的一种类型的实体是共同的,且其中所述声誉能够在新实体的声誉的建立中被给出或考虑。
13: 如权利要求1所述的方法,进一步包括以下步骤:确定所述第一实体和所述一个或更多个其它实体之间的任何关系如何影响与所述第一实体和所述一个或更多个其它实体中的一个或更多个相关联的声誉。
14: 如权利要求1所述的方法,其中分析与所述第一实体相关联的所述属性的所述步骤包括根据参数得出趋势,所述参数包括下述项中的一个或更多个:地理政治事件、日期、公司类型、重要的基础设施部门、所述第一实体的位置、时刻,或假期。
15: 一种声誉系统,其可操作来接收被送往网络的通信并给所述通信分配声誉,所述系统包括: 通信接口,其可操作来从第一实体接收进入网络的通信; 通信分析器,其可操作来得出与所接收的所述通信相关联的一个或更多个属性,所接收的所述通信包括与消息的发源相关联的所述第一实体; 关联模块,其可操作来从系统数据存储器取回已知属性信息,并比较从所接收的所述通信得出的所述属性与所述已知属性信息,以识别所述第一实体和一个或更多个其它实体之间的关系,所述关联模块进一步可操作来识别新的属性信息并将新的属性信息合并到所述系统数据存储器和通信分析器中; 其中所述系统数据存储器可操作来存储与多个实体相关联的已知属性信息,所述多个实体包括声誉系统以前从其接收消息的一个或更多个实体;以及 声誉分配模块可操作来使用所识别的所述关系来将与所述第一实体或者所述一个或多个其它实体中的一个相关联的第一声誉的至少一部分归于与所述第一实体或者所述一个或更多个其它实体中的另一个相关联的第二声誉。
16: 如权利要求15所述的系统,其中所述属性包括用于识别实体之间的关系的证据属性。
17: 如权利要求16所述的系统,其中所述声誉模块进一步可操作来比较所述第一实体的所述证据属性与一组行为属性,所述一组行为属性与多个行为参数文件中的任何一个相关联,在所述多个行为参数文件中选择的行为参数文件定义至少一种类型的实体,所述第一实体与所述至少一种类型的实体共享一些特征。
18: 如权利要求17所述的系统,其中所述行为参数文件定义一组行为参数文件中的一个或更多个,包括垃圾邮件发送者、诈骗者、合法发送者、群发邮件发送者、黑客、病毒源、入侵者、恶意源,或无害源。
19: 如权利要求15所述的系统,其中所述声誉分配模块可操作来根据所识别的所述关系确定第一实体或者一个或更多个其它实体的声誉的什么部分被分配给所述第一实体或者一个或多个其它实体中的另一个的声誉。
20: 如权利要求15所述的系统,其中所述声誉分配模块可操作来根据所述第一实体与所述一个或更多个其它实体共享的属性确定第一实体或者一个或更多个其它实体的声誉的什么部分被分配给所述第一实体或者一个或更多个其它实体中的另一个的声誉。
21: 如权利要求15所述的系统,其中所述已知属性信息在多个边缘保护设备从通信的集合得到,所述边缘保护设备保护多个不同的网络。
22: 如权利要求15所述的系统,其中所接收的所述通信是下述项中的任何一个:电子邮件消息、超文本传输协议通信、即时消息、文件传输协议通信、短消息服务通信、全球资源定位符请求,或互联网协议语音电话通信。
23: 如权利要求15所述的系统,进一步包括通信询问模块,所述通信询问模块可操作来通过对所述通信运行多个测试来确定所述通信是否是合法通信。
24: 如权利要求23所述的系统,其中与所述多个测试相关联的结果被以矢量体现,所述矢量与关联于不想要的消息的非法矢量比较以确定所述通信是否是合法的。
25: 如权利要求24所述的系统,其中所述矢量也与关联于已知合法消息的合法矢量比较以确定所述通信是否是合法的。
26: 如权利要求25所述的系统,其中非法矢量和合法矢量合并以确定单个结果,所述单个结果识别与实体相关联的一个或更多个行为参数文件。
27: 如权利要求15所述的系统,进一步包括转发模块,所述转发模块可操作来将所述通信转发到与所述通信相关联的接收者。
28: 如权利要求27所述的系统,其中所述转发模块配置成如果与所述第一实体相关联的声誉是声誉差的,就隔离所述通信。
29: 如权利要求15所述的系统,其中根据来自发端实体的通信是声誉好的概率以及来自所述发端实体的通信是声誉差的概率得出不同实体的声誉。
30: 具有软件程序代码的一个或更多个计算机可读介质,所述软件程序代码可操作来将声誉分配给与所接收的通信相关联的发送消息的实体,所述软件程序代码包括: 分析通信以得到与所述通信相关联的第一实体的一个或更多个属性; 取回用于多个实体的已知属性信息; 比较所接收的所述通信的所述属性与所述已知属性信息; 根据共享一个或更多个共同属性的所述第一实体和第二实体来识别所述第一实体和第二实体之间的关系,所述第二实体从所述多个已知实体中选择;以及 根据所识别的所述关系和所述共同属性,来将与所述第一实体或所述第二实体中的一个相关联的第一声誉的至少一部分归于与所述第一实体或所述第二实体中的另一个相关联的第二声誉。

说明书


实体属性的关联和分析

    【技术领域】

    本文件通常涉及用于处理通信(communication)的系统和方法,尤其是涉及用于给与通信相关的实体进行分类的系统和方法。

    背景

    在反垃圾邮件行业中,垃圾邮件发送者使用各种创造性的装置来躲避垃圾邮件过滤器进行的检测。这样,通信从其起源的实体可提供是否应允许给定通信进入企业网络环境的另一指示。

    然而,用于消息发送者进行分析的当前工具包括互联网协议(IP)黑名单(有时称为实时黑名单(RBL))和IP白名单(实时白名单(RWL))。白名单和黑名单当然对垃圾邮件分类过程增加了益处;然而,白名单和黑名单内在地限于响应于每个查询而提供一个二进制类型(YES/NO)。而且,黑名单和白名单独立地处理实体,并忽略与实体相关的各种属性所提供的证据。

    概述

    提供了用于关联和分析实体属性的系统和方法。方法可包括:从第一实体接收通信;根据所接收的通信得出第一实体的一个或更多个属性;分析与第一实体相关联的并基于所接收的通信的属性;取回用于多个已知实体的已知属性信息;将所接收的通信的属性与已知属性信息关联起来;根据第一实体和共享至少一个共同属性或共同的属性模式的一个或更多个其它实体,来定义第一实体和一个或更多个其它实体之间的关系,所述一个或更多个其它实体从多个已知实体中选择;以及根据定义的关系和所述至少一个共同属性或共同的属性模式,来将与第一实体或者一个或多个其它实体中的一个相关联的第一声誉的一部分归于与第一实体或者一个或多个其它实体中的另一个相关联的第二声誉。

    用于关联和分析实体属性的系统可包括通信接口、通信分析器、关联模块和声誉分配模块。通信接口从第一实体接收进入网络的通信。通信分析器得出与所接收的通信相关联的一个或更多个属性,所接收的通信包括与消息的发源相关联的第一实体。关联模块从系统数据存储器取回已知属性信息,并比较从所接收的通信得出的属性与已知属性信息,以识别第一实体和一个或更多个其它实体之间的关系。关联模块进一步操作来识别新的属性信息并将新的属性信息合并到系统数据存储器和通信分析器中。声誉分配模块使用所识别的关系来将与第一实体或者一个或更多个其它实体中的一个相关联的第一声誉的至少一部分归于与第一实体或者一个或更多个其它实体中的另一个相关联的第二声誉。

    【附图说明】

    图1是描述示例性网络的结构图,本公开的系统和方法可在该网络中进行操作。

    图2是描述本公开的示例性网络体系结构的结构图。

    图3是描述通信和实体的例子的结构图,其包括用于检测实体之间的关系的标识符和属性。

    图4是描述用于检测关系并给实体分配风险的操作方案的流程图。

    图5是示出示例性网络体系结构的结构图,其包括局部安全代理所储存的局部声誉和一个或多个服务器所储存的全局声誉。

    图6是示出基于局部声誉反馈的全局声誉地确定的结构图。

    图7是示出全局声誉和局部声誉之间的示例性转化(resolution)的流程图。

    图8是用于调节与声誉服务器相关联的过滤器的设置的示例性图形用户界面。

    图9是示出用于互联网协议语音电话(VoIP)或短消息服务(SMS)通信的基于声誉的连接抑制(connection throttling)的结构图。

    图10是示出基于声誉的负载均衡器的结构图。

    图11A是示出用于基于地理位置的身份验证的示例性操作方案的流程图。

    图11B是示出用于基于地理位置的身份验证的另一示例性操作方案的流程图。

    图11C是示出用于基于地理位置的身份验证的另一示例性操作方案的流程图。

    图12是示出用于基于声誉的动态隔离的示例性操作方案的流程图。

    图13是图像垃圾邮件通信的示例性图形用户界面显示。

    图14是示出用于检测图像垃圾邮件的示例性操作方案的流程图。

    图15A是示出用于分析通信的结构的操作方案的流程图。

    图15B是示出用于分析图像的特征的操作方案的流程图。

    图15C是示出用于标准化图像以用于垃圾邮件处理的操作方案的流程图。

    图15D是示出用于分析图像的指纹以在多个图像中找到共同片段的操作方案的流程图。

    详细说明

    图1是描述示例性网络环境的结构图,本公开的系统和方法可在该网络中进行操作。安全代理(security agent)100一般可存在于在网络110(例如,企业网)内部的防火墙系统(未示出)和服务器(未示出)之间。如应被理解的,网络110可包括很多服务器,包括例如可由与网络110相关的企业使用的电子邮件服务器、网络服务器和各种应用服务器。

    安全代理100监控进入和离开网络110的通信。一般通过互联网120从连接到互联网120的很多实体130a-f接收这些通信。实体130a-f中的一个或更多个可为通信业务量的合法发起者。然而,实体130a-f中的一个或更多个也可为发起不需要的通信的声誉差的实体。因此,安全代理100包括声誉引擎。声誉引擎可检查通信并确定与发起通信的实体相关联的声誉。安全代理100接着根据发端实体的声誉对通信执行动作。如果声誉指示通信的发起者声誉好,那么例如,安全代理可将通信转发到通信的接收者。然而,如果声誉指示通信的发起者声誉差,那么其中例如,安全代理可隔离通信,对消息执行更多的测试,或要求来自消息发起者的身份验证。在美国专利公布号2006/0015942中详细描述了声誉引擎,该申请由此通过引用被并入。

    图2是描述本公开的示例性网络体系结构的结构图。安全代理100a-n被示为在逻辑上分别存在于网络110a-n与互联网120之间。虽然没有在图2中示出,但应理解,防火墙可安装在安全代理100a-n和互联网120之间,以提供防止未授权的通信进入相应的网络110a-n的保护。而且,结合防火墙系统可配置侵入检测系统(IDS)(未示出),以识别活动的可疑模式并在这样的活动被识别出时用信号通知警报。

    虽然这样的系统对网络提供了某种保护,但它们一般不处理应用层安全威胁。例如,黑客常常试图使用各种网络类型的应用(例如,电子邮件、网络、即时消息(IM),等等)来产生与网络110a-n的前文本连接,以便利用由使用实体130a-e的这些不同的应用所产生的安全漏洞。然而,不是所有的实体130a-e都暗示对网络100a-n的威胁。一些实体130a-e发起合法的业务量,允许公司的雇员与商业伙伴更有效地进行通信。虽然对可能的威胁来说检查通信是有用的,但是维持当前的威胁信息可能很难,因为攻击被不断地改进以解决最近的过滤技术。因此,安全代理100a-n可对通信运行多次测试,以确定通信是否是合法的。

    此外,包括在通信中的发送者信息可用于帮助确定通信是否是合法的。因此,复杂的安全代理100a-n可跟踪实体并分析实体的特征,以帮助确定是否允许通信进入网络110a-n。可接着给实体110a-n分配声誉。对通信的决定可考虑发起通信的实体130a-e的声誉。而且,一个或更多个中央系统200可收集关于实体130a-e的信息,并将所收集的数据分发到其它中央系统200和/或安全代理100a-n。

    声誉引擎可帮助识别大量恶意通信,而没有通信的内容的广泛和可能昂贵的局部分析(local analysis)。声誉引擎也可帮助识别合法通信,并优先考虑其传输,且减小了对合法通信进行错误分类的风险。而且,声誉引擎可在物理世界或虚拟世界中对识别恶意以及合法事务的问题提供动态和预言性的方法。例子包括在电子邮件、即时消息、VoIP、SMS或利用发送者声誉和内容的分析的其它通信协议系统中过滤恶意通信的过程。安全代理100a-n可接着应用全局或局部策略,以确定关于通信对声誉结果执行什么动作(例如拒绝、隔离、负载均衡、以所分配的优先级传输、以额外的细查局部地进行分析)。

    然而,实体130a-e可用各种方法连接到互联网。如应理解的,实体130a-e可同时或在一段时间内具有多个标识符(例如,电子邮件地址、IP地址、标识符文件,等等)。例如,具有变化的IP地址的邮件服务器可随着时间的过去具有多个身份。而且,一个标识符可与多个实体相关,例如,当IP地址被很多用户支持的组织共享时。而且,用于连接到互联网的特定方法可能使实体130a-e的识别模糊不清。例如,实体130b可利用互联网服务提供商(ISP)200连接到互联网。很多ISP 200使用动态主机配置协议(DHCP)来将IP地址动态地分配给请求连接的实体130b。实体130a-e也可通过欺骗合法实体来伪装其身份。因此,收集关于每个实体130a-e的特征的数据可帮助对实体130a-e加以分类,并确定如何处理通信。

    在虚拟世界和物理世界中创建和欺骗身份的容易性可能产生用户恶意动作的动机,而不承担该动作的后果。例如,在互联网上被罪犯盗取的合法实体的IP地址(或在物理世界中的被盗的护照)可能使该罪犯能够通过假装被盗的身份而相对容易地参与恶意行动。然而,通过给物理实体和虚拟实体分配声誉并识别它们可能使用的多个身份,声誉系统可能影响声誉好的实体和声誉差的实体来负责任地操作,以免变得声誉差且不能与其它网络实体交流或交互。

    图3是描述通信和实体的例子的结构图,其包括利用用于检测实体之间的关系的标识符和属性。安全代理100a-b可通过检查被送往相关网络的通信来收集数据。安全代理100a-b也可通过检查由相关网络分程传递的通信来收集数据。通信的检查和分析可允许安全代理100a-b收集关于发送和接收消息的实体300a-c的信息,其中包括传输模式、数量(volume)、或实体是否有发送某些类型的消息(例如,合法消息、垃圾邮件、病毒、群发邮件,等等)的倾向。

    如图3所示,每个实体300a-c分别与一个或更多个标识符310a-c相关联。标识符310a-c可例如包括IP地址、统一资源定位器(URL)、电话号码、IM用户名、消息内容、域,或可描述实体的任何其它标识符。而且,标识符310a-c与一个或更多个属性320a-c相关联。如应理解的,属性320a-c符合所描述的特定标识符310a-c。例如,消息内容标识符可包括属性,例如恶意软件(malware)、数量、内容类型、运行状态,等等。类似地,与标识符例如IP地址相关联的属性320a-c可包括与实体300a-c相关联的一个或更多个IP地址。

    此外,应理解,可从通信330a-c(例如,电子邮件)收集的该数据一般包括发起通信的实体的一些标识符和属性。因此,通信330a-c提供用于将关于实体的信息传递到安全代理100a、100b的传送。通过检查包括在消息中的标题信息、分析消息的内容,以及通过汇聚安全代理100a、100b以前收集的信息(例如,合计从实体接收的通信的数量),安全代理100a、100b可检测这些属性。

    可汇聚并利用来自多个安全代理100a、100b的数据。例如,数据可由中央系统汇聚和利用,中央系统接收与所有实体300a-c相关联的标识符和属性,安全代理100a、100b为实体300a-c接收了通信。可选地,彼此传递关于实体300a-c的标识符和属性信息的安全代理100a、100b可作为分布式系统进行操作。利用数据的过程可使实体300a-c的属性彼此关联,从而确定实体300a-c之间的关系(例如,事件出现、数量,和/或其它确定因素之间的关联)。

    这些关系可接着用于根据与每个标识符相关的属性的关联为所有标识符建立多维声誉“矢量”。例如,如果具有声誉差的已知声誉的声誉差的实体300a发送具有第一组属性350a的消息330a,且接着未知实体300b发送具有第二组属性350b的消息330b,则安全代理100a可确定第一组属性350a的全部或一部分是否匹配第二组属性350b的全部或一部分。当第一组属性350a的某个部分匹配第二组属性350b的某个部分时,可根据包括匹配的属性330a、33b的特定标识符320a、320b来建立关系。被发现具有匹配的属性的特定标识符340a、340b可用于确定与实体300a、300b之间的关系相关联的强度。关系的强度可帮助确定声誉差的实体300a的声誉差的性质中有多少被归于未知实体300b的声誉。

    然而,还应认识到,未知实体300b可发起包括属性350c的通信330c,属性350c与发源于已知的声誉好的实体300c的通信330d的一些属性350d匹配。被发现具有匹配的属性的特定标识符340c、340d可用于确定与实体300b、300c之间的关系相关联的强度。关系的强度可帮助确定声誉好的实体300c的声誉好的性质中有多少被归于未知实体300b的声誉。

    分布式声誉引擎还允许关于最近的威胁前景的全球情报的实时协作共享,对可由过滤或风险分析系统执行的局部分析提供即时保护的益处,以及甚至在可能的新威胁出现之前就识别这种新威胁的恶意来源。使用位于很多不同地理位置处的传感器,可与中央系统200或与分布式安全代理100a、100b一起快速共享关于新威胁的信息。如应理解的,这样的分布式传感器可包括局部安全代理100a、100b,以及局部声誉好的客户机、业务量监控器,或适合于收集通信数据的任何其它设备(例如,开关、路由器、服务器,等等)。

    例如,安全代理100a、100b可与中央系统200进行通信,以提供威胁和声誉信息的共享。可选地,安全代理100a、100b可在彼此之间传递威胁和声誉信息,以提供最新的和准确的威胁信息。在图3的例子中,第一安全代理300a拥有关于未知实体300b和声誉差的实体300a之间的关系的信息,而第二安全代理300b拥有关于未知实体300b和声誉好的实体300c之间的关系的信息。在没有共享信息的情况下,第一安全代理300a可根据所检测的关系对通信采取特定的动作。然而,知道未知实体300b和声誉好的实体300c之间的关系,第一安全代理300a可利用来自未知实体300b的收到的通信来采取不同的动作。安全代理之间的关系信息的共享因而提供更完整的一组关系信息,将针对该关系信息作出确定。

    系统试图将声誉(反映一般倾向和/或分类)分配给物理实体,例如执行事务的个人或自动化系统。在虚拟世界中,实体由在实体正执行的特定事务(例如,发送消息或从银行帐号转移资金)中联系到这些实体的标识符(例如IP、URL、内容)表示。因此根据那些标识符的总体行为和历史模式以及那些标识符与其它标识符的关系,例如发送消息的IP与包括在那些消息中的URL的关系,声誉可被分配到那些标识符。如果在标识符之间存在强关联,则单个标识符的“差”声誉可能使其它邻近的标识符的声誉恶化。例如,发送具有差声誉的URL的IP将由于URL的声誉而使其自己的声誉恶化。最后,单独的标识符声誉可被汇聚成与那些标识符相关联的实体的单个声誉(风险评分)。

    应注意,属性可分成很多类别。例如,证据属性可表示关于实体的物理、数字或数字化的物理数据。该数据可归于单个已知或未知的实体,或在多个实体之间共享(形成实体关系)。与消息安全有关的证据属性的例子包括IP(互联网协议)地址、已知的域名、URL、实体所使用的数字指纹或签名、TCP签名,等等。

    作为另一例子,行为属性可表示关于实体或证据属性的人或机器分配的观测结果。这样的属性可包括来自一个或多个行为参数文件(behavioralprofile)的一个、很多或所有属性。例如,通常与垃圾邮件发送者相关联的行为属性可依据从该实体发送的大量通信。

    用于特定类型的行为的很多行为属性可被合并以得出行为参数文件。行为参数文件可包括一组预定义的行为属性。分配给这些参数文件的属性特征包括与限定匹配参数文件的实体的倾向有关的行为事件。与消息安全有关的行为参数文件的例子可包括“垃圾邮件发送者”、“诈骗者”和“合法发送者”。与每个参数文件相关的事件和/或证据属性限定参数文件应被分配到的适当实体。这可包括特定的一组发送模式、黑名单事件或证据数据的特定属性。一些例子包括:发送者/接收者身份识别;时间间隔和发送模式;有效载荷的严重度(severity)和配置;消息结构;消息质量;协议和相关的签名;通信介质。

    应理解,共享相同的证据属性中的一些或全部的实体具有证据关系。类似地,共享行为属性的实体具有行为关系。这些关系帮助形成相关参数文件的逻辑组,该关系接着被适应性地应用,以增强参数文件或略微差不多符合所分配的参数文件地来识别实体。

    图4是描述用于检测关系并给实体分配风险的操作方案400的流程图。操作方案在步骤410通过收集网络数据开始。数据收集可例如由安全代理100、客户设备、交换机、路由器或任何其它设备完成,所述其它设备可操作来从网络实体(例如,电子邮件服务器、网络服务器、IM服务器、ISP、文件传输协议(FTP)服务器、gopher服务器、VoIP设备等)接收通信。

    在步骤420,标识符与所收集的数据(例如通信数据)相关联。步骤420可由可操作来从很多传感器设备汇聚数据的安全代理100或中央系统200执行,包括例如一个或更多个安全代理100。可选地,步骤420可由安全代理100本身执行。标识符可基于所接收的通信的类型。例如,电子邮件可包括一组信息(例如,发起者和收信方的IP地址、文本内容、附件等),而VoIP通信可包括一组不同的信息(例如,主叫电话号码(或如果从VoIP客户发起则为IP地址)、接收的电话号码(或如果指定VoIP电话则为IP地址)、语音内容,等等)。步骤420也可包括分配具有相关标识符的通信的属性。

    在步骤430,分析与实体相关联的属性,以确定在实体之间是否存在任何关系,为这些实体收集通信信息。步骤430可例如由中央系统200或一个或更多个分布式安全代理100执行。分析可包括比较与不同实体有关的属性以找到实体之间的关系。而且,根据作为关系的基础的特定属性,强度可与关系相关联。

    在步骤440,风险矢量被分配给实体。作为例子,风险矢量可由中央系统200或一个或更多个安全代理100分配。分配给实体130(图1-2)、300(图3)的风险矢量可基于在实体之间存在的关系,并基于形成关系的基础的标识符。

    在步骤450,可根据风险矢量执行动作。该动作可例如由安全代理100执行。可对与实体相关联的收到的通信执行动作,风险矢量被分配给该实体。其中,所述动作可包括允许、拒绝、隔离、负载均衡、以所分配的优先级传输、以额外的细查局部地进行分析。然而,应理解,可单独地得到声誉矢量。

    图5是示出示例性网络体系结构的结构图,其包括由局部声誉引擎510a-e得到的局部声誉500a-e和一个或更多个服务器530所储存的全局声誉520。局部声誉引擎510a-e例如可与局部安全代理,例如安全代理100相关联。可选地,局部声誉引擎510a-e可例如与本地客户机相关联。声誉引擎510a-e中的每个包括一个或更多个实体的列表,声誉引擎510a-e为这些实体储存所得到的声誉500a-e。

    然而,这些储存的得到的声誉在声誉引擎之间可能是不一致的,因为每个声誉引擎可观察到不同类型的业务量。例如,声誉引擎1510a可包括指示特定实体是声誉好的声誉,而声誉引擎2510b可包括指示同一实体是声誉差的声誉。这些局部的声誉不一致性可基于从实体接收的不同业务量。可选地,不一致性可基于来自局部声誉引擎1510a的用户的、指示通信是合法的反馈,而局部声誉引擎2510b提供指示同一通信是不合法的反馈。

    服务器530从局部声誉引擎510a-e接收声誉信息。然而,如上所述,一些局部声誉信息可能与其它局部声誉信息不一致。服务器530可在局部声誉500a-e之间进行仲裁,以根据局部声誉信息500a-e确定全局声誉520。在一些例子中,全局声誉信息520可接着被提供回局部声誉引擎510a-e,以给这些引擎510a-e提供最新的声誉信息。可选地,局部声誉引擎510a-e可操作来查询服务器530以得到声誉信息。在一些例子中,服务器530使用全局声誉信息520响应于查询。

    在其它例子中,服务器530将局部声誉偏置(bias)应用到全局声誉520。局部声誉偏置可对全局声誉执行变换,以给局部声誉引擎510a-e提供全局声誉矢量,其根据发起查询的特定局部声誉引擎510a-e的偏好而进行偏置。因此,管理员或用户对垃圾邮件消息指示高容忍度(tolerance)的局部声誉引擎510a可接收解释所指示的容忍度的全局声誉矢量。返回到声誉引擎510a的声誉矢量的特定分量可能包括由于与声誉矢量的其余部分的关系而降低重要性的声誉矢量的部分。同样,局部声誉引擎510b可接收放大与病毒声誉有关的声誉矢量的分量的声誉矢量,局部声誉引擎510b指示例如来自具有发起病毒的声誉的实体的低容忍度通信。

    图6是示出基于局部声誉反馈的全局声誉的确定的结构图。局部声誉引擎600可操作来通过网络610向服务器620发送查询。在一些例子中,局部声誉引擎600响应于从未知实体接收通信而发起查询。可选地,局部声誉引擎600可响应于接收任何通信而发起查询,从而促进更加新的声誉信息的使用。

    服务器620可操作来使用全局声誉确定响应于查询。中央服务器620可使用全局声誉汇聚引擎630得到全局声誉。全局声誉汇聚引擎630可操作来从相应的多个局部声誉引擎接收多个局部声誉640。在一些例子中,多个局部声誉640可由声誉引擎周期性地发送到服务器620。可选地,多个局部声誉640可由服务器在从局部声誉引擎600中之一接收到查询时取回。

    使用与每个局部声誉引擎有关的置信值(confidence value)并接着积累结果,可合并局部声誉。置信值可指示与相关声誉引擎所产生的局部声誉相关联的置信度。与个人相关联的声誉引擎例如可接收在全局声誉确定中较低的权重。相反,与在大型网络上操作的声誉引擎相关联的局部声誉可根据与该声誉引擎相关联的置信值接收全局声誉确定中较大的权重。

    在一些例子中,置信值650可基于从用户接收的反馈。例如,可给接收很多反馈的声誉引擎分配与该声誉引擎相关的局部声誉640的低置信值650,这些反馈指示通信未被正确地处理,因为与通信相关的局部声誉信息640指示错误的动作。类似地,可给接收反馈的声誉引擎分配与该声誉引擎相关的局部声誉640的高置信值650,该反馈根据局部声誉信息640指示通信被正确地处理,局部声誉信息640与指示正确的动作的通信相关联。与不同声誉引擎相关联的置信值的调整可使用调节器660来完成,调节器660可操作来接收输入信息并根据所接收的输入调节置信值。在一些例子中,根据被储存的用于被错误地分类的实体的统计资料,置信值650可由声誉引擎本身提供到服务器620。在其它例子中,用于对局部声誉信息加权的信息可被传递到服务器620。

    在一些例子中,偏置670可应用于最终形成的全局声誉矢量。偏置670可标准化声誉矢量,以向声誉引擎600提供标准化的全局声誉矢量。可选地,可应用偏置670以解释与发起声誉查询的声誉引擎600相关的局部偏好。因此,声誉引擎600可接收与查询的声誉引擎600的确定的偏好匹配的全局声誉矢量。声誉引擎600可根据从服务器620接收的全局声誉矢量对通信采取动作。

    图7是示出全局声誉和局部声誉之间的示例性转化的结构图。局部安全代理700与服务器720进行通信,以从服务器720取回全局声誉信息。局部安全代理700可在702接收通信。局部安全代理可在704关联通信以识别消息的属性。消息的属性可包括例如发端实体、消息内容的指纹、消息大小,等等。局部安全代理700在对服务器720的查询中包括该信息。在其它例子中,局部安全代理700可将整个消息转发到服务器720,且服务器可执行消息的关联和分析。

    服务器720使用从查询接收的信息,来根据服务器720的配置725确定全局声誉。配置725可包括多个声誉信息,包括指示被查询的实体是声誉差的信息(730)和指示被查询的实体是声誉好的信息(735)。配置725也可将权重740应用于每个汇聚的声誉730、735。声誉得分确定器745可提供用于给汇聚的声誉信息730、735加权(740)并产生全局声誉矢量的引擎。

    局部安全代理700接着在706向局部声誉引擎发送查询。局部声誉引擎708执行局部声誉的确定并在710返回局部声誉矢量。局部安全代理700也接收以全局声誉矢量形式的、对发送到服务器720的声誉查询的响应。局部安全代理700接着在712将局部声誉矢量和全局声誉矢量混合在一起。接着在714关于所接收的消息采取动作。

    图8是用于调整与声誉服务器相关联的过滤器的设置的示例性图形用户界面800。图形用户界面800可允许局部安全代理的用户在一些不同的类别810,例如“病毒”、“蠕虫”、“特洛伊木马”、“网络钓鱼”、“间谍软件”、“垃圾邮件”、“内容”和“群发”中调整局部过滤器的配置。然而,应理解,所述类别810只是例子,且本公开不限于在这里被选为例子的类别810。

    在一些例子中,类别810可分成两种或更多类型的类别。例如,图8的类别810分成类别810的“安全设置”类型820以及类别的“策略设置”类型830。在每个类别810和类型820、830中,混合器条形表示840可允许用户调整与通信或实体声誉的相应类别810相关联的特定过滤器设置。

    而且,虽然“策略设置”类型830的类别810可根据用户自己的判断被自由调节,但是“安全设置”类型820的类别可被限制到在一范围内调整。可产生该差别,以便阻止用户更改安全代理的安全设置超过可接受的范围。例如,不满意的雇员可能试图降低安全设置,从而允许企业网易受攻击。因此,在“安全设置”类型820中置于类别810上的范围850可操作来在将安全保持在最低水平,以防止网络被危害。然而,如应注意的,“策略设置”类型830的类别810是不危害网络安全的那些类型的类别810,而是如果设置降低可能只是使用户或企业不方便。

    此外,应认识到,在各种例子中,范围限制850可置于全部类别810上。因此,局部安全代理将阻止用户将混合器条形表示840设置在所提供的范围850之外。还应注意,在一些例子中,范围可不显示在图形用户界面800上。替代地,范围850将被从图形用户界面800提取出来,且所有设置将为相关的设置。因此,类别800可显示并看起来似乎允许设置的满范围,同时将设置变换成在所提供的范围内的设置。例如,“病毒”类别810的范围850在本例中被设置在水平标记8和13之间。如果图形用户界面800设置成从图形用户界面800提取出可允许的范围850,则“病毒”类别810将允许混合器条形表示840设置在0和14之间的任何位置。然而,图形用户界面800可将0-14设置变换成在8到13的范围850内的设置。因此,如果用户请求在0和14之间中间的设置,则图形用户界面可将该设置变换成在8和13中间的设置。

    图9是示出用于互联网协议语音电话(VoIP)或短消息服务(SMS)通信的基于声誉的连接抑制的结构图。如应理解的,主叫IP电话900可向接收的IP电话910安排VoIP呼叫。这些IP电话900、910可以是例如计算机执行的软电话软件、网络支持的电话,等等。主叫IP电话900可通过网络920(例如互联网)安排VoIP呼叫。接收的IP电话910可通过局域网930(例如企业网)接收VoIP呼叫。

    当建立VoIP呼叫时,主叫IP电话已建立与局域网930的连接。该连接可与电子邮件、网络、即时消息或其它互联网应用可被用于提供与网络的未调节(unregulated)的连接的方式类似被使用。因此,可使用与接收的IP电话的连接,从而根据所建立的连接使在局域网930上操作的计算机940、950处于入侵、病毒、特洛伊木马、蠕虫和各种其它类型的攻击的危险中。而且,由于VoIP通信的时间敏感性质,一般不检查这些通信,以确保没有误用连接。例如,语音会话实时地发生。如果语音会话的一些分组被延迟,则会话变得不自然且难以理解。因此,一旦建立了连接,就一般不能检查分组的内容。

    然而,局部安全代理960可使用从声誉引擎或服务器970接收的声誉信息来确定与主叫IP电话相关的声誉。局部安全代理960可使用发端实体的声誉来确定是否允许与发端实体的连接。因此,安全代理960可防止与声誉差的实体的连接,如不遵守局部安全代理960的策略的声誉所指示的。

    在一些例子中,局部安全代理960可包括连接抑制引擎,其可操作来使用在主叫IP电话900和接收的IP电话910之间建立的连接来控制正被传输的分组的流动速率。因此,可允许具有差声誉的发端实体900产生与接收的IP电话910的连接。然而,分组通过量将被定上限,从而防止发端实体900使用连接来攻击局域网930。可选地,连接抑制可通过执行从声誉差的实体发起的任何分组的详细检查来完成。如上所述,所有VoIP分组的详细检查不是有效的。因此,可为与声誉好的实体相关联的连接最大化服务质量(QoS),同时减少与声誉差的实体的连接相关联的QoS。可对与声誉差的实体相关联的连接执行标准通信询问技术,以便发行从发端实体接收的任何被传输的分组是否包括对网络930的威胁。在美国专利号6,941,467、7,089,590、7,096,498和7,124,438中以及在美国专利申请号2006/0015942、2006/0015563、2003/0172302、2003/0172294、2003/0172291和2003/0173166中描述了各种询问技术和系统,由此以上这些通过引用被并入。

    图10是示出基于声誉的负载均衡器1000的操作的结构图。负载均衡器1000可操作来通过网络1030(例如互联网)(分别地)从声誉好的实体1010和声誉差的实体1020接收通信。负载均衡器1000与声誉引擎1040进行通信,以确定与进入或传出的通信相关联的实体1010、1020的声誉。

    声誉引擎1030可操作来给负载均衡器提供声誉矢量。声誉矢量可以各种不同的类别指示与通信相关联的实体1010、1020的声誉。例如,就发起垃圾邮件的实体1010、1020而言,声誉矢量可指示实体1010、1020的良好声誉,同时就发起病毒的实体1010、1020而言,也指示相同实体1010、1020的差声誉。

    负载均衡器1000可使用声誉矢量来确定关于与实体1010、1020相关联的通信执行什么动作。在声誉好的实体1010与通信相关联的情况下,消息被发送到消息传输代理(MTA)1050并被传输给接收者1060。

    在声誉差的实体1020拥有病毒的声誉但没有其它类型的声誉差的活动的声誉的情况下,通信被转发到多个病毒检测器1070中之一。负载均衡器1000可操作来根据病毒检测器的当前容量和发端实体的声誉来确定使用多个病毒检测器1070中的哪一个。例如,负载均衡器1000可将通信发送到被最少利用的病毒检测器。在其它例子中,负载均衡器1000可确定与发端实体相关联的差声誉度,并将声誉稍微差的通信发送到被最少利用的病毒检测器,同时将声誉非常差的通信发送到被高度利用的病毒检测器,从而抑制与声誉非常差的实体相关联的连接的QoS。

    类似地,在声誉差的实体1020有发起垃圾邮件通信的声誉但没有其它类型的声誉差的活动的声誉的情况下,负载均衡器可将通信发送到专门的垃圾邮件检测器1080以排除其它类型的测试。应理解,在通信与发起多种类型的声誉差的活动的声誉差的实体1020相关联的情况下,可发送通信以测试已知实体1020要显示的每种类型的声誉差的活动,同时避免与不知道实体1020要显示的声誉差的活动相关联的测试。

    在一些例子中,每个通信可接收用于多种类型的不合法内容的例行测试。然而,当与通信相关联的实体1020显示某些类型的活动的声誉时,通信也可被隔离以用于内容的详细测试隔离,实体显示对于发起该内容的声誉。

    在又一些例子中,每个通信可接收相同类型的测试。然而,与声誉好的实体1010相关联的通信被发送到有最短队列的测试模块或具有空闲的处理容量的测试模块。另一方面,与声誉差的实体1020相关联的通信被发送到有最长队列的测试模块1070、1080。因此,与声誉好的实体1010相关联的通信可接受超过与声誉差的实体相关联的通信的传输优先权。因此对于声誉好的实体1010,服务质量被最大化,同时对于声誉差的实体1020,服务质量被降低。因此,基于声誉的负载平衡可通过降低声誉差的实体连接到网络930的能力来保护网络免于攻击。

    图11A是示出用于收集基于地理位置的数据以进行身份验证分析的示例性操作方案的流程图。在步骤1100,操作方案从各种登录尝试收集数据。步骤1100可例如由局部安全代理,例如图1的安全代理100执行。其中,所收集的数据可包括与登录尝试相关联的IP地址、登录尝试的时间、在成功之前的登陆尝试的次数,或所尝试的任何不成功的口令的详细资料。所收集的数据接着在步骤1105被分析,以得出统计信息,例如登录尝试的地理位置。步骤1105可例如由声誉引擎执行。接着在步骤1110与登录尝试相关联的统计信息被储存。该储存可例如由系统数据存储器执行。

    图11B是示出用于基于地理位置的身份验证的另一示例性操作方案的流程图。在步骤1115接收登录尝试。登录尝试可例如由可操作来通过网络提供安全财务数据的安全网络服务器接收。接着在步骤1120确定登录尝试是否匹配所储存的用户名和口令组合。步骤1120可例如由可操作来验证登录尝试的安全服务器执行。如果用户名和口令不匹配所存储的用户名/口令组合,则在步骤1125宣布登录尝试失败。

    然而,如果用户名和口令确实匹配合法用户名/口令组合,则在步骤1130确定登录尝试的起源。登录尝试的起源可由如图1所示的局部安全代理100确定。可选地,登录尝试的起源可由声誉引擎确定。登录尝试的起源可接着与在图11A中得出的统计信息比较,如在步骤1135中示出的。步骤1135可例如由局部安全代理100或声誉引擎执行。在步骤1140确定起源是否与统计期望匹配。如果实际起源匹配统计期望,则在步骤1145验证用户。

    可选地,如果实际起源不匹配对于起源的统计期望,则在步骤1150执行进一步的处理。应理解,进一步的处理可包括从用户请求进一步的信息,以验证他或她的真实性。这样的信息可包括例如家庭地址、母亲的婚前姓、出生地点,或关于用户已知的任何其它部分的信息(例如秘密问题)。额外处理的其它例子可包括搜索以前的登录尝试,以确定当前登录尝试的地点是否确实是异常的或仅仅是巧合的。此外,与发起登录尝试的实体相关联的声誉可被得出并用于确定是否允许登录。

    图11C是示出用于使用发端实体的声誉进行基于地理位置的验证以确认身份验证的另一示例性操作方案的流程图。在步骤1115接收登录尝试。登录尝试可例如由可操作来通过网络提供安全财务数据的安全网络服务器接收。接着在步骤1160确定登录尝试是否匹配所储存的用户名和口令组合。步骤1160可例如由可操作来验证登录尝试的安全服务器执行。如果用户名和口令不匹配所存储的用户名/口令组合,则在步骤1165宣布登录尝试失败。

    然而,如果用户名和口令确实匹配合法的用户名/口令组合,则在步骤1170确定登录尝试的起源。登录尝试的起源可由如图1所示的局部安全代理100确定。可选地,登录尝试的起源可由声誉引擎确定。接着可取回与发起登录尝试的实体相关联的声誉,如在步骤1175中示出的。步骤1175可例如由声誉引擎执行。在步骤1180确定发端实体的声誉是否是声誉好的。如果发端实体是声誉好的,则在步骤1185验证用户身份。

    可选地,如果发端实体是声誉差的,则在步骤1190执行进一步的处理。应理解,进一步的处理可包括从用户请求进一步的信息,以验证他或她的真实性。这样的信息可包括例如家庭地址、母亲的婚前姓、出生地点,或关于用户已知的任何其它部分的信息(例如秘密问题)。额外处理的其它例子可包括搜索以前的登录尝试,以确定当前登录尝试的地点是否确实是异常的或仅仅是巧合的。

    因此,应理解,可应用声誉系统来识别金融交易中的欺诈行为。声誉系统可根据交易发起者的声誉或实际交易中的数据(来源、目的地、金额,等等)来提高交易的风险评分。在这样的情况下,金融机构可根据发端实体的声誉更好地确定特定交易是欺骗性的概率。

    图12是示出用于基于声誉的动态隔离的示例性操作方案的流程图。在步骤1200接收通信。接着在步骤1205分析通信,以确定它们是否与未知实体相关联。然而应注意,该操作方案可应用于所接收的任何通信,而不仅仅是从以前的未知实体接收的通信。例如,从声誉差的实体接收的通信可被动态地隔离,直到确定了所接收的通信不对网络造成威胁为止。在通信不与新实体相关联的场合,通信经历对进入的通信的正常处理,如在步骤1210中示出的。

    如果通信与新实体相关联,则在步骤1215初始化动态隔离计数器。接着在步骤1220,从新实体接收的通信被发送到动态隔离。接着在步骤1225检查计数器以确定计数器的时间是否已经过去了。如果计数器的时间没有过去,则在步骤1230递减计数器。在步骤1235可分析实体的行为以及被隔离的通信。在步骤1240确定实体的行为或被隔离的通信是否是异常的。如果没有发现异常情况,则操作方案返回到步骤1220,在这里隔离新的通信。

    然而,如果在步骤1240发现实体的行为或通信是异常的,则在步骤1245给实体分配声誉差的声誉。通过将通知发送到管理员或发端实体所发送的通信的接收者来结束过程。

    返回到步骤1220,隔离和检查通信和实体行为的过程继续进行,直到发现异常行为为止,或直到在步骤1225动态的隔离计数器的时间过去为止。如果动态的隔离计数器的时间过去了,则在步骤1255给实体分配声誉。可选地,在实体不是未知实体的情况下,在步骤1245或1255可更新声誉。在步骤1260通过释放动态隔离来结束该操作方案,其中动态的隔离计数器的时间已经过去,而在通信中或在发端实体的行为中没有发现异常情况。

    图13是可被分类为不想要的图像或消息的图像垃圾邮件通信的示例性图形用户界面1300的显示。如应理解的,图像垃圾邮件对传统垃圾邮件过滤器造成问题。图像垃圾邮件通过将垃圾邮件的文本消息转换成图像格式来绕过垃圾邮件的传统文本分析。图13示出图像垃圾邮件的例子。消息显示图像1310。虽然图像1300看起来是文本,但它仅仅是文本消息的图形编码。一般地,图像垃圾邮件也包括文本消息1320,文本消息1320包括被正确地构造的但在消息背景下没有意义的句子。消息1320设计成躲避接通通信的垃圾邮件过滤器,在该通信内只包括图像1310。而且,消息1320设计成欺骗滤波器,这些滤波器对包括图像1310的通信的文本应用粗略的测试。进一步地,当这些消息确实在头部1330中包括关于消息的起源的信息时,用于发出图像垃圾邮件的实体的声誉可能是未知的,直到该实体被发觉发送图像垃圾邮件为止。

    图14是示出用于检测不想要的图像(例如,图像垃圾邮件)的示例性操作方案的流程图。应理解,附图14中所示的很多步骤可单独地或结合附图14中所示的其它步骤中的任何一个或全部来执行,以提供图像垃圾邮件的某种检测。然而,附图14中的每个步骤的使用提供了用于检测图像垃圾邮件的全面的过程。

    过程在步骤1400以通信的分析开始。步骤1400一般包括分析通信,以确定通信是否包括受到图像垃圾邮件处理的图像。在步骤1410,操作方案执行通信的结构分析,以确定图像是否包括垃圾邮件。接着在步骤1420分析图像的头部。图像头部的分析允许系统确定关于图像格式本身是否存在异常情况(例如,协议错误、讹误,等等)。在步骤1430分析图像的特征。特征分析旨在确定图像的任何特征是否是异常的。

    可在步骤1440标准化图像。图像的标准化一般包括移除可能被垃圾邮件发送者添加以避免图像指纹识别技术的随机噪声。图像标准化旨在将图像转换成在图像中可容易比较的格式。可对被标准化的图像执行指纹分析,以确定图像是否匹配来自以前接收的已知图像垃圾邮件的图像。

    图15A是示出用于分析通信的结构的操作方案的流程图。操作方案在步骤1500以消息结构的分析开始。在步骤1505,分析通信的超文本标记语言(HTML)结构,以引入n-元文法(n-gram)标记作为贝叶斯分析的额外符号(token)。这样的处理可为异常情况分析包括在图像垃圾邮件通信中的文本1320。可分析消息的HTML结构,以定义元令牌(meta-token)。元令牌是消息的HTML内容,其被处理以丢弃任何不相关的HTML标记,并通过移除白空区而被压缩以生成用于贝叶斯分析的“符号”。上述符号中的每个可用作对贝叶斯分析的输入,以与以前接收的通信比较。

    操作方案接着在步骤1515包括图像检测。图像检测可包括将图像分割成多个部分,以及对这些部分执行指纹识别来确定指纹是否匹配以前接收的图像的部分。

    图15B是示出用于下述过程的操作方案的流程图,即分析图像的特征,以提取用于输入到聚类引擎(clustering engine)中的消息的特征,以便识别符合已知图像垃圾邮件的图像的组成部分。操作方案在步骤1520开始,在这里图像的多个高水平特征被检测,以用在机器学习算法中。这样的特征可包括数值,例如独特的颜色的数量、噪声黑色像素(noise black pixel)的数量、水平方向中边缘(形状之间的锐转变)的数量,等等。

    操作方案所提取的特征之一可包括图像的柱状图模式的数量,如在步骤1525示出的。通过检查图像的光谱密度来产生模式的数量。如应理解的,人工图像一般包括比自然图像少的模式,这是因为自然图像颜色一般扩散到广谱(broad spectrum)。

    如上所述,从图像提取的特征可用于识别异常情况。在一些例子中,异常情况可包括分析消息的特征以确定多个特征与所储存的不想要的图像的特征的相似性的程度。可选地,在一些例子中,也可分析图像特征,以与已知的声誉好的图像比较,以确定与声誉好的图像的相似性。应理解,单独的所提取的特征都不能决定分类。例如,特定的特征可与60%的不想要的消息相关联,同时也与40%的想要的消息相关联。而且,当与特征相关联的数值变化时,消息是想要的或是不想要的概率可能变化。有很多可指示轻微倾向的特征。如果合并这些特征中的每个,则图像垃圾邮件检测系统可进行分类决定。

    接着在步骤1530检查高宽比,以确定关于图像尺寸或高宽比的是否存在任何异常情况。图像尺寸或高宽比与已知图像垃圾邮件所共有的已知尺寸或高宽比的相似性可指示这种在高宽比中的异常情况。例如,图像垃圾邮件能够以特定的尺寸出现,以使图像垃圾邮件看起来更像普通电子邮件。包括下述图像的消息更可能是垃圾邮件本身,即这些图像与已知垃圾邮件图像享有共同的尺寸。可选地,存在不有利于垃圾邮件的图像尺寸(例如,如果垃圾邮件发送者将消息插入图像中,则1英寸x1英寸的正方形图像可能是难以读取的)。已知不利于垃圾邮件的插入的包括图像的消息较不可能是图像垃圾邮件。因此,消息的高宽比可与在图像垃圾邮件中使用的共同的高宽比进行比较,以确定图像是不想要的图像或图像是声誉好的图像的概率。

    在步骤1535,检查图像的频率分布。一般地,自然图像有具有相对少的明显的频率梯度(gradation)的均匀频率分布。另一方面,图像垃圾邮件一般包括常变的频率分布,这是因为黑色字母被放置在黑暗背景上。因此,这样的不均匀的频率分布可指示图像垃圾邮件。

    在步骤1540,可分析信噪比。高信噪比可指示垃圾邮件发送者可能试图通过将噪声引入图像中来躲避指纹识别技术。由此增加噪声水平可指示图像是不想要的图像的概率增加。

    应理解,可在整个图像的规模上提取一些特征,而可从图像的子部分提取其它特征。例如,图像可被细分成多个子部分。每个矩形可使用快速付立叶变换(FFT)变换到频域中。在被变换的图像中,在多个方向上的频率的优势(predominance)可作为特征被提取。也可检查所变换的图像的这些子部分,以确定高频和低频的数量。在被变换的图像中,离原点较远的点表现出较高的频率。类似于其它被提取的特征,这些特征可接着与已知的合法和不想要的图像比较,以确定未知图像与每个类型的已知图像共享哪些特性。而且,被变换的(例如频域)图像也可分成子部分(例如,片段(slice)、矩形、同心圆,等等),并与来自已知图像(例如,已知的不想要的图像和已知的合法的图像)的数据比较。

    图15C是示出用于标准化图像以用于垃圾邮件处理的的操作方案的流程图。在步骤1545,从图像除去模糊和噪声。如前所述,这些可能由垃圾邮件发送者引入来躲避指纹识别技术,例如通过改变无用信息的总数的散列法,使得它不与任何以前接收的已知图像垃圾邮件的无用信息的指纹匹配。模糊和噪声的移除可描述用于除去垃圾邮件发送者所引入的人为噪声的几种技术。应理解,人为噪声可包括垃圾邮件发送者所使用的技术,例如条带效应(其中包括在图像中的字体变化,以改变图像的无用信息)。

    在步骤1550,边缘检测算法可在标准化的图像上执行。在一些例子中,被进行边缘检测的图像被使用并提供到光学字符识别引擎,以将被进行边缘检测的图像转换成文本。边缘检测可用于从图片除去不必要的细节,该细节可能在相对于其他图像处理该图像中造成低效率。

    在步骤1555,可应用中值滤波。应用中值滤波来除去随机的像素噪声。这样的随机像素可对图像的内容分析造成问题。中值滤波可帮助除去垃圾邮件发送者所引入的单像素类型的噪声。应理解,单像素噪声由垃圾邮件发送者使用图像编辑器引入,以改变图像中的一个或多个像素,这可使图像在一些区域中看起来呈颗粒状的,从而使图像更难以检测。

    在步骤1560,量化图像。图像的量化除去不必要的颜色信息。这种颜色信息一般需要更多的处理,并与垃圾邮件的试图传播无关。而且,垃圾邮件发送者可稍微改变图像中的颜色方案,并再次改变杂乱信息,以便已知图像垃圾邮件的杂乱信息不匹配从颜色变化的图像垃圾邮件得出的杂乱信息。

    在步骤1565,执行对比度扩展。使用对比度扩展,图像中的颜色标度从黑到白被最大化,即使颜色只在灰度阴影中变化也是如此。给图像的最亮的阴影分配白值,而给图像中最暗的阴影分配黑值。与原始图像中最亮和最暗的阴影相比,给所有其它阴影分配他们在光谱(spectrum)中的相对位置。对比度扩展帮助限定图像中可能没有充分利用可用光谱的细节,因而可帮助阻止垃圾邮件发送者使用不同部分的光谱来避免指纹识别技术。垃圾邮件发送者有时故意改变图像的密度范围,以使一些类型的特征识别引擎无效。对比度扩展也可帮助标准化图像,以便它可与其它图像比较,以识别包含在图像中的共同特征。

    图15D是示出用于分析图像的指纹以在多个图像中找到共同片段的操作方案的流程图。在步骤1570,操作方案通过界定图像内的区域开始。接着对所界定的区域执行风选算法(winnowing algorithm),以识别图像的相关部分,在步骤1575应在该图像上提取指纹。在步骤1580,操作方案对从风选操作得到的片段进行指纹识别,并确定在所接收的图像和已知垃圾邮件图像的指纹之间是否存在匹配。在每个专利申请公布号2006/0251068中描述了类似的风选指纹识别方法,该专利由此通过引用被并入。

    如这里在说明书中使用的且在接下来的全部权利要求中,“一(a)”、“一个(an)”和“所述(the)”的意思包括复数涵义,除非上下文另外清楚地指出。此外,如这里在说明书中使用的且在接下来的全部权利要求中,“在...中”的意思包括、“在...中”和“在...上”,除非上下文另外清楚地指出。最后,如这里在说明书中使用的且在接下来的全部权利要求中,“和”和“或”的意思包括联合的和分离的涵义,并可互换地使用,除非上下文另外清楚地指出。

    范围可在这里表示为从“大约”一个特定的值和/或到“大约”另一特定的值。当表示这样的范围时,另一实施方式包括从一个特定的值和/或到另一特定的值。类似地,当值被表示为近似值时,通过使用前面的“大约”,应理解,特定的值形成另一实施方式。应进一步理解,每个范围的端点相对于另一端点来说是重要的,并独立于另一端点。

    描述了本发明的很多实施方式。然而,应理解,可进行各种更改,而不偏离本发明的实质和范围。因此,其它实施方式处于下面的权利要求的范围内。

实体属性的关联和分析.pdf_第1页
第1页 / 共34页
实体属性的关联和分析.pdf_第2页
第2页 / 共34页
实体属性的关联和分析.pdf_第3页
第3页 / 共34页
点击查看更多>>
资源描述

《实体属性的关联和分析.pdf》由会员分享,可在线阅读,更多相关《实体属性的关联和分析.pdf(34页珍藏版)》请在专利查询网上搜索。

对一个或更多个数据处理器进行操作的方法和系统,其用于通过分析实体的属性将声誉分配给发送消息的实体,将所述属性与已知属性关联起来以确定共享属性的实体之间的关系,并将一个相关实体的声誉的一部分归于另一相关实体的声誉。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1