《加密网络隧道内的WEB业务的标识和分类的方法和系统.pdf》由会员分享,可在线阅读,更多相关《加密网络隧道内的WEB业务的标识和分类的方法和系统.pdf(14页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104102687A43申请公布日20141015CN104102687A21申请号201410146871422申请日2014041413/862,60120130415USG06F17/30200601H04L29/0620060171申请人国际商业机器公司地址美国纽约72发明人M克里斯托多雷斯库胡欣DL沙勒斯R赛勒M菲斯多克林王挺AM怀特74专利代理机构北京市中咨律师事务所11247代理人于静张亚非54发明名称加密网络隧道内的WEB业务的标识和分类的方法和系统57摘要本发明涉及一种加密网络隧道内的WEB业务的标识和分类的方法和系统。一种方法包括分析未加密数据分组的网络业。
2、务以便检测分组业务、时间和大小模式。将所检测的分组、时间和大小业务模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个。将所述语料库和所述模型中的所述至少一个存储在存储设备中。观察已加密数据分组的分组业务、时间和大小模式。将所述已加密数据分组的所观察的分组业务、时间和大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。30优先权数据51INTCL权利要求书2页说明书7页附图4页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书7页附图。
3、4页10申请公布号CN104102687ACN104102687A1/2页21一种方法,包括分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式;将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个;将所述训练语料库和所述模型中的所述至少一个存储在存储设备中;观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式;以及将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至。
4、少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。2根据权利要求1的方法,还包括改变所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式以便模拟已加密数据的对应特性。3根据权利要求1的方法,其中使用至少一个随机森林创建所述训练语料库和所述模型中的所述至少一个。4根据权利要求3的方法,其中使用针对所述至少一个随机森林的多标签分类方案创建所述训练语料库和所述模型中的所述至少一个,其中每个标签是特定资源路径的前缀或域名的后缀。5根据权利要求3的方法,其中所述至少一个随机森林包括多个随机森林,每个随机森林均具有分别与之关联的。
5、不同参数,所述方法还包括基于预定准则从所述多个随机森林中选择最佳随机森林,并且其中使用所述最佳随机森林提供用于所述已加密数据分组的所述预测主机名称和所述预测路径信息中的所述至少一个。6根据权利要求1的方法,其中除了所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式之外,所述观察步骤还观察所述已加密数据分组的其它网络业务特性,并且所述比较步骤还将所述已加密数据分组的所述其它网络业务特性与所述训练语料库和所述模型中的所述至少一个相比较,以便针对用于所述已加密数据分组的所述预测网络主机和所述预测路径信息中的所述至少一个,对所述已加密数据分组进行分类。7根据权利要求1。
6、的方法,其中基于包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标签的排序,确定所述预测网络主机和所述预测路径信息中的所述至少一个。8根据权利要求1的方法,其中基于实值权重到包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标签的映射,确定所述预测网络主机和所述预测路径信息中的所述至少一个。9根据权利要求1的方法,其中所述关联步骤考虑所述未加密数据分组的子域和资源路径。10根据权利要求1的方法,其中在没有与所述已加密数据分组对应的加密密钥的任何知识的情况下执行所述方法。权利要求书CN104102687A2/2页311根据权利要求1的方法。
7、,其中在包括计算机可读程序的计算机可读介质上实现所述方法,其中所述计算机可读程序在计算机上执行时,导致所述计算机执行权利要求1的步骤。12一种系统,包括特性提取器,其用于分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式;建模引擎,其用于将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个;以及存储器,其用于存储所述训练语料库和所述模型中的所述至少一个,其中所述特性提取器观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式,并且其。
8、中所述系统还包括预测引擎,其用于将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。13根据权利要求12的系统,其中改变所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式以便模拟已加密数据的对应特性。14根据权利要求12的系统,其中使用至少一个随机森林创建所述训练语料库和所述模型中的所述至少一个。15根据权利要求14的系统,其中使用针对所述至少一个随机森林的多标签分类方案创建所述训练语料库和所述模型中。
9、的所述至少一个,其中每个标签是特定资源路径的前缀或域名的后缀。16根据权利要求14的系统,其中所述至少一个随机森林包括多个随机森林,每个随机森林均具有分别与之关联的不同参数,所述方法还包括基于预定准则从所述多个随机森林中选择最佳随机森林,并且其中使用所述最佳随机森林提供用于所述已加密数据分组的所述预测主机名称和所述预测路径信息中的所述至少一个。17根据权利要求16的系统,其中所述预定准则包括选择所述多个随机森林中针对给定标签具有最多投票数量的任何一个随机森林作为所述最佳随机森林。18根据权利要求12的系统,其中基于包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标。
10、签的排序,确定所述预测网络主机和所述预测路径信息中的所述至少一个。19根据权利要求12的系统,其中基于实值权重到包括在所述已加密数据分组中的多个输入超文本传输协议请求和响应对中的每个对的可能标签的映射,确定所述预测网络主机和所述预测路径信息中的所述至少一个。20根据权利要求12的系统,其中所述建模引擎在执行所述关联时,考虑所述未加密数据分组的子域和资源路径。权利要求书CN104102687A1/7页4加密网络隧道内的WEB业务的标识和分类的方法和系统技术领域0001本发明一般地涉及加密,具体地说,涉及加密网络隧道内部的网络业务的标识和分类。背景技术0002经由加密连接作为隧道的WEB业务对于标。
11、准网络入侵和分析工具而言“不可见”。因此,需要一种方法和系统对加密隧道内部的WEB业务进行标识和分类。发明内容0003根据本原理的一个方面,提供一种方法。所述方法包括分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式。所述方法还包括将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型中的至少一个。所述方法还包括将所述训练语料库和所述模型中的所述至少一个存储在存储设备中。所述方法还包括观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式。所述方。
12、法此外包括将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。0004根据本原理的另一个方面,提供一种系统。所述系统包括特性提取器,其用于分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式。所述系统还包括建模引擎,其用于将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与所述未加密数据分组的至少一分组目的地和分组源相关联,以便创建训练语料库和从所述训练语料库构建的模型。
13、中的至少一个。所述系统还包括存储器,其用于存储所述训练语料库和所述模型中的所述至少一个。所述特性提取器观察已加密数据分组的分组业务模式、分组时间模式和分组大小模式。所述系统另外包括预测引擎,其用于将所述已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与所述训练语料库和所述模型中的至少一个相比较,以便针对用于所述已加密数据分组的预测网络主机和预测路径信息中的至少一个,对所述已加密数据分组进行分类。0005从以下将结合附图阅读的对本发明的示例性实施例的详细说明,本发明的这些和其它特性和优点将变得显而易见。附图说明0006本公开将参考以下附图,在以下对优选实施例的详细。
14、说明中提供详细信息,这些附图是说明书CN104102687A2/7页50007图1示出根据本发明的一个实施例的可以应用本发明的示例性处理系统100;0008图2示出根据本发明的一个实施例的用于对加密网络隧道内部的WEB业务进行标识和分类的示例性系统200;0009图3示出根据本发明的一个实施例的用于对加密网络隧道内部的WEB业务进行标识和分类的示例性方法300;以及0010图4示出根据本发明的一个实施例的用于建立网络业务模型以便对加密网络隧道内部的WEB业务进行标识和分类的示例性方法400。具体实施方式0011本发明涉及加密网络隧道内部的WEB业务的标识和分类。0012在一个实施例中,本发明标。
15、识经由加密连接访问的网站名称。0013在一个实施例中,本发明使用来自被动观察的网络业务的数据,标识从相同网站发送和接收的分组。本发明不需要加密连接中使用的加密密钥的知识。能够被动观察业务可实现集中过滤加密WEB业务。在没有本发明的情况下,需要安装单独的过滤器以便在加密WEB业务之前检查和过滤客户端设备上的WEB业务,这是破坏用户体验的不可伸缩的解决方案。0014所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即完全的硬件实施方式或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本发明。
16、的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。0015可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CDROM)、光存储器件、磁。
17、存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。0016计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。0017计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括。
18、但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。0018可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如JAVA、SMALLTALK、C等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计说明书CN104102687A3/7页6语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广。
19、域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。0019下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。0020也可以把这些计算机程序指令存储在计算机可。
20、读介质中,这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(ARTICLEOFMANUFACTURE)。0021也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。0022附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序。
21、产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。0023本说明书中对本发明的“一个实施。
22、例”或“一实施例”以及它们的其它变型的引用指结合该实施例描述的特定特性、结构、特征等被包括在本发明的至少一个实施例中。因此,本说明书的各种位置中出现的短语“在一个实施例中”或“在一实施例中”以及任何其它变型不一定都指同一实施例。0024应该理解,使用以下“/”、“和/或”以及“至少一个”(例如,在“A/B”、“A和/或B”以及“A和B中的至少一个”的情况下)中的任意一个都旨在包含仅选择第一列出的选项(A),或者仅选择第二列出的选项(B),或者选择两个选项(A和B)。作为进一步实例,在“A、B和/或C”以及“A、B和C中的至少一个”的情况下,此类措词旨在包含仅选择第一列出的选项(A),或者仅选择。
23、第二列出的选项(B),或者仅选择第三列出的选项(C),或者仅选择第一和第二列出的选项(A和B),或者仅选择第一和第三列出的选项(A和C),或者仅选择第二和第三列出的选项(B和C),或者选择所有三个选项(A和B和C)。这可以扩展到列出的说明书CN104102687A4/7页7多个项目,如所属技术领域和相关技术领域的普通技术人员很容易地显而易见的那样。0025图1示出根据本发明的一个实施例的可以应用本发明的示例性处理系统100。处理系统100包括至少一个处理器(CPU)104,其在操作上经由系统总线102连接到其它组件。高速缓存106、只读存储器(ROM)108、随机存取存储器(RAM)110、输。
24、入/输出(I/O)适配器120、声音适配器130、网络适配器140、用户接口适配器150和显示适配器160在操作上连接到系统总线102。0026第一存储设备122和第二存储设备124在操作上通过I/O适配器120连接到系统总线102。存储设备122和124可以是磁盘存储设备(例如,磁盘或光盘存储设备)、固态磁设备等中的任何一个。存储设备122和124可以是相同类型的存储设备或者不同类型的存储设备。0027扬声器132在操作上通过声音适配器130连接到系统总线102。0028收发器142在操作上通过网络适配器140连接到系统总线102。0029第一用户输入设备152、第二用户输入设备154和第三。
25、用户输入设备156在操作上通过用户接口适配器150连接到系统总线102。用户输入设备152、154和156可以是以下任何一个键盘、鼠标、小键盘、图像捕获设备、运动传感设备、麦克风、结合至少两个上述设备的功能的设备等。当然,也可以使用其它类型的输入设备,同时保持本发明的精神。用户输入设备152和154可以是相同类型的用户输入设备或者不同类型的用户输入设备。用户输入设备152和154用于向系统100输入信息以及从系统100输出信息。0030显示设备162在操作上通过显示适配器160连接到系统总线102。当然,处理系统100还可以包括其它元件(未示出),如所属技术领域的技术人员很容易构想的,并且可以。
26、省略某些元件。例如,可以在处理系统100中包括各种其它输入设备和/或输出设备,具体取决于处理系统100的特定实现,如所属技术领域的普通技术人员很容易理解的。例如,可以使用各种类型的无线和/或有线输入和/或输出设备。此外,也可以使用采用各种配置的其它处理器、控制器、存储器等,如所属技术领域的普通技术人员很容易理解的。给予了在此提供的本发明的教导后,所属技术领域的普通技术人员很容易构想处理系统100的这些和其它变型。0031此外,应该理解,下面针对图2描述的系统200是用于实现本发明的相应实施例的系统。可以在系统200的一个或多个元件中实现处理系统100的部分或全部。0032此外,应该理解,处理系。
27、统100可以执行在此描述的方法的至少一部分,例如包括图3的方法300的至少一部分和/或图4的方法400的至少一部分。同样,可以使用系统200的部分或全部执行图3的方法300的至少一部分和/或图4的方法400的至少一部分。0033图2示出根据本发明的一个实施例的用于对加密网络隧道内部的WEB业务进行标识和分类的示例性系统200。系统200包括网络分流器(TAP)212、网络数据存储系统214、特性提取器216、建模引擎218、预测引擎252和分析引擎254。0034在一个实施例中,系统200可以被视为包括训练阶段210和预测阶段250。在此实施例中,训练阶段210涉及和/或另外包括网络分流器21。
28、2和/或网络数据存储系统214、特性提取器216和建模引擎218。即,训练阶段可以包括网络分流器212和网络数据存储系统214之一或两者,具体取决于使用预先存储的网络业务还是实时网络业务构建训练语料库。如果使用实时网络业务构建语料库,则特性提取器216还可以提取在此描述的标签。说明书CN104102687A5/7页8在此实施例中,预测阶段250包括网络分流器212、特性提取器216、预测引擎252和分析引擎254。网络分流器212连接到网络以便允许监视实时网络业务。网络数据存储系统214存储网络业务。网络数据存储系统214也可以存储所存储的网络业务的主机标签和路径标签。网络存储系统214可以为。
29、建模引擎218提供所存储的网络业务的标签集合。原则上,网络数据存储系统214可以存储原始网络数据(在这种情况下,应用特性提取器216以便提取相关特性和标签)和/或可以存储网络数据“汇总”(在这种情况下,先前已提取主机/路径标签甚至相关特性,因此可以直接传递到建模引擎218,从而绕过特性提取器216)。在后一种情况下,也可以将预测引擎252直接应用于所存储的网络数据。0035特性提取器216从所存储的网络业务中提取特性(例如,分组大小、时间和方向)以便为此提供特性集合。特性提取器216也可以从监视的(即,实时)网络业务中提取加密后特性(例如,分组大小、时间和方向)以便为此提供特性集合。特性提取器。
30、216也可以例如在使用实时网络业务构建训练语料库时提取标签;在这种情况下,网络数据存储系统214不必提供标签,因为将由特性提取器216提供标签。建模引擎218训练模型以便基于特性实例的标签集合对特性实例进行分类。在一个实施例中,所述模型是随机森林模型。0036预测引擎252将模型应用于新数据(例如,实时已加密的网络业务)和/或已存储的数据(例如,已存储的网络业务)以便为此输出预测。即,针对HTTP请求/响应对的每个特性集合(例如,加密后特性和/或未加密特性),预测引擎252应用在训练阶段中训练的模型以便提供预测标签集合。0037分析引擎254分析预测标签集合,以便为每个HTTP请求/响应对提供。
31、预测主机名称和预测路径信息。0038图3示出根据本发明的一个实施例的用于对加密网络隧道内部的WEB业务进行标识和分类的示例性方法300。在步骤310,在一时间段内监视未加密数据分组的网络业务。在步骤320,分析未加密数据分组的网络业务以便检测其中的分组业务模式、分组时间模式和分组大小模式。0039在步骤330,将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与未加密数据分组的至少一分组目的地和分组源相关联,以便创建至少一个训练语料库。在一个实施例中,也可以将所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式与分组内容相关联。0040在步骤340,观察已加密数据分。
32、组的分组业务模式、分组时间模式和分组大小模式。0041在步骤350,将已加密数据分组的所观察的分组业务模式、所观察的分组时间模式和所观察的分组大小模式与训练语料库相比较,以便提供用于已加密数据分组的预测网络主机和预测路径信息中的至少一个。尽管针对实时网络业务描述步骤350,但应该理解,也可以(或取代)针对已存储的网络业务(例如,所检测的分组业务模式、所检测的分组时间模式和所检测的分组大小模式)进行预测。0042图4示出根据本发明的一个实施例的用于建立网络业务模型以便对已加密网络隧道内部的WEB业务进行标识和分类的示例性方法400。0043在步骤410,接收特性集合和标签集合对。0044在步骤4。
33、20,学习/更新分类模型。说明书CN104102687A6/7页90045在步骤430,选择最佳模型。例如,可以基于特定预定准则选择最佳模型。0046在步骤440,将模型导出到预测阶段。0047网络安全和取证分析的一个弱点是已加密的流。因为从网络监视器的观点看,通常隐藏包括在这些流中的数据,所以无法将许多标准网络安全、分析和取证技术应用于已加密业务。但是,因为网络通信必然是复杂系统,所以通常以各种边信道的形式(具体地说,通过个体分组的时间、大小和方向)泄露有关已加密连接的信息。我们建议了从这些边信道获得相关信息以进行安全分析的技术。取决于应用加密的网络层,也可以获得连接端点、路由、大小和持续时。
34、间信息。但是,在一个实施例中,建议了仅从在最低级别获得的特性(例如,分组大小、时间和方向)来获得相关信息的技术,以便提供可能的最广泛适用性。应该理解,本发明并不限于上述特定信息类型,因此也可以使用其它信息类型,同时保持本发明的精神。0048建议了数据驱动方法以便获得有关通过加密通道传输的HTTP业务的相关信息。具体地说,该信息包括HTTP连接定向到的网络主机(例如,“WWWIBMCOM”)以及请求的特定资源的路径(例如,“/BLUEPAGES/EMPLOYEEPHP”)。为了针对已加密连接获得该信息,首先从纯文本HTTP连接(训练语料库)提取相关信息和相关特性(分组大小、时间和方向)。然后构建。
35、模型,所述模型基于所提取的特性(可以改变它们以便模拟已加密连接的特性,例如,通过人为填充分组大小),从个体HTTP请求/响应对预测主机和路径信息。最后,使用模型预测用于先前看不见的已加密连接的主机和路径信息。尽管针对已加密数据进行描述,但应该理解,本原理也很容易适用于未加密数据,因此可以预测用于先前看不见的未加密连接的主机和路径信息,同时保持本原理的精神。因此,尽管将模型描述为使用已加密数据来构建/训练,但也可以使用未加密数据构建/训练模型。给予了在此提供的本原理的教导后,所属技术领域的普通技术人员很容易构想本原理的这些和其它变型,同时保持本原理的精神。0049我们的方法是通用的,因为它不依赖。
36、于上述特性的特定子集,也不依赖于特定建模技术。但是,出于示例和清晰的目的,在一个实施例中,建议使用以下特性0050在每个方向,前N个(N5)分组的大小;0051在每个方向和两个方向,总的分组大小;以及0052在每个方向和两个方向,总的分组数量。0053但是,应该理解,本发明的各实施例并不仅限于上述特性,因此也可以使用其它特性,同时保持本发明的精神。0054对于建模部分,本发明的一个实施例包括使用随机森林这一标准机器学习技术。具体地说,建议使用多标签分类方案,其中每个标签是特定资源路径的前缀或完整域名(具有或没有顶级域(TLD)的后缀。可以针对各种多标签分类度量通过交叉验证或重新取样来优化模型,。
37、这些分类度量包括每实例精确度、召回率、准确性和/或F得分,以及每标签微平均或宏平均精确度、召回率、准确性和/或F得分。因此,在一个实施例中,每个示例实例可以具有多个标签。此外,在一个实施例中,可以考虑通过包括子域和资源路径生成的标签。0055我们的方法包括两个通用阶段。第一阶段是训练阶段,其中收集标记数据并且使用该数据将HTTP请求/响应对进行建模。在一个实施例中,特性提取器首先从网络业务(实时或先前存储的)中提取加密后特性(分组大小、时间和方向)和标签信息(主机和资源路说明书CN104102687A7/7页10径)。然后将这些标记的实例(即,特性集合和标签集合对)发送到建模引擎。0056特性。
38、提取器或建模引擎可以基于一组分隔字符(例如,用于主机名称的“”字符,或者用于资源路径的“/”、“”和“”字符),将路径和/或主机名称拆分成组件标签,并且可以将结果标签集合限于特定数量的主机名称和/或路径标签。0057建模引擎训练模型以便基于实例的标签集合对实例进行分类。对于随机森林模型,这包括学习多个决策树。对于每个树,学习者选择用于学习的随机训练数据子集和随机训练实例子集。这些树统称为随机森林。可以使用不同参数学习多个随机森林(参数包括决策树的数量以及每个树使用的特性数量)。然后针对预测阶段使用“最佳”随机森林,其中通过多标签分类度量(如上所述)确定“最佳”。0058预测阶段包括将在建模阶段。
39、生成的模型应用于新数据,并且将该应用的结果传递到分析引擎。预测引擎针对个体HTTP请求/响应对,接受特性(分组大小、时间和方向)形式的输入。对于每个特性集合,预测引擎应用在训练阶段训练的模型以便预测标签集合,将该标签集合传递到分析引擎。对于随机森林模型,这包括将每个个体决策树应用于每个特性集合,并且对输出每个标签集合的树的数量进行计数。提供树输出次数最多的集合作为输出标签。代替主标签或除了主标签之外,预测引擎可以传递可能标签的排序和/或从实值权重到可能标签的映射(例如,概率估计或原始投票计数)。0059随机森林分类的输出通常是具有最高数量的“投票”的标签,其中组成森林的每个个体树为单个潜在标签。
40、提供单个投票。因此,随机森林也可以输出潜在标签列表,这些标签按照针对每个标签接收的投票数量进行排序。可以规范化这些投票计数,以便提供给定标签的似然估计(概率)。0060备选地,个体决策树可以指定权重,所述权重指示对于特定实例,树在标签(或整个标签集合)中的置信度。可以针对森林中的每个树(以多种不同方式)聚合这些权重,以便如果给出实例,则为每个潜在标签提供全局置信度值和/或似然估计。0061应该理解,本原理并不限于使用随机森林,因此根据本原理,也可以使用其它机器学习技术,同时保持本原理的精神。即,应该理解,尽管针对使用随机森林(多个)描述本原理的一个或多个实施例,但可以使用这种和/或其它机器学习。
41、技术以便训练模型并且从模型获得预测,同时保持本原理的精神。0062已描述了一种系统和方法的优选实施例(它们旨在是示例性的而非限制性的),应该注意,所属技术领域的技术人员可以根据上述教导做出修改和变型。因此,应该理解,可以在公开的特定实施例中进行更改,这些更改在所附权利要求中概述的本发明的范围内。以专利法要求的细节和特殊性如此描述本发明的各个方面之后,在所附权利要求中给出证书专利要求保护和希望保护的事物。说明书CN104102687A101/4页11图1说明书附图CN104102687A112/4页12图2说明书附图CN104102687A123/4页13图3说明书附图CN104102687A134/4页14图4说明书附图CN104102687A14。