恶意流量识别方法及相关设备.pdf

资源描述

《恶意流量识别方法及相关设备.pdf》由会员分享，可在线阅读，更多相关《恶意流量识别方法及相关设备.pdf（17页珍藏版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310432132.0(22)申请日 2023.04.21(71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号(72)发明人高源辰(74)专利代理机构北京风雅颂专利代理有限公司 11403专利代理师徐雅琴(51)Int.Cl.H04L 9/40(2022.01)H04L 43/04(2022.01)(54)发明名称恶意流量识别方法及相关设备(57)摘要本申请提供一种恶意流量识别方法及相关设备。所述方法包括：基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集。

2、算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。本申请实施例基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习偏差，有效提升了模型的识别性能。权利要求书2页说明书12页附图2页CN 116155630 A2023.05.23CN 116155630 A1.一。

3、种恶意流量识别方法，其特征在于，包括：基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。2.根据权利要求1所述的方法，其特征在于，所述方法，还包括：确定所述第一训练模型、第二训练模型和所述第三训练模型的权重；基于所述权重，将所述第一训练模型、第二训练模型和所述第三。

4、训练模型合并作为第二恶意流量识别模型；基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，得到第二最终识别结果。3.根据权利要求2所述的方法，其特征在于，所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重，包括：计算所述第一训练模型的受试者工作特征曲线下面积，得到第一面积；计算所述第二训练模型的受试者工作特征曲线下面积，得到第二面积；计算所述第三训练模型的受试者工作特征曲线下面积，得到第三面积；基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、第二训练模型和第三训练模型的权重。4.根据权利要求3所述的方法，其特征在于，通过下述方法计算所述第一训练模型的受试者。

5、工作特征曲线下面积：基于所述第一训练模型的混淆矩阵计算得到所述第一训练模型的真正例率和假正例率；基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积。5.根据权利要求2所述的方法，其特征在于，所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，包括：利用所述第一训练模型对所述待识别的恶意流量进行识别，得到第一识别结果；利用所述第二训练模型对所述待识别的恶意流量进行识别，得到第二识别结果；利用所述第三训练模型对所述待识别的恶意流量进行识别，得到第三识别结果；基于所述权重对所述第一识别结果、第二识别结果和所述第三识别结果进行加权求和，计算得到所述最终的识别结果。。

6、6.根据权利要求1所述的方法，其特征在于，通过下述方法获取所述训练用待识别数据集：获取未处理的待识别数据集；将所述未处理的待识别数据集中的符号特征数据转换为数字数据，且将所述未处理的权利要求书1/2 页2CN 116155630 A2待识别数据集中的数值数据进行归一化处理，得到所述训练用待识别数据集。7.根据权利要求1所述的方法，其特征在于，所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型，包括：基于混淆矩阵，计算所述第一训练模型、第二训练模型和第三训练模型的准确率、精确率和召回率；计算所述第一训练模型、第二训练模型和第三训练模型的波动方。

7、差；从所述第一训练模型、第二训练模型和第三训练模型中选取所述准确率、精确率和召回率至少一项最高的，和/或，所述波动方差最小的一个模型，作为所述第一恶意流量识别模型。8.一种恶意流量识别装置，其特征在于，包括：选择模块，被配置为基于获取的训练用待识别数据集，选择得到基模型；第一训练模块，被配置为利用引导聚集算法对所述基模型进行训练，得到第一训练模型；第二训练模块，被配置为利用提升算法对所述基模型进行训练，得到第二训练模型；第三训练模块，被配置为利用堆栈算法对所述基模型进行训练，得到第三训练模型；选取模块，被配置为基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一。

8、恶意流量识别模型；识别模块，被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。权利要求书2/2 页3CN 116155630 A3恶意流量识别方法及相关设备技术领域0001本申请涉及网络流量安全分析技术领域，尤其涉及一种恶意流量识别方法及相关设备。背景技。

9、术0002为了应对诸如拒绝服务、恶意代码等不同类型的网络攻击，加解密机制、终端防护、身份认证、防火墙、网络安全态势感知等多种网络安全技术应运而生。0003现有恶意流量检测研究可划分为基于签名的方法和基于机器学习的方法。基于签名的方法通过对恶意流量特定行为的规则描述，通过规则匹配实现恶意流量的检测。但该类方法大多需要手动更新规则，难以适应不断变化的攻防场景。基于机器学习的方法通常使用特定的机器学习模型对流量进行训练，然后使用拟合后的模型对流量进行攻击检测，但尽管机器学习方法可有效检测恶意流量，单个模型学习到的行为模式通常存在较大的偏离，导致检测结果产生较多的误报或漏报。发明内容0004有鉴于此，。

10、本申请的目的在于提出一种恶意流量识别方法及相关设备。0005基于上述目的，本申请提供了一种恶意流量识别方法，包括：基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。0006在一种可能的实现方式中，所述方法，还包括：确定所述第一训练模型、第二训练模型和所述第三训练模。

11、型的权重；基于所述权重，将所述第一训练模型、第二训练模型和所述第三训练模型合并作为第二恶意流量识别模型；基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，得到第二最终识别结果。0007在一种可能的实现方式中，所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重，包括：计算所述第一训练模型的受试者工作特征曲线下面积，得到第一面积；计算所述第二训练模型的受试者工作特征曲线下面积，得到第二面积；计算所述第三训练模型的受试者工作特征曲线下面积，得到第三面积；说明书1/12 页4CN 116155630 A4基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、第二训练模。

12、型和第三训练模型的权重。0008在一种可能的实现方式中，通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积：基于所述第一训练模型的混淆矩阵计算得到所述第一训练模型的真正例率和假正例率；基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积。0009在一种可能的实现方式中，所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，包括：利用所述第一训练模型对所述待识别的恶意流量进行识别，得到第一识别结果；利用所述第二训练模型对所述待识别的恶意流量进行识别，得到第二识别结果；利用所述第三训练模型对所述待识别的恶意流量进行识别，得到第三识别结果；基于所述权重对所述。

13、第一识别结果、第二识别结果和所述第三识别结果进行加权求和，计算得到所述最终的识别结果。0010在一种可能的实现方式中，通过下述方法获取所述训练用待识别数据集：获取未处理的待识别数据集；将所述未处理的待识别数据集中的符号特征数据转换为数字数据，且将所述未处理的待识别数据集中的数值数据进行归一化处理，得到所述训练用待识别数据集。0011在一种可能的实现方式中，所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型，包括：基于混淆矩阵，计算所述第一训练模型、第二训练模型和第三训练模型的准确率、精确率和召回率；计算所述第一训练模型、第二训练模型和第三训。

14、练模型的波动方差；从所述第一训练模型、第二训练模型和第三训练模型中选取所述准确率、精确率和召回率至少一项最高的，和/或，所述波动方差最小的一个模型，作为所述第一恶意流量识别模型。0012基于同一发明构思，本申请实施例还提供了一种恶意流量识别装置，包括：选择模块，被配置为基于获取的训练用待识别数据集，选择得到基模型；第一训练模块，被配置为利用引导聚集算法对所述基模型进行训练，得到第一训练模型；第二训练模块，被配置为利用提升算法对所述基模型进行训练，得到第二训练模型；第三训练模块，被配置为利用堆栈算法对所述基模型进行训练，得到第三训练模型；选取模块，被配置为基于预设的评估算法从所述第一训练模型、第。

15、二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；识别模块，被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。说明书2/12 页5CN 116155630 A50013基于同一发明构思，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一项所述的恶意流量识别方法。0014基于同一发明构思，本申请实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述任一所述的恶意流量识别方法。0015从上面。

16、所述可以看出，本申请提供的恶意流量识别方法及相关设备，基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。通过基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习偏差，使其更加适用于不同类型恶意流量识别和性能评。

17、估的场景，有效提升了模型的识别性能。附图说明0016为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。0017图1为本申请实施例的恶意流量识别方法示意图；图2为本申请实施例的恶意流量识别装置示意图；图3为本申请实施例的电子设备结构示意图。具体实施方式0018为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。0019需要说明的是，除非另外定义，本申请实。

18、施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。0020如背景技术部分所述，现。

19、有恶意流量检测研究可划分为基于签名的方法和基于机器学习的方法。基于签名的方法通过对恶意流量特定行为的规则描述，通过规则匹配实现恶意流量的检测。但该类方法大多需要手动更新规则，难以适应不断变化的攻防场景。基于说明书3/12 页6CN 116155630 A6机器学习的方法通常使用特定的机器学习模型对流量进行训练，然后使用拟合后的模型对流量进行攻击检测，但尽管机器学习方法可有效检测恶意流量，单个模型学习到的行为模式通常存在较大的偏离，导致检测结果产生较多的误报或漏报。0021综合上述考虑，本申请实施例提出一种恶意流量识别方法，基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模。

20、型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。通过基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习偏差，使其更加适用于不同类型恶意流量识别和性能评估的场景，有效提升了模型的识别性能。0022以下，通过具体的实施例来详细说明本申请的技术方案。0023参考图1，本申请实施例的。

21、恶意流量识别方法，包括以下步骤：步骤S101，基于获取的训练用待识别数据集，选择得到基模型；步骤S102，利用引导聚集算法对所述基模型进行训练，得到第一训练模型；步骤S103，利用提升算法对所述基模型进行训练，得到第二训练模型；步骤S104，利用堆栈算法对所述基模型进行训练，得到第三训练模型；步骤S105，基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；步骤S106，基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。0024针对步骤S101，在一些实施例中，通过下述方法获取所述训练用待识别数据集：获取未处理的待识。

22、别数据集；将所述未处理的待识别数据集中的符号特征数据转换为数字数据，且将所述未处理的待识别数据集中的数值数据进行归一化处理，得到所述训练用待识别数据集。0025在一些实施例中，待识别数据集可以为流量数据包。流量数据包初始格式以pcap（Packet Capture，数据包捕获）文件为主，对预处理后的流量数据进行检测既能提升检测精度，又能减少运行时间。因此，本申请对数据处理与整形主要包括符号特征数值化和数据归一化两部分内容，既需要对符号数据进行转换，又需要将数值数据进行归一化。0026在一些实施例中，在流量检测数据集中均包含符号特征数据，恶意流量识别模型难以直接对符号数据进行处理，因此，在该步骤。

23、中可以使用onehot编码器将符号数据转换为数字数据。例如流量数据集中的protocol_type（协议类型）特征包含三种字符，分别是TCP（Transmission Control Protocol，传输控制协议），UDP（User Datagram Protocol，用户数据报协议）和ICMP（Internet Control Message Protocol，网络控制报文协议）。通过onehot编码，将这三个字符映射成3个二进制向量，映射结果分别是：1,0,0，0,1,0，0,0,1。按照这样的方式，通过onehot编码对所有符号特征进行映射。对于类别标签，将数据集中的正常流量数据标记为。

24、0，异常流量数据标记为1。0027数据归一化可以解决不同特征数据之间维度相差较大的问题，因此被广泛用于数说明书4/12 页7CN 116155630 A7据预处理步骤中。为了保证检测结果的可靠性，需要对两个数据集中的数值数据进行归一化处理，归一化是指将所有特征数据缩小到0,1范围内。采用了MinMax归一化方法来处理数据，其转换公式为：,其中代表某一种特征的属性值，代表这种特征属性的最大值，代表这种特征属性的最小值，代表对进行归一化处理后的结果。0028进一步的，可以基于获取的训练用待识别数据集，选择得到基模型。可以使用决策树算法（CART）作为基模型，针对不同的数据规模和场景，也可以选择。

25、不同的统计学习模型作为基模型如朴素贝叶斯、最近邻、神经网络等。0029进一步的，针对步骤S102，利用引导聚集算法（Bootstrap ggregating，Bagging）对所述基模型进行训练。0030具体的，Bagging方法是对一组模型进行差异化训练进而将其组合成一组拟合能力更强的集成方法。从总体的角度看，Bagging方法通过数据抽样创建不同的训练集，基于差异化的训练集对基模型进行训练，并对最终的结果进行投票平均或均值平均。0031Bagging方法的具体过程：首先明确输入为训练数据集D，即训练用待识别数据集，输出为分类器G，即训练好的模型，在t=1的时刻下，从训练数据集中抽取一个训练。

26、数据，作为新的训练数据集D，之后利用D 对模型进行训练，得到中间模型，在小于预设的时间阈值的情况下始终重复上述操作，直至当前时刻大于预设的时间阈值，得到最终的模型G，模型G是对中间模型进行投票平均或者是直接取平均值所得到的。0032Bagging方法具有如下特点。第一，Bagging方法的集成方式较为简单，但是在改进不稳定分类问题时较为有效。第二，Bagging方法可以使用不同的基模型。最开始的Bagging方法使用CART作为基模型，但是针对不同的数据规模和场景，也可以选择不同的统计学习模型作为基模型如朴素贝叶斯、最近邻、神经网络等。第三，Bagging方法可以并行训练。在基模型的训练过程中。

27、，各个基模型之间没有依赖关系，因此在完成多轮的数据采样后，可以对多个基模型进行并行训练。0033针对步骤S103，利用提升算法（Boosting）对所述基模型进行训练，得到第二训练模型。0034在一些实施例中，Boosting算法是对一组拟合能力较弱的统计学习模型进行组合形成一个拟合能力更强的统计学习模型16。从总体的角度来看，Boosting算法充分利用多个弱模型的学习能力，使用集成学习算法将多个“弱”基类模型融合为一个强模型。从学习方法的角度看，Boosting算法可以视为一种模型平均方法，而非模型输出的平均方法。在Boosting算法的整体协调下，每个模型都对某几种分散的数据规律具有良好。

28、的学习能力，因此，通过集成模型而非集成输出，Boosting算法可以获得更平衡的拟合能力。0035Boosting算法的具体过程：首先明确输入为训练数据集D，即训练用待识别数据集，输出为分类器G，即训练好的模型，首先对k进行初始化，令其得1，进一步的，使用训练数据集D中的第一代训练数据集对模型进行训练，且对该模型的权重进行初始化，进一步的，计算该模型的错误率，之后基于错误率计算每个模型的权重，利用该权重进行数据集的迭代，更新该数据集的权重，对该数据集进行归一化处理，之后重复上述步骤，直至k大于预设的阈值，或者达到其他的结束情形，得到最终的模型G。0036Boosting算法具有几个较为明显的特。

29、点。第一，Boosting算法不易发生过拟合。说明书5/12 页8CN 116155630 A8Boosting算法基于前一个基模型的结果对下一轮基模型的训练进行调整。通过调整错误分类模型的权重，下一轮基模型的训练会增加对这些错误分类数据的学习程度。因此，每一轮学到的基模型对于不同区域的数据具有不同的拟合能力，增强了基模型学习规律的多样性，避免了过拟合的情况。第二，Boosting算法需要较长的训练时间。由于Boosting算法是多轮迭代的过程，下一轮的迭代需要依赖于上一轮迭代中的训练结果，因此Boosting算法的训练过程是串行的。第三，Boosting算法可以从基模型选择、误差计算、终止条。

30、件等多个环节进行优化，针对各类场景设计更为高效的具体算法。0037进一步的，针对步骤S104，利用堆栈算法（stacking）对所述基模型进行训练，得到第三训练模型。0038具体的，Stacking算法通过对模型和数据的层次堆叠构成一组更强的学习器，同时获得更准确的预测效果。从总体的角度看，Stacking通过对模型和数据按照不同的层次进行组织，将上一层的输出作为下一层的输入，从而达到更准确的预测效果。相比于Bagging算法和Boosting算法对模型的并行组织，Stacking算法是通过对模型的串行组织进行集成，从而更准确地集成基模型。0039Stacking模型的具体实现过程中：第一，将。

31、训练集划分为两部分，分别是和。使用数据训练多个第一层次的模型，训练结束后用对数据和测试数据进行预测，得到元训练集和。第二，使用元训练集，组成训练集，对第二层的模型进行训练，最终将作为输入数据进行预测得到。最终作为最终的预测输出。0040Stacking算法具有如下特点。第一，Stacking算法可以用于组合不同类型的基模型。决策树、神经网络、朴素贝叶斯、逻辑回归等模型都可以作为Stacking方法的基模型。由于不同的基模型对于不同类型样本的拟合能力不同，引入多样的基模型可以增加基模型的信息熵，从而实现更优的分类效果。第二，Stacking算法可以通过多层次进行堆叠。上述算法给出了一个二层架构的。

32、Stacking算法，但是同时可以基于二层的输出再构建三层乃至更多层次的Stacking算法。第三，Stacking算法对于最终输出结果的解释能力不强。由于以串行多层次的方式对数据进行拟合，原始数据的信息在层次传递的过程中逐渐减弱，Stacking算法的最终输出结果是基于中间信息产生，因此无法基于原始数据对最终结果进行解释。0041进一步的，针对步骤S105，基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型。0042在一些实施例中，所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型，包括：。

33、基于混淆矩阵，计算所述第一训练模型、第二训练模型和第三训练模型的准确率、精确率和召回率；计算所述第一训练模型、第二训练模型和第三训练模型的波动方差；从所述第一训练模型、第二训练模型和第三训练模型中选取所述准确率、精确率和召回率至少一项最高的，和/或，所述波动方差最小的一个模型，作为所述第一恶意流量识别模型。说明书6/12 页9CN 116155630 A90043具体的，恶意流量检测可视为分类过程，常用的评价指标有准确率(ACC)、精确率(PR)、召回率(RC)和F1值等，F1值是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛，常常将F1score作为最终测评的方法。它是精确率和召回率的。

34、调和平均数，最大为1，最小为0。这些评价指标大多依赖于混淆矩阵。混淆矩阵是使用矩阵的形式将算法性能的效果进行可视化展现。表1展示了混淆矩阵四个参数的具体分布情况。0044表1 混淆矩阵其中，真阳性（1 Positive，TP）：正确分类为攻击类别的攻击样本数量。真阴性（1 Negative，TN）：正确分类为正常类别的正常样本数量。假阳性（0 Positive，FP）：错误分类为攻击类别的正常样本数量。假阴性（0 Negative，FN）：错误分类为正常类别的攻击样本数量。0045在一些实施例中，通过下式计算准确率：；其中，ACC表示准确率，TP表示真阳性，TN表示真阴性，FP表示假阳性，FN。

35、表示假阴性。0046在一些实施例中，通过下式计算精确率：；其中，PR表示精确率，TP表示真阳性，FP表示假阳性。0047在一些实施例中，通过下式计算召回率：；其中，RC表示召回率，TP表示真阳性，FN表示假阴性。0048在一些实施例中，通过下式计算F1值：；其中，F1表示F1值，PR表示精确率，RC表示召回率。0049此外，本申请还通过定量模型波动方差值的大小判定模型优劣，即模型方差越小，模型稳定性越好。本领域技术人员知晓具体如何计算波动方差值，故在此不做赘述。0050基于上述评估体系从第一训练模型、第二训练模型和第三训练模型中选取最优的模型作为第一恶意流量识别模型，这里对于最优的定义为，前述。

36、计算的准确率、精确率和召回率至少一项最高的，和/或，所述波动方差最小的。0051进一步的，在得到第一恶意流量识别模型后，利用该模型对恶意流量进行识别。0052在一些实施例中，所述方法，还包括：确定所述第一训练模型、第二训练模型和所述第三训练模型的权重；基于所述权重，将所述第一训练模型、第二训练模型和所述第三训练模型合并作说明书7/12 页10CN 116155630 A10为第二恶意流量识别模型；基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，得到第二最终识别结果。0053在一些实施例中，所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重，包括：计算所述第一训练模型的受试者。

37、工作特征曲线下面积，得到第一面积；计算所述第二训练模型的受试者工作特征曲线下面积，得到第二面积；计算所述第三训练模型的受试者工作特征曲线下面积，得到第三面积；基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、第二训练模型和第三训练模型的权重。0054在一些实施例中，通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积：基于所述第一训练模型的混淆矩阵计算得到所述第一训练模型的真正例率和假正例率；基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积。0055在一些实施例中，所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，包括：利用所。

38、述第一训练模型对所述待识别的恶意流量进行识别，得到第一识别结果；利用所述第二训练模型对所述待识别的恶意流量进行识别，得到第二识别结果；利用所述第三训练模型对所述待识别的恶意流量进行识别，得到第三识别结果；基于所述权重对所述第一识别结果、第二识别结果和所述第三识别结果进行加权求和，计算得到所述最终的识别结果。0056具体的，可以采用加权投票的形式将前述的第一训练模型、第二训练模型和第三训练模型融合在一起。0057基于加权投票的集成模型具有以下优势：提高准确性：通过整合多个基学习器的预测结果，集成模型能够汇集多种学习器的优势。相对于单个学习器，集成模型往往能获得更高的准确性，因为它们可以充分利用多。

39、个基学习器的不同视角和特征抽取能力。0058增强泛化能力：加权投票的集成模型能够降低过拟合的风险，因为它结合了多个基学习器的预测结果，使得模型在预测时对单个学习器的特异性过拟合现象具有较好的容忍度。0059降低方差：由于基学习器之间的预测结果存在差异，加权投票的集成模型可以平衡这些差异，从而降低整体模型的预测方差。这有助于提高模型的稳定性和鲁棒性。0060可自适应调整权重：加权投票的集成模型可以根据基学习器的性能为其分配权重，使得在预测时性能好的基学习器具有更高的影响力。这样的设计可以让模型自适应地调整各个基学习器在预测中的作用，从而进一步提高预测准确性。0061引入多样性：加权投票的集成模型。

40、可以容纳不同类型的基学习器，包括线性模型、树模型、神经网络等。这种多样性使得集成模型能够从多个角度捕捉数据的特征，提高模型说明书8/12 页11CN 116155630 A11的泛化能力。0062易于实现和调整：加权投票的集成模型的实现相对简单，可以在现有的机器学习框架中方便地实现。同时，根据实际问题和数据特点，可以灵活调整基学习器的类型、数量和权重，以获得最佳性能。0063总之，基于加权投票的集成模型可以整合多个基学习器的优点，提高预测准确性、增强泛化能力、降低方差，且具有较好的实现简便性和调整灵活性。这些优势使得加权投票的集成模型在许多实际应用场景中具有广泛的应用价值。0064具体的，在计。

41、算权重时是基于模型准确性评估这一参数进行计算的。0065模型准确性评估：AUC（Area Under the Curve）指的是ROC曲线下的面积，它用于衡量分类模型的性能。ROC曲线（Receiver Operating Characteristic curve）是一种用于评估二分类模型的工具，它通过将真正例率（1 Positive Rate，TPR）作为纵轴，假正例率（0 Positive Rate，FPR）作为横轴，绘制出不同阈值下的分类性能。AUC值越大，说明分类器的性能越好。以下是相关概念和公式的详细解释：真正例率（1 Positive Rate，TPR）：又称为灵敏度（Sensit。

42、ivity），表示正例被正确分类的比例。计算公式为：TPR =TP /(TP +FN)其中，TP（1 Positive）表示真正例，即实际为正例且被预测为正例的样本数量；FN（0 Negative）表示假反例，即实际为正例但被预测为反例的样本数量。0066假正例率（0 Positive Rate，FPR）：表示反例被错误分类为正例的比例。计算公式为：FPR =FP /(FP +TN)其中，FP（0 Positive）表示假正例，即实际为反例但被预测为正例的样本数量；TN（1 Negative）表示真反例，即实际为反例且被预测为反例的样本数量。0067绘制ROC曲线：根据不同阈值下的TPR和FP。

43、R值，绘制出ROC曲线。阈值从最低到最高，逐渐增加，对应的TPR和FPR值构成ROC曲线的各个点。理想情况下，ROC曲线越靠近左上角，分类性能越好。0068计算AUC值：AUC值是ROC曲线下的面积，可以通过梯形法则计算。首先，将ROC曲线分为若干个梯形，然后计算这些梯形的面积之和。具体计算公式为：AUC =(FPR(i)FPR(i1)*(TPR(i)+TPR(i1)/2其中，i表示阈值序号，从1到N，N为阈值个数。0069AUC值的范围是0到1，值越接近1，表示分类器性能越好；值越接近0.5，表示分类器性能越接近随机猜测。在实际应用中，AUC值可以作为衡量分类器在不同阈值下整体性能的一个指标。

44、。0070根据预测准确性确定权重：对三种模型的评价指标进行归一化处理，使其和为1，得到三种模型的权重。例如，如果Bagging、Boosting和Stacking的AUC分别为0.8、0.85和0.9，那么归一化后的权重分别为0.8/(0.8+0.85+0.9)、0.85/(0.8+0.85+0.9)和0.9/(0.8+0.85+0.9)。0071使用加权投票进行预测：对于一个新的测试样本，分别使用Bagging、Boosting和Stacking三种模型进行预说明书9/12 页12CN 116155630 A12测，得到三个预测结果。然后根据前述步骤中计算得到的权重，对这三个预测结果进行加权。

45、求和，得到最终的预测结果。0072恶意流量检测具有非入侵式、表现稳定、数据捕获完整等优点，是网络安全防护过程中的一个重要环节。但是随着攻防博弈过程的螺旋升级，攻击者会隐藏明显的行为特征绕过检测，而防守者会从新的角度或新的方法探索恶意流量的行为模式。其中，对流量进行加密和混淆是攻击者常用的一个方法，而模型集成可以弥补单个机器学习模型存在学习偏差的问题，并且模型集成方法可以较好的解决攻击数据不平衡、攻击数据量较少等问题，因此，研究安全数据的模型集成方法可以视为未来研究的一大方向。此外，当前的模型集成方法主要对传统机器学习模型进行集成，而较少考虑到对深度学习模型的集成，因此，探索对深度学习模型的集成。

46、方法是未来研究的另一个可行方向。0073通过上述实施例可以看出，本申请实施例所述的恶意流量识别方法，基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。本申请基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习。

47、偏差，有效提升了模型的识别性能。0074需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。0075需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现。

48、期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。0076基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种恶意流量识别装置。0077参考图2，所述恶意流量识别装置，包括：选择模块21，被配置为基于获取的训练用待识别数据集，选择得到基模型；第一训练模块22，被配置为利用引导聚集算法对所述基模型进行训练，得到第一训练模型；第二训练模块23，被配置为利用提升算法对所述基模型进行训练，得到第二训练模型；第三训练模块24，被配置为利用堆栈算法对所述基模型进行训练，得到第三训练模型；选取模块25，被配置为基于预设的评估算法从所述第一训练模型、第二训练模型和第三。

49、训练模型中进行选取，得到第一恶意流量识别模型；说明书10/12 页13CN 116155630 A13识别模块26，被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。0078为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。0079上述实施例的装置用于实现前述任一实施例中相应的恶意流量识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。0080基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行。

50、的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的恶意流量识别方法。0081图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。0082处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，A。

展开阅读全文