《网络数据预处理方法、装置、设备及可读存储介质.pdf》由会员分享,可在线阅读,更多相关《网络数据预处理方法、装置、设备及可读存储介质.pdf(22页珍藏版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910662548.5 (22)申请日 2019.07.22 (71)申请人 平安科技 (深圳) 有限公司 地址 518033 广东省深圳市福田区福田街 道福安社区益田路5033号平安金融中 心23楼 (72)发明人 林明锋 (74)专利代理机构 北京市京大律师事务所 11321 代理人 刘挽澜 (51)Int.Cl. H04L 12/26(2006.01) G06K 9/62(2006.01) (54)发明名称 网络数据预处理方法、 装置、 设备及可读存 储介质 (57)。
2、摘要 本发明涉及人工智能技术领域, 公开了一种 网络数据预处理方法, 包括以下步骤: 使用第一 样本数据训练第一支持向量机模型, 得到第二支 持向量机模型; 通过所述第二支持向量机模型对 第二样本数据进行分类, 得到第一初始异常网络 数据和第一初始正常网络数据; 判断分类正确率 是否小于预设阈值; 若是, 则采用反向传播算法 调整所述第二支持向量机模型中各个初始支持 向量机模型的当前权重, 直至所述分类正确率大 于或等于所述预设阈值; 通过预置多层第三支持 向量机模型对所述初始异常网络数据进行分类, 得到干扰数据与非干扰数据。 本发明还公开了一 种网络数据预处理装置、 设备及计算机可读存储 介。
3、质。 本发明可从网络数据中有效分类出干扰数 据。 权利要求书3页 说明书14页 附图4页 CN 110391955 A 2019.10.29 CN 110391955 A 1.一种网络数据预处理方法, 其特征在于, 所述网络数据预处理方法包括以下步骤: 将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内, 得到第一支持向量机模型; 使用第一样本数据训练所述第一支持向量机模型, 得到第二支持向量机模型; 通过所述第二支持向量机模型对第二样本数据进行分类, 得到第一初始异常网络数据 和第一初始正常网络数据; 根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常。
4、网络数 据的第一分类正确率; 判断所述第一分类正确率是否小于第一预设阈值; 若是, 则采用反向传播算法调整所述第二支持向量机模型中各个初始支持向量机模型 的当前权重, 直至所述第一分类正确率大于或等于所述第一预设阈值; 通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类, 得到第一非干 扰类异常网络数据和第一干扰类异常网络数据, 其中, 所述多层第三支持向量机模型中各 层的模型数为2K-1, K为所述预置多层第三支持向量机模型的第K层; 判断所述第一干扰类异常网络数据的所属类型是否为数据耦合类型; 若所述第一干扰类异常网络数据的所属类型为数据耦合类型, 则对所述第一干扰类异 常网络数。
5、据进行解耦处理, 得到解耦数据, 并通过所述预置多层第三支持向量机模型对所 述解耦数据进行分类, 得到第二非干扰类异常网络数据和第二干扰类异常网络数据。 2.如权利要求1所述的网络数据预处理方法, 其特征在于, 在所述将至少三个初始支持 向量机模型以串联或/和并联的方式部署在分布式计算框架内, 得到第一支持向量机模型 的步骤之后, 还包括: 基于初始支持向量机模型的初始参数, 确定所述初始支持向量机模型的训练次序, 所 述初始参数包括惩罚项系数; 计算所述第一训练样本中的异常网络数据数量和非异常网络数据数量的比值, 基于所 述比值确定所述初始支持向量机模型的初始权重。 3.如权利要求1所述的网。
6、络数据预处理方法, 其特征在于, 所述通过所述第二支持向量 机模型对第二样本数据进行分类, 得到第一初始异常网络数据和第一初始正常网络数据的 步骤包括: 根据预设规则调整所述第二支持向量机模型的系数, 得到系数调整后的第二支持向量 机模型; 通过所述系数调整后的第二支持向量机模型对第二样本数据进行分类, 得到第一初始 异常网络数据和第一初始正常网络数据。 4.如权利要求3所述的网络数据预处理方法, 其特征在于, 所述根据预设规则调整所述 第二支持向量机模型的系数, 得到系数调整后的第二支持向量机模型的步骤包括: 通过所述第二支持向量机模型对第二样本数据进行分类, 得到第二初始异常网络数据 和第。
7、二初始正常网络数据; 根据预置异常网络数据, 计算所述第二支持向量机模型分类出的所述第二初始异常网 络数据的第二分类正确率, 并判断所述第二正确率是否大于第二预置阈值; 若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率大于 权利要求书 1/3 页 2 CN 110391955 A 2 第二预设阈值, 则调整所述第二支持向量机模型的松弛因子; 若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率小于 或等于第二预设阈值, 则根据预置正常网络数据, 计算所述第二支持向量机模型分类出的 所述第二初始正常网络数据的第三分类正确率; 判断所述第二支持向量机模型分类出的。
8、所述第二初始正常网络数据的第三分类正确 率是否小于第三预设阈值; 若是, 则调整所述第二支持向量机模型惩罚项系数的大小, 直至所述第二支持向量机 模型分类出的所述正常网络数据的分类正确率大于或等于第三预设阈值, 得到系数调整后 的第二支持向量机模型。 5.如权利要求1所述的网络数据预处理方法, 其特征在于, 在所述通过预置多层第三支 持向量机模型对所述初始异常网络数据进行分类, 得到第一非干扰类异常网络数据和第一 干扰类异常网络数据的步骤之前, 还包括以下步骤: 利用第三训练样本对多层第三支持向量机模型中各层初始第三支持向量机模型依次 进行初始训练, 得到初始第一非干扰类异常网络数据和初始第一。
9、干扰类异常网络数据, 其 中, 在所述多层第三支持向量机模型中, 上一层初始多层第三支持向量机模型输出的上一 初始分类结果为下一层初始多层第三支持向量机模型的输入; 根据预置初始第一干扰类异常网络数据, 计算所述初始第一干扰类异常网络数据的第 四分类正确率; 判断所述第四分类正确率是否大于第四预设阈值; 若是, 则得到训练完成的多层第三支持向量机模型, 若否, 则利用所述第三训练样本继 续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型, 直至所述 第四分类正确率大于第四预设阈值。 6.一种网络数据预处理装置, 其特征在于, 所述网络数据预处理装置包括: 部署模块, 用于将至。
10、少三个初始支持向量机模型以串联或/和并联的方式部署在分布 式计算框架内, 得到第一支持向量机模型; 第一训练模块, 用于使用第一样本数据训练所述第一支持向量机模型, 得到第二支持 向量机模型; 第一分类模块, 用于通过所述第二支持向量机模型对第二样本数据进行分类, 得到第 一初始异常网络数据和第一初始正常网络数据; 第一计算模块, 用于根据预置异常网络数据,计算所述第二支持向量机模型分类出的 所述初始异常网络数据的第一分类正确率; 第一判断模块, 用于判断所述第一分类正确率是否小于第一预设阈值; 调整模块, 用于若所述第一分类正确率小于第一预设阈值, 则采用反向传播算法调整 第二支持向量机模型。
11、中各个初始支持向量机模型的当前权重, 直至所述第一分类正确率大 于或等于所述第一预设阈值; 第二分类模块, 用于通过预置多层第三支持向量机模型对所述初始异常网络数据进行 分类, 得到第一非干扰类异常网络数据和第一干扰类异常网络数据, 其中, 所述多层第三支 持向量机模型中各层的模型数为2K-1, K为所述预置多层第三支持向量机模型的第K层; 第二判断模块, 用于判断所述第一干扰类异常网络数据的所属类型是否为数据耦合类 权利要求书 2/3 页 3 CN 110391955 A 3 型; 第三分类模块, 用于若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类 型, 则对所述第一干扰类异常网络数。
12、据进行解耦处理, 得到解耦数据, 并通过所述预置多层 第三支持向量机模型对所述解耦数据进行分类, 得到第二非干扰类异常网络数据和第二干 扰类异常网络数据。 7.如权利要求6所述的网络数据预处理装置, 其特征在于, 所述网络数据预处理装置还 包括: 第一确定模块, 用于基于初始支持向量机模型的初始参数, 确定所述初始支持向量机 模型的训练次序, 所述初始参数包括惩罚项系数; 第二确定模块, 用于计算所述第一训练样本中的异常网络数据数量和非异常网络数据 数量的比值, 基于所述比值确定所述初始支持向量机模型的初始权重。 8.如权利要求6所述的网络数据预处理装置, 其特征在于, 所述网络数据预处理装置。
13、还 包括: 第二训练模块, 用于利用第三训练样本对多层第三支持向量机模型中各层初始第三支 持向量机模型依次进行初始训练, 得到初始第一非干扰类异常网络数据和初始第一干扰类 异常网络数据, 其中, 在所述多层第三支持向量机模型中, 上一层初始多层第三支持向量机 模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入; 第二计算模块, 用于根据预置初始第一干扰类异常网络数据, 计算所述初始第一干扰 类异常网络数据的第四分类正确率; 第三判断模块, 用于判断所述第四分类正确率是否大于第四预设阈值; 第三训练模块, 用于利用所述第三训练样本继续训练所述多层第三支持向量机模型中 的下一层初始。
14、多层第三支持向量机模型, 直至所述第四分类正确率大于第四预设阈值。 9.一种网络数据预处理设备, 其特征在于, 所述网络数据预处理设备包括存储器、 处理 器以及存储在所述存储器上并可在所述处理器上运行的网络数据预处理程序, 所述网络数 据预处理程序被所述处理器执行时实现如权利要求1-5中任一项所述的网络数据预处理方 法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有网络数 据预处理程序, 所述网络数据预处理程序被处理器执行时实现如权利要求1-5中任一项所 述的网络数据预处理方法的步骤。 权利要求书 3/3 页 4 CN 110391955 A 4 网络数据。
15、预处理方法、 装置、 设备及可读存储介质 技术领域 0001 本发明涉及人工智能技术领域, 尤其涉及一种网络数据预处理方法、 装置、 设备及 计算机可读存储介质。 背景技术 0002 目前, 随着网络数据数量的增多, 网络故障的数量以及网络故障率也有明显增幅, 因此对网络数据网络故障诊断的正确性提出了更高的要求。 由于网络数据中一般都不可避 免地夹带干扰数据, 干扰数据的存在会导致网络故障诊断结果的正确率偏低, 尤其是对于 一些对网络故障诊断的准确率要求较高的高精尖企业来说, 干扰数据对其的不利影响更为 显著, 现有技术中一般在发生网络故障警报时, 获取网络数据日志, 并对网络数据日志诊 断,。
16、 得到初步诊断结果, 再由人工网络故障诊断专家结合实际场景中的各种干扰因素给出 最终诊断结果, 这样的诊断方式往往会因为人的主观因素而造成对网络故障诊断的误判。 从网络数据中有效分类出干扰数据, 是提高网络故障诊断结果正确率的重要因素。 因此, 对 待诊断网络数据进行预处理, 从待诊断网络数据中有效分类出干扰数据与非干扰数据, 以 避免干扰数据对网络诊断结果造成干扰, 是目前亟待解决的技术问题。 发明内容 0003 本发明的主要目的在于提供一种网络数据预处理方法、 装置、 设备及计算机可读 存储介质, 旨在解决现有技术中干扰数据对网络诊断结果造成干扰的技术问题。 0004 为实现上述目的, 本。
17、发明提供一种网络数据预处理方法, 所述网络数据预处理方 法包括以下步骤: 0005 将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架 内, 得到第一支持向量机模型; 0006 使用第一样本数据训练所述第一支持向量机模型, 得到第二支持向量机模型; 0007 通过所述第二支持向量机模型对第二样本数据进行分类, 得到第一初始异常网络 数据和第一初始正常网络数据; 0008 根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常网 络数据的第一分类正确率; 0009 判断所述第一分类正确率是否小于第一预设阈值; 0010 若所述第一分类正确率小于第一预设阈值, 则。
18、采用反向传播算法调整所述第二支 持向量机模型中各个初始支持向量机模型的当前权重, 直至所述第一分类正确率大于或等 于所述第一预设阈值,若否, 则不处理; 0011 通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类, 得到第一 非干扰类异常网络数据和第一干扰类异常网络数据, 其中, 所述多层第三支持向量机模型 中各层的模型数为2K-1, K为所述预置多层第三支持向量机模型的第K层; 0012 判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类型; 说明书 1/14 页 5 CN 110391955 A 5 0013 若所述第一干扰类异常网络数据的所属类型为数据耦合类型, 则。
19、对所述第一干扰 类异常网络数据进行解耦处理, 得到解耦数据, 并通过所述预置多层第三支持向量机模型 对所述解耦数据进行分类, 得到第二非干扰类异常网络数据和第二干扰类异常网络数据, 若否, 则不处理。 0014 可选地, 所述通过所述第二支持向量机模型对第二样本数据进行分类, 得到第一 初始异常网络数据和第一初始正常网络数据具体包括以下步骤: 0015 根据预设规则调整所述第二支持向量机模型的系数, 得到系数调整后的第二支持 向量机模型; 0016 通过所述系数调整后的第二支持向量机模型对第二样本数据进行分类, 得到第一 初始异常网络数据和第一初始正常网络数据。 0017 可选地, 所述通过所。
20、述第二支持向量机模型对第二样本数据进行分类, 得到第二 初始异常网络数据和第二初始正常网络数据具体包括以下步骤: 0018 根据预置异常网络数据, 计算所述第二支持向量机模型分类出的所述第二初始异 常网络数据的第二分类正确率, 并判断所述第二正确率是否大于第二预置阈值; 0019 若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率 大于第二预设阈值, 则调整所述第二支持向量机模型的松弛因子; 0020 若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率 小于或等于第二预设阈值, 则根据预置正常网络数据, 计算所述第二支持向量机模型分类 出的所述第二初始正常网。
21、络数据的第三分类正确率; 0021 判断所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类 正确率是否小于第三预设阈值; 0022 若所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正 确率小于第三预设阈值, 则调整所述第二支持向量机模型惩罚项系数的大小, 直至所述第 二支持向量机模型分类出的所述正常网络数据的分类正确率大于或等于第三预设阈值, 得 到系数调整后的第二支持向量机模型, 若否, 则得到系数调整后的第二支持向量机模型。 0023 可选地, 在所述通过预置多层第三支持向量机模型对所述初始异常网络数据进行 分类, 得到第一非干扰类异常网络数据和第一干扰类异。
22、常网络数据的步骤之前, 还包括以 下步骤: 0024 利用第三训练样本对多层第三支持向量机模型中各层初始第三支持向量机模型 依次进行初始训练, 得到初始第一非干扰类异常网络数据和初始第一干扰类异常网络数 据, 其中, 在所述多层第三支持向量机模型中, 上一层初始多层第三支持向量机模型输出的 上一初始分类结果为下一层初始多层第三支持向量机模型的输入; 0025 根据预置初始第一干扰类异常网络数据, 计算所述初始第一干扰类异常网络数据 的第四分类正确率; 0026 判断所述第四分类正确率是否大于第四预设阈值; 0027 若所述第四分类正确率大于所述第四预设阈值, 则得到训练完成的多层第三支持 向量。
23、机模型, 若否, 则利用所述第三训练样本继续训练所述多层第三支持向量机模型中的 下一层初始多层第三支持向量机模型, 直至所述第四分类正确率大于第四预设阈值。 0028 进一步地, 为实现上述目的, 本发明还提供一种网络数据预处理装置, 所述网络数 说明书 2/14 页 6 CN 110391955 A 6 据预处理装置包括: 0029 部署模块, 用于将至少三个初始支持向量机模型以串联或/和并联的方式部署在 分布式计算框架内, 得到第一支持向量机模型; 0030 第一训练模块, 用于使用第一样本数据训练所述第一支持向量机模型, 得到第二 支持向量机模型; 0031 第一分类模块, 用于通过所述。
24、第二支持向量机模型对第二样本数据进行分类, 得 到第一初始异常网络数据和第一初始正常网络数据; 0032 第一计算模块, 用于根据预置异常网络数据,计算所述第二支持向量机模型分类 出的所述初始异常网络数据的第一分类正确率; 0033 第一判断模块, 用于判断所述第一分类正确率是否小于第一预设阈值; 0034 第一调整模块, 用于若所述第一分类正确率小于第一预设阈值, 则采用反向传播 算法调整第二支持向量机模型中各个初始支持向量机模型的当前权重, 直至所述第一分类 正确率大于或等于所述第一预设阈值; 0035 第二分类模块, 用于通过预置多层第三支持向量机模型对所述初始异常网络数据 进行分类, 。
25、得到第一非干扰类异常网络数据和第一干扰类异常网络数据, 其中, 所述多层第 三支持向量机模型中各层的模型数为2K-1, K为所述预置多层第三支持向量机模型的第K层; 0036 第二判断模块, 判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦 合类型; 0037 第三分类模块, 用于若所述第一干扰类异常网络数据的所属干扰类型为数据耦合 类型, 则对所述第一干扰类异常网络数据进行解耦处理, 得到解耦数据, 并通过所述预置多 层第三支持向量机模型对所述解耦数据进行分类, 得到第二非干扰类异常网络数据和第二 干扰类异常网络数据。 0038 可选地, 所述网络数据预处理装置, 还包括: 0039。
26、 第一确定模块, 用于基于初始支持向量机模型的初始参数, 确定所述初始支持向 量机模型的训练次序, 所述初始参数包括惩罚项系数; 0040 第二确定模块, 用于计算所述第一训练样本中的异常网络数据数量和非异常网络 数据数量的比值, 基于所述比值确定所述初始支持向量机模型的初始权重。 0041 可选地, 所述第一分类模块包括: 0042 第一调整单元, 用于根据预设规则调整所述第二支持向量机模型的系数, 得到系 数调整后的第二支持向量机模型; 0043 分类单元, 用于通过所述系数调整后的第二支持向量机模型对第二样本数据进行 分类, 得到第一初始异常网络数据和第一初始正常网络数据。 0044 可。
27、选地, 所述第一调整单元具体用于: 0045 通过所述第二支持向量机模型对第二样本数据进行分类, 得到第二初始异常网络 数据和第二初始正常网络数据; 0046 根据预置异常网络数据, 计算所述第二支持向量机模型分类出的所述第二初始异 常网络数据的第二分类正确率, 并判断所述第二正确率是否大于第二预置阈值; 0047 若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率 大于第二预设阈值, 则调整所述第二支持向量机模型的松弛因子; 说明书 3/14 页 7 CN 110391955 A 7 0048 若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率 小于或等于。
28、第二预设阈值, 则根据预置正常网络数据, 计算所述第二支持向量机模型分类 出的所述第二初始正常网络数据的第三分类正确率; 0049 判断所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类 正确率是否小于第三预设阈值; 0050 若所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正 确率小于第三预设阈值, 则调整所述第二支持向量机模型惩罚项系数的大小, 直至所述第 二支持向量机模型分类出的所述正常网络数据的分类正确率大于或等于第三预设阈值, 得 到系数调整后的第二支持向量机模型。 0051 可选地, 所述网络数据预处理装置, 还包括: 0052 第二训练模块, 用于。
29、利用第三训练样本对多层第三支持向量机模型中各层初始第 三支持向量机模型依次进行初始训练, 得到初始第一非干扰类异常网络数据和初始第一干 扰类异常网络数据, 其中, 在所述多层第三支持向量机模型中, 上一层初始多层第三支持向 量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入; 0053 第四计算模块, 用于根据预置初始第一干扰类异常网络数据, 计算所述初始第一 干扰类异常网络数据的第四分类正确率; 0054 第五判断模块, 用于判断所述第四分类正确率是否大于第四预设阈值; 0055 第三训练模块, 用于若所述第四分类正确率小于或等于第四预设阈值, 则利用所 述第三训练样本继。
30、续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向 量机模型, 直至所述第四分类正确率大于第四预设阈值。 0056 进一步地, 为实现上述目的, 本发明还提供第二种网络数据预处理装置, 所述网络 数据预处理装置包括: 0057 部署模块, 用于将至少三个初始支持向量机模型以串联或/和并联的方式部署在 分布式计算框架内, 得到第一支持向量机模型; 0058 第一确定模块, 用于基于初始支持向量机模型的初始参数, 确定所述初始支持向 量机模型的训练次序, 所述初始参数包括惩罚项系数; 0059 第二确定模块, 用于计算所述第一训练样本中的异常网络数据数量和非异常网络 数据数量的比值, 基。
31、于所述比值确定所述初始支持向量机模型的初始权重; 0060 训练模块, 用于使用第一样本数据训练所述第一支持向量机模型, 得到第二支持 向量机模型; 0061 第一分类模块, 用于通过所述第二支持向量机模型对第二样本数据进行分类, 得 到第一初始异常网络数据和第一初始正常网络数据; 0062 第一计算模块, 用于根据预置异常网络数据,计算所述第二支持向量机模型分类 出的所述初始异常网络数据的第一分类正确率; 0063 第一判断模块, 用于判断所述第一分类正确率是否小于第一预设阈值; 0064 调整模块, 用于若所述第一分类正确率小于第一预设阈值, 则采用反向传播算法 调整第二支持向量机模型中各。
32、个初始支持向量机模型的当前权重, 直至所述第一分类正确 率大于或等于所述第一预设阈值; 0065 第二分类模块, 用于通过预置多层第三支持向量机模型对所述初始异常网络数据 说明书 4/14 页 8 CN 110391955 A 8 进行分类, 得到第一非干扰类异常网络数据和第一干扰类异常网络数据; 0066 第二判断模块, 判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦 合类型; 0067 第三分类模块, 用于若所述第一干扰类异常网络数据的所属干扰类型为数据耦合 类型, 则对所述第一干扰类异常网络数据进行解耦处理, 得到解耦数据, 并通过所述预置多 层第三支持向量机模型对所述解耦数据。
33、进行分类, 得到第二非干扰类异常网络数据和第二 干扰类异常网络数据。 0068 进一步地, 为实现上述目的, 本发明还提供第三种网络数据预处理装置, 所述网络 数据预处理装置包括: 0069 部署模块, 用于将至少三个初始支持向量机模型以串联或/和并联的方式部署在 分布式计算框架内, 得到第一支持向量机模型; 0070 第一训练模块, 用于使用第一样本数据训练所述第一支持向量机模型, 得到第二 支持向量机模型; 0071 第一分类模块, 用于通过所述第二支持向量机模型对第二样本数据进行分类, 得 到第一初始异常网络数据和第一初始正常网络数据; 0072 第一计算模块, 用于根据预置异常网络数据。
34、,计算所述第二支持向量机模型分类 出的所述初始异常网络数据的第一分类正确率; 0073 第一判断模块, 用于判断所述第一分类正确率是否小于第一预设阈值; 0074 调整模块, 用于若所述第一分类正确率小于第一预设阈值, 则采用反向传播算法 调整第二支持向量机模型中各个初始支持向量机模型的当前权重, 直至所述第一分类正确 率大于或等于所述第一预设阈值; 0075 第二训练模块, 用于利用第三训练样本对多层第三支持向量机模型中各层初始第 三支持向量机模型依次进行初始训练, 得到初始第一非干扰类异常网络数据和初始第一干 扰类异常网络数据, 其中, 在所述多层第三支持向量机模型中, 上一层初始多层第三。
35、支持向 量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入; 0076 第二计算模块, 用于根据预置初始第一干扰类异常网络数据, 计算所述初始第一 干扰类异常网络数据的第四分类正确率; 0077 第二判断模块, 用于判断所述第四分类正确率是否大于第四预设阈值; 0078 第三训练模块, 用于利用所述第三训练样本继续训练所述多层第三支持向量机模 型中的下一层初始多层第三支持向量机模型, 直至所述第四分类正确率大于第四预设阈 值; 0079 第二分类模块, 用于通过预置多层第三支持向量机模型对所述初始异常网络数据 进行分类, 得到第一非干扰类异常网络数据和第一干扰类异常网络数据。
36、。 0080 进一步地, 为实现上述目的, 本发明还提供一种网络数据预处理设备, 所述网络数 据预处理设备包括存储器、 处理器以及存储在所述存储器上并可在所述处理器上运行的网 络数据预处理程序, 所述网络数据预处理程序被所述处理器执行时实现如上述任一项所述 的网络数据预处理方法的步骤。 0081 进一步地, 为实现上述目的, 本发明还提供一种计算机可读存储介质, 所述计算机 可读存储介质上存储有网络数据预处理程序, 所述网络数据预处理程序被处理器执行时实 说明书 5/14 页 9 CN 110391955 A 9 现如上述任一项所述的网络数据预处理方法的步骤。 0082 本发明将至少三个初始支。
37、持向量机模型以串联或/和并联的方式部署在分布式计 算框架内, 得到第一支持向量机模型, 由于初始支持向量机模型的数量至少为三个, 且以不 同的方式进行连接, 可以提高第一支持向量机模型对网络数据的分类能力, 除此之外, 本发 明还通过预置多层第三支持向量机模型对异常网络数据进行多次分类, 实现从网络数据中 有效分类出干扰数据, 避免干扰数据对网络诊断结果造成干扰。 附图说明 0083 图1为本发明实施例方案涉及的网络数据预处理设备运行环境的结构示意图; 0084 图2为本发明网络数据预处理方法第一实施例的流程示意图; 0085 图3为本发明网络数据预处理方法第二实施例的流程示意图; 0086 。
38、图4为图2中步骤S30的细化流程示意图; 0087 图5为图4中步骤S301的细化流程示意图; 0088 图6为本发明网络数据预处理方法第三实施例的流程示意图; 0089 图7为本发明网络数据预处理装置第一实施例的功能模块示意图; 0090 图8为本发明网络数据预处理装置第二实施例的功能模块示意图; 0091 图9为本发明网络数据预处理装置第三实施例的功能模块示意图。 0092 本发明目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步说明。 具体实施方式 0093 应当理解, 此处所描述的具体实施例仅用以解释本发明, 并不用于限定本发明。 0094 本发明提供一种网络数据预处理设备。。
39、 0095 参照图1, 图1为本发明实施例方案涉及的网络数据预处理设备运行环境的结构示 意图。 0096 如图1所示, 该网络数据预处理设备包括: 处理器1001, 例如CPU, 通信总线1002、 用 户接口1003, 网络接口1004, 存储器1005。 其中, 通信总线1002用于实现这些组件之间的连 接通信。 用户接口1003可以包括显示屏(Display)、 输入单元比如键盘(Keyboard), 网络接 口1004可选的可以包括标准的有线接口、 无线接口(如WI-FI接口)。 存储器1005可以是高速 RAM存储器, 也可以是稳定的存储器(non-volati le memory)。
40、, 例如磁盘存储器。 存储器 1005可选的还可以是独立于前述处理器1001的存储装置。 0097 本领域技术人员可以理解, 图1中示出的网络数据预处理设备的硬件结构并不构 成对网络数据预处理设备的限定, 可以包括比图示更多或更少的部件, 或者组合某些部件, 或者不同的部件布置。 0098 如图1所示, 作为一种计算机可读存储介质的存储器1005中可以包括操作系统、 网 络通信模块、 用户接口模块以及网络数据预处理程序。 其中, 操作系统是管理和控制网络数 据预处理设备和软件资源的程序, 支持网络数据预处理程序以及其它软件和/或程序的运 行。 0099 在图1所示的网络数据预处理设备的硬件结构。
41、中, 网络接口1004主要用于接入网 络; 用户接口1003主要用于侦测确认指令和编辑指令等。 而处理器1001可以用于调用存储 说明书 6/14 页 10 CN 110391955 A 10 器1005中存储的网络数据预处理程序, 并执行以下网络数据预处理方法的各实施例的操 作。 0100 基于上述网络数据预处理设备硬件结构, 提出本发明网络数据预处理方法的各个 实施例。 0101 参照图2, 图2为本发明网络数据预处理方法第一实施例的流程示意图。 本实施例 中, 所述网络数据预处理方法包括以下步骤: 0102 步骤S10, 将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式 计。
42、算框架内, 得到第一支持向量机模型; 0103 本实施例中,将至少三个初始支持向量机模型以串联或/和并联的方式部署在分 布式计算框架内, 各个初始支持向量机模型都具有不同的初始参数, 各个初始支持向量机 模型之间既可以以串联的方式进行连接, 也可以以并联的方式进行连接, 还可以以串联与 并联相互组合的方式进行连接, 采用由至少三个初始支持向量机模型可以增加对网络数据 的处理量, 同时多个初始支持向量机模型共同对网络数据进行分类决策。 0104 步骤S20, 使用第一样本数据训练所述第一支持向量机模型, 得到第二支持向量机 模型; 0105 本实施例中,第一支持向量机模型不具备准确分类的能力, 。
43、因此需要使用第一样 本数据训练所述第一支持向量机模型, 得到第二支持向量机模型。 0106 步骤S30, 通过所述第二支持向量机模型对第二样本数据进行分类, 得到第一初始 异常网络数据和第一初始正常网络数据; 0107 本实施例中, 为了使用第一训练样本训练出可以对网络数据进行粗粒度分类的第 二支持向量机模型, 每一次训练, 都要通过第二支持向量机模型输出初始异常网络数据和 初始正常网络数据。 0108 步骤S40, 根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初 始异常网络数据的第一分类正确率; 0109 本实施例中, 第一支持向量机模型只是个最初的模型, 并不能准确的去对数。
44、据进 行分类, 对于分类好的的结果需要人工去检查分类的结果是否是当前场景所需的, 但是在 本方案中可以从预先归类好的数据库中去获取人工预先分开好的异常网络数据, 如果第二 支持向量机模型分类出的初始异常网络数据与人工预先分开好的异常网络数据相比较, 得 到第一分类正确率, 例如正确率为20。 0110 步骤S50, 判断所述第一分类正确率是否小于第一预设阈值; 0111 本实施例中,为了使第二支持向量机模型对第二训练样本进行分类后, 得到的分 类结果满第一预设阈值, 例如90, 需要根据第一分类正确率判断第一支持向量机模型分 类的准确率是否小于第一预设阈值。 0112 步骤S60, 若所述第一。
45、分类正确率小于第一预设阈值, 则采用反向传播算法, 调整 所述第二支持向量机模型中各个初始支持向量机模型的当前权重, 直至所述第二支持向量 机模型分类出的所述初始异常网络数据的第一分类正确率大于或等于所述第一预设阈值, 得到第二支持向量机模型, 若所述第一分类正确率大于或等于第一预设阈值, 则得到第二 支持向量机模型; 0113 本实施例中,由于网络数据的分类结果是通过第二支持向量机模型中的至少是三 说明书 7/14 页 11 CN 110391955 A 11 个初始支持向量机模型共同决策的, 因此会出现多个分类结果, 对于不同的分类结果, 其误 差值也是不尽相同, 在此用到了反向传播算法去。
46、调节各个初始支持向量机模型所占的权 重, 使得最终输出的结果满足第一预设阈值。 0114 步骤S70, 通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类, 得到第一非干扰类异常网络数据和第一干扰类异常网络数据, 其中, 所述多层第三支持向 量机模型中各层的模型数为2K-1, K为所述预置多层第三支持向量机模型的第K层; 0115 本实施例中, 通过预置多层第三支持向量机模型对异常网络数据进行分类, 其中, 预置多层第三支持向量机模型中各层预置初始第三支持相量机的个数为N2K-1, 其中, N为 预置多层第三支持向量机模型中第K层预置初始第三支持相量机的个数, K为预置多层第三 支持。
47、向量机模型的第K层。 0116 步骤S80, 判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类 型; 0117 本实施例中, 为了确认干扰类异常网络数据集中的数据所属的干扰类型, 本实施 例中采用遍历的方式, 得到遍历数据。 将遍历数据与预置干扰类异常网络数据的干扰类型 进行匹配, 得到匹配结果, 根据所述预置匹配结果判断所述第一干扰类异常网络数据的所 属干扰类型是否为数据耦合类型。 0118 步骤S90, 若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类型, 则对 所述第一干扰类异常网络数据进行解耦处理, 得到解耦数据, 并通过所述预置多层第三支 持向量机模型对所述解耦数据。
48、进行分类, 得到第二非干扰类异常网络数据和第二干扰类异 常网络数据, 若否, 则不处理。 0119 本实施例中, 若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类型, 则对所述第一干扰类异常网络数据进行解耦处理, 得到解耦数据,并通过预置多层第三支 持向量机模型对所述解耦数据进行分类, 得到第二非干扰类异常网络数据和第二干扰类异 常网络数据。 0120 参照图3, 图3为本发明网络数据预处理方法第二实施例的流程示意图。 本实施例 中, 所述网络数据预处理方法包括以下步骤: 0121 步骤S100, 基于初始支持向量机模型的初始参数, 确定所述初始支持向量机模型 的训练次序, 所述初始参数。
49、包括惩罚项系数; 0122 本实施例中, 在初始场景下, 不同的初始支持向量机模型, 均有不同的初始参数, 初始参数可以是初始支持向量机模型的惩罚项系数, 根据初始参数可以确定具有不同初始 参数的初始支持向量机模型的训练次序。 0123 步骤S110, 计算所述第一训练样本中的异常网络数据数量和非异常网络数据数量 的比值, 基于所述比值确定所述初始支持向量机模型的初始权重。 0124 本实施例中, 计算所述第一训练样本中的异常网络数据数量和非异常网络数据数 量的比值, 基于所述比值确定所述初始支持向量机模型的初始权重。 例如, 有甲乙丙丁四个 初始支持向量机模型, 第一训练样本中的异常网络数据。
50、数量和非异常网络数据数量的比值 为1:1, 则甲乙丙丁四个初始支持向量机模型的初始权重均为25。 0125 参照图4, 图4为图2中步骤S30的细化流程示意图, 本实施例中, 所述步骤S30包括 以下步骤: 说明书 8/14 页 12 CN 110391955 A 12 0126 步骤S301, 根据预设规则调整所述第二支持向量机模型的系数, 得到系数调整后 的第二支持向量机模型; 0127 本实施例中, 根据预设规则调整所述第二支持向量机模型的系数, 得到系数调整 后的第二支持向量机模型。 并不是直接使用第二支持向量机模型对网络数据进行分类的, 而是根据预设规则调整所述第二支持向量机模型的系。