基于决策树的精轧温控过程关键特征变量提取方法.pdf

摘要
申请专利号：	CN200910272628.6	申请日：	2009.11.05
公开号：	CN102049420A	公开日：	2011.05.11
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):B21B 37/74申请日:20091105授权公告日:20140827终止日期:20161105\|\|\|授权\|\|\|专利申请权的转移IPC(主分类):B21B 37/74变更事项:申请人变更前权利人:刘斌变更后权利人:浙江汇高机电科技有限公司变更事项:地址变更前权利人:430081 湖北省武汉市红卫路50街坊81门2号变更后权利人:312000 浙江省绍兴市舜江路683号科创大厦12楼1208室变更事项:共同申请人变更前权利人:劳兆利蒋峥单旭沂梁开董晖方康玲叶红卫张尉登记生效日:20120621\|\|\|实质审查的生效IPC(主分类):B21B 37/74申请日:20091105\|\|\|公开
IPC分类号：	B21B37/74	主分类号：	B21B37/74
申请人：	刘斌; 劳兆利; 蒋峥; 单旭沂; 梁开; 董晖; 方康玲; 叶红卫; 张尉
发明人：	刘斌; 劳兆利; 蒋峥; 单旭沂; 梁开; 董晖; 方康玲; 叶红卫; 张尉
地址：	430081 湖北省武汉市红卫路50街坊81门2号
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明涉及一种基于决策树的精轧温控过程关键特征变量提取方法。该方法首先对精轧过程数据进行预处理，将以带钢号为索引的过程数据转化为以精轧终轧温度为目标属性的决策属性向量，并对精轧终轧温度进行非线性离散化；然后用决策树方法，计算每个离散或连续值决策属性的信息增益率；最后根据信息增益率判定各个属性对精轧终轧温度影响的大小，并对决策属性向量按照增益率的值重新排序，再结合精轧工艺机理和模型精度要求，提取对精轧终轧温度有决定性影响的关键特征变量。该方法可以根据实际现场过程数据，判定对精轧终轧温度有决定性影响作用的关键变量，为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。

权利要求书

1：基于决策树的精轧温控过程关键特征变量提取方法，其特征在于包括如下步骤： a) 对精轧过程数据进行预处理，将以带钢号为索引的过程数据转化为以精轧温度为目标属性的决策属性向量； b) 对精轧终轧温度进行非线性离散化； c) 计算以精轧终轧温度为目标属性的决策属性向量中每个离散或连续值决策属性的信息增益率，生成以精轧终轧温度为目标属性的决策树； d) 根据信息增益率判定各个离散或连续值决策属性对精轧终轧温度影响的大小，并按照决策树的结点顺序对决策属性向量重新排序； e) 提取影响精轧终轧温度的关键特征变量。
2：根据权利要求 1 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤 a) 对精轧过程数据进行预处理，包括去噪和数据整理。
3：根据权利要求 2 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述的去噪为：首先根据工艺和设备条件给出精轧过程数据的各个字段值的上下限幅值，然后按照限幅值对相应字段的所有数据，用限幅滤波法滤掉所有的该字段数据超过限幅值的过程数据向量；所述数据整理是将精轧过程数据的所有索引变量去掉，再将一条带钢的一个分段号对应的所有数据整理为一个数据向量，然后以精轧终轧温度为目标属性，将数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧终轧温度为目标属性的决策属性向量。
4：根据权利要求 1 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤 b) 对精轧终轧温度进行非线性离散化，是以精轧终轧目标温度为中心将精轧终轧温度定义为对称分布的五个区域，五个区域分别对应目标属性的五个离散值。
5：根据权利要求 1 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤 c) 的具体步骤如下：对未成为决策结点的所有决策属性进行如下操作， 1) 对连续值决策属性进行离散分割； 2) 对离散决策属性和离散分割后的连续值决策属性进行信息增益和信息增益率的计算； 3) 对比所有决策属性的信息增益率值，取信息增益率最大的属性作为决策树当前的决策结点。 4) 反复执行 1)-3) 步骤，直至所有决策属性被遍历，生成决策树。
6：根据权利要求 5 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述对连续值决策属性进行离散分割的方法为：找出连续值决策属性的取值范围 [a， b]，在区间 [a， b] 内插入 n 个数值 ai(i ＝ 1， 2， L， n)，将 [a， b] 等分为 n+1 个小区间；比较用 ai(i ＝ 1， 2， L， n) 划分连续值决策属性 [a， b] 的信息增益率，找出具有最大信息增益率的分割点 ai，用 ai 作为离散分割阈值，将连续值决策属性离散化。
7：根据权利要求 6 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述用 ai 划分连续值决策属性，计算信息增益率的方法为： A、设某连续值决策属性为 A ； B、设全部决策属性向量构成的集合为 S，集合中的数据向量按照目标属性划分为五个 2 类， S 相对于这 5 个类的信息熵为：其中， pi(i ＝ 1， ...， 5) 是集合 S 中目标属性取为 {Best， PB， NB， PW， NW} 中的某个离散值的概率； C、对于某个连续值决策属性 A， ai 把其取值范围 [a， b] 划分为 2 类，分别是： S1([a， ai]) 和 S2([ai， b])。此时，连续值决策属性 A 相对于集合 S 的信息增益为：其中， I(Sv) 是集合 Sv 相对五个分类的信息熵，计算方式与 I(S) 相同； D、集合 S 相对于连续值决策属性 A 的分类的信息熵为：其中， pv(v ＝ 1， 2) 是集合 S 中元素属于 Sv 的概率； E、连续值决策属性 A 相对于集合 S 的信息增益率为：
8：根据权利要求 7 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述 2) 步骤中进行信息增益和信息增益率的计算，计算方法与用 ai 划分连续值决策属性，计算信息增益率的方法相同。
9：根据权利要求 1 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤 d) 具体为：根据 c 步骤决策树生成过程中计算的每个决策属性信息增益率的大小，判断该属性字段对应的特征变量对终轧温度影响的大小，并按照决策树中的结点排序对所有属性字段排序，生成新的以精轧终轧温度为目标属性的属性向量。
10：根据权利要求 1 所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤 e) 提取影响精轧终轧温度的关键特征变量，根据温度预报精度要求，提取 d) 步骤中获得的新的属性向量中的前面若干个属性作为精轧终轧温度的关键特征变量，并结合精轧实际工艺特点进行筛选和调整。

说明书

基于决策树的精轧温控过程关键特征变量提取方法
    技术领域本发明涉及带钢热连轧精轧终轧温度模型建立过程中的关键特征变量提取方法，特别涉及基于决策树的精轧温控过程关键特征变量提取方法。
     背景技术在热轧带钢生产中，精轧机组终轧温度的控制精度对最终产品的组织性能有直接影响。精轧带钢全长终轧温度控制一直是热轧生产中的重要研究课题，也是难点之一。第一，影响精轧终轧温度的过程变量众多；第二，精轧区内有效测温点少，只有粗轧出口和精轧出口的两个点测温条件最可靠；第三，原有的温度相关工艺模型精度有限，达不到实时控制的要求；第四，用来控制全长终轧温度的常用手段包括控制带钢运行加速度和机架间喷淋的水量和水压，它们对终轧温度的影响都有很大的滞后，很难用常规的无模型控制方法实现有效控制。
     综合分析以上问题，可以得出结论，建立可靠的终轧温度控制模型是对精轧终轧温度进行有效控制的前提。建立有效的温度模型，就可以克服精轧生产线缺少有效测温点的困难，也可以弥补原有工艺模型精度低不能用于实时控制的缺点，更可以进行有效的温度预报，从而解决水量和速度对温度的控制滞后问题。而建立可靠的终轧温度控制模型的前提，就是从众多的精轧过程变量中提取出对精轧终轧温度有决定性影响的若干关键特征变量。为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。
     发明内容
     基于以上原因，本专利提出一种基于决策树的精轧温控过程关键特征变量提取方法。这种方法能从精轧海量过程数据中，最终提取到精轧温控过程中的具有决定性作用的关键特征变量，为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。
     本发明的基于决策树的精轧温控过程关键特征变量提取方法，包括如下步骤：
     a) 对精轧过程数据进行预处理，将以带钢号为索引的过程数据转化为以精轧温度为目标属性的决策属性向量；
     b) 对精轧终轧温度进行非线性离散化；
     c) 计算以精轧终轧温度为目标属性的决策属性向量中每个离散或连续值决策属性的信息增益率，生成以精轧终轧温度为目标属性的决策树；
     d) 根据信息增益率判定各个离散或连续值决策属性对精轧终轧温度影响的大小，并按照决策树的结点顺序对决策属性向量重新排序；
     e) 提取影响精轧终轧温度的关键特征变量。
     所述步骤 a) 对精轧过程数据进行预处理，包括去噪和数据整理。
     从现场采集的海量过程数据，是按带钢号索引并由几百个字段数据组成。首先，数据采集过程中必然有一些偶然因素，所以要把超限幅噪声数据滤掉，避免它们给信息熵和信息增益率的计算带来不利影响；其次，过程数据的索引排列形式也不符合对终轧温度进行决策的物理意义要求，因此要对数据进行去噪和整理。
     所述的去噪为：首先根据工艺和设备条件给出精轧过程数据的各个字段值的上下限幅值，然后按照限幅值对相应字段的所有数据，用限幅滤波法滤掉所有的该字段数据超过限幅值的过程数据向量。在给出精轧过程数据的各个字段值的上下限幅值时需要按照精轧工艺和设备情况进行确定。
     所述的数据整理是将精轧过程数据的所有索引变量去掉，再将一条带钢的一个分段号对应的所有数据整理为一个数据向量，然后以精轧终轧温度为目标属性，将数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧终轧温度为目标属性的决策属性向量。
     由带钢号索引的精轧过程数据是按照带钢号、带钢分段号和机架号分别采集的。具体的过程数据分类形式为：
     数据系列 1 ： { 带钢号，字段 11，字段 12，字段 13， ......}
     数据系列 2 ： { 带钢号，字段 21，字段 22，字段 23， ......}
     数据系列 3 ： { 带钢号，分段号 i，字段 3i1，字段 3i2， ......}
     数据系列 4 ： { 带钢号，分段号 i，机架号 j，字段 4ij1，字段 4ij2， ......}
     其中， i ∈ {1， 2， 3}，是带钢分段的索引号；
     j ∈ {1， 2， ...， 7}，是精轧机架的索引号；
     举例说明字段下标含义： “字段 12” 表示一条带钢的第 1 个数据系列的第 2 个字段， “字段 22” 表示同一带钢的第 2 个数据系列的第 2 个字段， “字段 3i2” 表示同一带钢的第 3 个数据系列的对应第 i 个带钢分段的第 2 个字段， “字段 4ij2” 表示同一带钢的第 4 个数据系列的对应第 i 个带钢分段的、第 j 个机架的第 2 个字段。
     这种过程数据组合形式，不符合温控过程建模的物理意义，因此需要重新整理，去掉所有索引变量，包括带钢号、段号、和机架号，将一条带钢的某一分段号对应的所有数据整理为一个数据向量，以终轧温度为目标属性，数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧温度为目标属性的决策属性向量。
     整理之后，对应某一条带钢的第 i 个分段的属性数据向量形式为：
     其中，目标属性是该带钢的第 i 个分段的精轧终轧温度。大括号内的所有字段构成与目标属性相对应的属性向量，各字段对应为各个决策通过以上方法，可以把现场采集的过程数据向量，转化为用于构造决策树的决策5属性。
     102049420 A CN 102049424说明书3/10 页属性向量。
     所述步骤 b) 对精轧终轧温度进行非线性离散化，是以精轧终轧目标温度为中心将精轧终轧温度定义为对称分布的五个区域，五个区域对应目标属性的五个离散值。
     由于决策树生成过程中，需要对目标属性值离散分类，才能进行信息熵和信息增益率的计算，因此需要对精轧终轧温度进行非线性离散化。
     根据精轧过程的工艺特点和实际过程数据中终轧温度的实际分布情况，定义以精轧终轧目标温度为中心的对称分布的五个区域，从而实现作为目标属性终轧温度的非线性离散化。具体离散化方式可见图 1。
     其中， T0 是终轧目标温度， a 是温度变化量，其大小根据精轧工艺具体确定。以目标温度 T0 为中心，对称分布的五个区域被划分为：
     表 1 目标属性的非线性离散化
     Best， PB， NB， PW， NW 也分别对应目标属性的五个离散值。所述步骤 c) 的具体步骤如下：对未成为决策结点的所有决策属性进行如下操作， 1) 对连续值决策属性进行离散分割； 2) 对离散属性和离散分割后的连续值决策属性进行信息增益和信息增益率的计算； 3) 对比所有决策属性的信息增益率值，取信息增益率最大的属性作为决策树当前的决策结点。
     4) 反复执行 1)-3) 步骤，直至所有决策属性被遍历，生成决策树。
     所述对连续值决策属性进行离散分割的方法为：
     找出连续值决策属性的取值范围 [a， b]，在区间 [a， b] 内插入 n 个数值 ai(i ＝ 1， 2， L， n)，将 [a， b] 等分为 n+1 个小区间；
     比较用 ai(i ＝ 1， 2， L， n) 划分连续值决策属性 [a， b] 的信息增益率，找出具有最大信息增益率的分割点 ai，用 ai 作为离散分割阈值，将连续值决策属性离散化。
     所述用 ai 划分连续值决策属性，计算信息增益率的方法为：
     A、设某连续值决策属性为 A ；
     B、设全部决策属性数据向量构成的集合为 S，集合中的数据向量按照目标属性划分为五个类，五个类为 Best， PB， NB， PW， NW， S 相对于这 5 个类的信息熵为：
     其中， pi(i ＝ 1， ...， 5) 是集合 S 中目标属性取为 {Best， PB， NB， PW， NW} 中的各个离散值的概率；
     C、对于某个连续值决策属性 A， ai 把其取值范围 [a， b] 划分为 2 类，分别是： S1(a， ai]) 和 S2([ai， b])。此时，连续值决策属性 A 相对于集合 S 的信息增益为：
     其中， I(Sv) 是集合 Sv 相对五个分类的信息熵，计算方式与 I(S) 相同； D、集合 S 相对于连续值决策属性 A 的分类的信息熵为：其中， pv(v ＝ 1， 2) 是集合 S 中元素属于 Sv 的概率； E、连续值决策属性 A 相对于集合 S 的信息增益率为：所述 2) 步骤中进行信息增益和信息增益率的计算，计算方法与用 ai 划分连续值决策属性，计算信息增益率的方法相同。
     所述步骤 d) 具体为：根据 c 步骤决策树生成过程中计算的每个决策属性信息增益率的大小，判断该属性字段对应的特征变量对终轧温度影响的大小，并按照决策树中的结点排序对所有属性字段排序，生成新的以精轧终轧温度为目标属性的属性向量。从决策树上层结点开始，从上至下选择结点。
     如图 2，对应结点 1 的决策属性就索引为字段 1，对应结点 2 的决策属性就索引为字段 2，依此类推。
     本步骤中将步骤 a) 中得到的属性向量重新排序，如果有决策属性在不同结点重复出现的情况，则只在第一次出现的时候提取该属性，后续的都不予提取。按照以上操作，可以得到与步骤 a) 中属性向量的属性的种类和个数相同，但排列顺序不同的新的属性向量：
     所述步骤 e) 提取影响精轧终轧温度的关键特征变量，根据温度预报精度要求，提取 d) 步骤中获得的新的属性向量中的前面若干个属性作为精轧终轧温度的关键特征变量，并结合精轧实际工艺特点进行筛选和调整。
     根据海量精轧过程数据，用衡量各个属性变量信息熵和信息增益率的方法，建立决策树，并按照决策树中决策结点的排序，判定各个属性变量的对目标变量影响的大小，这一方法是从海量数据中提取信息。从数据中提取的信息有两个方面的特点：第一，能够在很大程度上验证生产工艺的本质；第二，决策树反应的是目标属性和决策属性之间的相关性大小，但不是因果关系。第三，关系反应现场的具体的现场工况。提取的关键特征变量的目标是搜索目标变量的因变量，另外实际现场工况不可能是一成不变的，所以在实际关键特征变量提取的过程中，不能完全依赖从数据中提取的信息。
     从前向后，从属性向量 ( 形式见公式 5) 中逐一提取属性字段，并根据实际精轧工艺予以确认，确认有效后方能作为关键特征变量。所提取属性字段的数量，也即关键特征变
     量的个数，主要由控制模型的精度决定。实际应用过程中，并不是关键变量越多模型精度越高，一般取 3 ～ 10 个关键变量为宜。可以在控制模型中的添加偏差项，来弥补忽略其它因素带来的影响。
     本专利的基于决策树的精轧温控过程关键特征变量提取方法。对精轧海量过程数据进行去噪和整理，通过计算过程数据所包含的信息熵，比较各个属性即过程变量的信息增益率，确定对终轧温度有决定性影响的关键变量。也就是，从精轧海量过程数据中，根据各个变量提出有效知识信息，这些信息可以反映精轧的工艺本质，就是关键特征变量与目标变量终轧温度之间的关系；也可以反映实时过程中存在的特殊现象和问题。为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。附图说明
     图 1 是本发明的目标属性非线性离散化图；
     图 2 是决策树结点排序示意图；
     图 3 是本发明实施例或的部分决策树图。具体实施方式以下列举三条带钢的四个系列数据中的少数字段数据。它们的带钢号为分别为 9232000400、 9232000500 和 9232000600。
     已知三条带钢的终轧目标温度均为 880℃，它们的各段实际终轧温度见表 2。
     三条钢带的精轧过程数据如表 3 ～ 6。
     表 2 三条带钢的三段终轧温度
     表 3 三条带钢的数据系列 1
     表 4 三条带钢的数据系列 2
     表 5 三条带钢的数据系列 3
     表 6 三条带钢的数据系列 4
     首先进行 a) 步骤对上述海量精轧过程数据进行预处理，包括去噪和数据整理。
     遍历四个系列的数据字段，如果系列 1 或 2 中有离散属性值或连续属性值超出设置范围或工艺实际，就需要将超限值所属的带钢数据全部除去；如果系列 3 或 4 中有离散属性值或连续属性值超限，则需将超限值所属的带钢分段数据全部除去。在去噪完成后，将精轧过程数据的所有索引变量去掉，再将一条带钢的一个分段号对应的所有数据整理为一个数据向量，然后以精轧终轧温度为目标属性，将数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧终轧温度为目标属性的决策属性向量。表7 为带钢 9232000400 第二分段号的决策属性向量，由于宽度有限，所以分四行给出了所有决策属性。另外，表 7 给出了对应于带钢 9232000400 的第二个分段的决策属性的数据值，以及各属性在过程数据中的字段编号。
     表 7 带钢 9232000400 的第二个分段号的决策属性向量
     步骤 b)，对精轧终轧温度进行非线性离散化。已知 T0 ＝ 880℃，设 a ＝ 5，按照表 1 中的判定方法，可得三条带钢的各个分段的终轧温度离散值，见表 2 中的最后一列。
     步骤 c)，计算每个精轧数据向量中离散或连续值决策属性的信息增益率，并生成以精轧终轧温度为目标属性的决策树。建立决策树需要较多的数据，因此选用实际精轧过程中的 499 条带钢数据 ( 上述 3 条带钢的数据也包含在内 )，同时为简化决策树，仅采用表 3 ～ 6 中相同的字段进行计算。
     1) 对连续值决策属性进行离散分割。具体方法是：找出连续值决策属性的取值范围 [a， b]，在区间 [a， b] 内插入 n 个数值 ai(i ＝ 1， 2， L， n)，将 [a， b] 等分为 n+1 个小区间；比较用 ai(i ＝ 1， 2， L， n) 划分 [a， b] 的信息增益率，找出具有最大信息增益率的分割点 ai，用 ai 作为离散分割阈值，将连续值变量离散化。
     用 ai 划分连续值决策属性，计算信息增益率的方法为：
     A、设某连续值决策属性为 A ；
     B、设全部决策属性数据向量构成的集合为 S，集合中的数据向量按照目标属性 ( 终轧温度 ) 划分为五个类 (Best， PB， NB， PW， NW)， S 相对于这 5 个分类的信息熵为：
     其中， pi(i ＝ 1， ...， 5) 是集合 S 中目标属性取为 {Best， PB， NB， PW， NW} 中的各个离散值的概率。
     C、对于某个连续值决策属性 A， ai 把其取值范围 [a， b] 划分为 2 类，分别是： S1([a， ai]) 和 S2([ai， b])。此时，属性 A 相对于集合 S 的信息增益为：
     其中， I(Sv) 是集合 Sv 相对五个分类的信息熵，计算方式与 I(S) 相同。 D、集合 S 相对于属性 A 的分类的信息熵为：其中， pv(v ＝ 1， 2) 是集合 S 中元素属于 Sv 的概率。 E、属性 A 相对于集合 S 的信息增益率为：计算所有 ai(i ＝ 1， 2， L， n) 划分 [a， b] 的信息增益率，找出具有最大信息增益率的分割点 ai，用 ai 作为离散分割阈值，将连续值变量离散化。
     2) 对所有候选的离散属性和离散分割后的连续属性进行信息增益和信息增益率的计算。所使用计算方法与步骤 i 中用 ai 划分连续值决策属性时，计算属性 A 的信息增益率的步骤完全相同。
     3) 最后对比各候选属性的信息增益率值，取增益率最大的属性作为决策树当前的决策结点。
     反复执行以上的步骤 1)-3)，直至所有属性被遍历，即可生成决策树，图 2 是所得决策树的开始部分。图 3 是根据精轧过程实际数据获得的部分决策树。
     步骤 d)，根据信息增益率判定各个属性与目标属性的相关程度，并对属性向量按照决策树中的结点顺序重新排序。
     在图 3 中，按顺序从上至下，从左到右，遍历所有结点和决策属性。按照结点的排列顺序，可将表 7 中的决策属性向量重新排序，得到新的决策属性向量。按照图 3 只能得到这个决策属性的前半部分：
     {RM_THICK， RM_TEMP， FORCE1， FORCE4， MODE_SCALE， ......}
     步骤 e)，根据温度预报精度要求并结合精轧工艺特点，提取影响精轧终轧温度的关键特征变量。
     在新的决策属性向量中，从前向后，分析整个决策属性向量。首先， RM_Thick( 粗轧厚度 ) 和 RM_Temp( 粗轧温度 ) 这两个决策属性对终轧温度影响最大，这与精轧工艺机理是非常一致的。因此这两个变量自然被选作关键特征变量。其次，有两个决策属性， Force1( 机架 1 的轧制力 ) 和 Force4( 机架 4 的轧制力 )，这两个属性变量与终轧温度具有很强的相关性，但因果关系不明确，所以暂时不作为关键特征变量。另外一个，还有一个 Mode_Scale( 除磷模式 ) 对终轧温度也有十分明确的影响，因此也可以被选作关键特征变
     量。要说明的是 Mode_Scale 是一个离散状态变量，它不能直接作为模型参数，但对模型中的换热相关参数有决定性影响。
     综上，通过本例的实施，可得到关键特征变量包括： RM_Thick， RM_Temp 和 Mode_ Scale。在实际应用中，可以得到更多的关键特征变量。

资源描述

《基于决策树的精轧温控过程关键特征变量提取方法.pdf》由会员分享，可在线阅读，更多相关《基于决策树的精轧温控过程关键特征变量提取方法.pdf（15页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102049420A43申请公布日20110511CN102049420ACN102049420A21申请号200910272628622申请日20091105B21B37/7420060171申请人刘斌地址430081湖北省武汉市红卫路50街坊81门2号申请人劳兆利蒋峥单旭沂梁开董晖方康玲叶红卫张尉72发明人刘斌劳兆利蒋峥单旭沂梁开董晖方康玲叶红卫张尉54发明名称基于决策树的精轧温控过程关键特征变量提取方法57摘要本发明涉及一种基于决策树的精轧温控过程关键特征变量提取方法。该方法首先对精轧过程数据进行预处理，将以带钢号为索引的过程数据转化为以精轧终轧温度为目标属性的决策属性。

2、向量，并对精轧终轧温度进行非线性离散化；然后用决策树方法，计算每个离散或连续值决策属性的信息增益率；最后根据信息增益率判定各个属性对精轧终轧温度影响的大小，并对决策属性向量按照增益率的值重新排序，再结合精轧工艺机理和模型精度要求，提取对精轧终轧温度有决定性影响的关键特征变量。该方法可以根据实际现场过程数据，判定对精轧终轧温度有决定性影响作用的关键变量，为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书10页附图2页CN102049424A1/2页21基于决策树的精轧温控过程关键特征变量提取方法，其特征在于包括。

3、如下步骤A对精轧过程数据进行预处理，将以带钢号为索引的过程数据转化为以精轧温度为目标属性的决策属性向量；B对精轧终轧温度进行非线性离散化；C计算以精轧终轧温度为目标属性的决策属性向量中每个离散或连续值决策属性的信息增益率，生成以精轧终轧温度为目标属性的决策树；D根据信息增益率判定各个离散或连续值决策属性对精轧终轧温度影响的大小，并按照决策树的结点顺序对决策属性向量重新排序；E提取影响精轧终轧温度的关键特征变量。2根据权利要求1所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤A对精轧过程数据进行预处理，包括去噪和数据整理。3根据权利要求2所述的基于决策树的精轧温控过程关键特。

4、征变量提取方法，其特征在于所述的去噪为首先根据工艺和设备条件给出精轧过程数据的各个字段值的上下限幅值，然后按照限幅值对相应字段的所有数据，用限幅滤波法滤掉所有的该字段数据超过限幅值的过程数据向量；所述数据整理是将精轧过程数据的所有索引变量去掉，再将一条带钢的一个分段号对应的所有数据整理为一个数据向量，然后以精轧终轧温度为目标属性，将数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧终轧温度为目标属性的决策属性向量。4根据权利要求1所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤B对精轧终轧温度进行非线性离散化，是以精轧终轧目标温度为中心将精轧终。

5、轧温度定义为对称分布的五个区域，五个区域分别对应目标属性的五个离散值。5根据权利要求1所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤C的具体步骤如下对未成为决策结点的所有决策属性进行如下操作，1对连续值决策属性进行离散分割；2对离散决策属性和离散分割后的连续值决策属性进行信息增益和信息增益率的计算；3对比所有决策属性的信息增益率值，取信息增益率最大的属性作为决策树当前的决策结点。4反复执行13步骤，直至所有决策属性被遍历，生成决策树。6根据权利要求5所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述对连续值决策属性进行离散分割的方法为找出连续值决策属性的。

6、取值范围A，B，在区间A，B内插入N个数值AII1，2，L，N，将A，B等分为N1个小区间；比较用AII1，2，L，N划分连续值决策属性A，B的信息增益率，找出具有最大信息增益率的分割点AI，用AI作为离散分割阈值，将连续值决策属性离散化。7根据权利要求6所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述用AI划分连续值决策属性，计算信息增益率的方法为A、设某连续值决策属性为A；B、设全部决策属性向量构成的集合为S，集合中的数据向量按照目标属性划分为五个权利要求书CN102049420ACN102049424A2/2页3类，S相对于这5个类的信息熵为其中，PII1，5是集合S中。

7、目标属性取为BEST，PB，NB，PW，NW中的某个离散值的概率；C、对于某个连续值决策属性A，AI把其取值范围A，B划分为2类，分别是S1A，AI和S2AI，B。此时，连续值决策属性A相对于集合S的信息增益为其中，ISV是集合SV相对五个分类的信息熵，计算方式与IS相同；D、集合S相对于连续值决策属性A的分类的信息熵为其中，PVV1，2是集合S中元素属于SV的概率；E、连续值决策属性A相对于集合S的信息增益率为8根据权利要求7所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述2步骤中进行信息增益和信息增益率的计算，计算方法与用AI划分连续值决策属性，计算信息增益率的方法相同。。

8、9根据权利要求1所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤D具体为根据C步骤决策树生成过程中计算的每个决策属性信息增益率的大小，判断该属性字段对应的特征变量对终轧温度影响的大小，并按照决策树中的结点排序对所有属性字段排序，生成新的以精轧终轧温度为目标属性的属性向量。10根据权利要求1所述的基于决策树的精轧温控过程关键特征变量提取方法，其特征在于所述步骤E提取影响精轧终轧温度的关键特征变量，根据温度预报精度要求，提取D步骤中获得的新的属性向量中的前面若干个属性作为精轧终轧温度的关键特征变量，并结合精轧实际工艺特点进行筛选和调整。权利要求书CN102049420ACN1。

9、02049424A1/10页4基于决策树的精轧温控过程关键特征变量提取方法技术领域0001本发明涉及带钢热连轧精轧终轧温度模型建立过程中的关键特征变量提取方法，特别涉及基于决策树的精轧温控过程关键特征变量提取方法。背景技术0002在热轧带钢生产中，精轧机组终轧温度的控制精度对最终产品的组织性能有直接影响。精轧带钢全长终轧温度控制一直是热轧生产中的重要研究课题，也是难点之一。第一，影响精轧终轧温度的过程变量众多；第二，精轧区内有效测温点少，只有粗轧出口和精轧出口的两个点测温条件最可靠；第三，原有的温度相关工艺模型精度有限，达不到实时控制的要求；第四，用来控制全长终轧温度的常用手段包括控制带钢运行。

10、加速度和机架间喷淋的水量和水压，它们对终轧温度的影响都有很大的滞后，很难用常规的无模型控制方法实现有效控制。0003综合分析以上问题，可以得出结论，建立可靠的终轧温度控制模型是对精轧终轧温度进行有效控制的前提。建立有效的温度模型，就可以克服精轧生产线缺少有效测温点的困难，也可以弥补原有工艺模型精度低不能用于实时控制的缺点，更可以进行有效的温度预报，从而解决水量和速度对温度的控制滞后问题。而建立可靠的终轧温度控制模型的前提，就是从众多的精轧过程变量中提取出对精轧终轧温度有决定性影响的若干关键特征变量。为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。发明内容0004基于以上原因，本专利提出一。

11、种基于决策树的精轧温控过程关键特征变量提取方法。这种方法能从精轧海量过程数据中，最终提取到精轧温控过程中的具有决定性作用的关键特征变量，为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。0005本发明的基于决策树的精轧温控过程关键特征变量提取方法，包括如下步骤0006A对精轧过程数据进行预处理，将以带钢号为索引的过程数据转化为以精轧温度为目标属性的决策属性向量；0007B对精轧终轧温度进行非线性离散化；0008C计算以精轧终轧温度为目标属性的决策属性向量中每个离散或连续值决策属性的信息增益率，生成以精轧终轧温度为目标属性的决策树；0009D根据信息增益率判定各个离散或连续值决策属性对精轧终。

12、轧温度影响的大小，并按照决策树的结点顺序对决策属性向量重新排序；0010E提取影响精轧终轧温度的关键特征变量。0011所述步骤A对精轧过程数据进行预处理，包括去噪和数据整理。0012从现场采集的海量过程数据，是按带钢号索引并由几百个字段数据组成。首先，数据采集过程中必然有一些偶然因素，所以要把超限幅噪声数据滤掉，避免它们给信息熵和信息增益率的计算带来不利影响；其次，过程数据的索引排列形式也不符合对终轧温度进说明书CN102049420ACN102049424A2/10页5行决策的物理意义要求，因此要对数据进行去噪和整理。0013所述的去噪为首先根据工艺和设备条件给出精轧过程数据的各个字段值的上。

13、下限幅值，然后按照限幅值对相应字段的所有数据，用限幅滤波法滤掉所有的该字段数据超过限幅值的过程数据向量。在给出精轧过程数据的各个字段值的上下限幅值时需要按照精轧工艺和设备情况进行确定。0014所述的数据整理是将精轧过程数据的所有索引变量去掉，再将一条带钢的一个分段号对应的所有数据整理为一个数据向量，然后以精轧终轧温度为目标属性，将数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧终轧温度为目标属性的决策属性向量。0015由带钢号索引的精轧过程数据是按照带钢号、带钢分段号和机架号分别采集的。具体的过程数据分类形式为0016数据系列1带钢号，字段11，字段12，字段13。

14、，0017数据系列2带钢号，字段21，字段22，字段23，0018数据系列3带钢号，分段号I，字段3I1，字段3I2，0019数据系列4带钢号，分段号I，机架号J，字段4IJ1，字段4IJ2，0020其中，I1，2，3，是带钢分段的索引号；0021J1，2，7，是精轧机架的索引号；0022举例说明字段下标含义“字段12”表示一条带钢的第1个数据系列的第2个字段，“字段22”表示同一带钢的第2个数据系列的第2个字段，“字段3I2”表示同一带钢的第3个数据系列的对应第I个带钢分段的第2个字段，“字段4IJ2”表示同一带钢的第4个数据系列的对应第I个带钢分段的、第J个机架的第2个字段。0023这种过。

15、程数据组合形式，不符合温控过程建模的物理意义，因此需要重新整理，去掉所有索引变量，包括带钢号、段号、和机架号，将一条带钢的某一分段号对应的所有数据整理为一个数据向量，以终轧温度为目标属性，数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧温度为目标属性的决策属性向量。0024整理之后，对应某一条带钢的第I个分段的属性数据向量形式为00250026002700280029其中，目标属性是该带钢的第I个分段的精轧终轧温度。0030大括号内的所有字段构成与目标属性相对应的属性向量，各字段对应为各个决策属性。0031通过以上方法，可以把现场采集的过程数据向量，转化为用于构造。

16、决策树的决策说明书CN102049420ACN102049424A3/10页6属性向量。0032所述步骤B对精轧终轧温度进行非线性离散化，是以精轧终轧目标温度为中心将精轧终轧温度定义为对称分布的五个区域，五个区域对应目标属性的五个离散值。0033由于决策树生成过程中，需要对目标属性值离散分类，才能进行信息熵和信息增益率的计算，因此需要对精轧终轧温度进行非线性离散化。0034根据精轧过程的工艺特点和实际过程数据中终轧温度的实际分布情况，定义以精轧终轧目标温度为中心的对称分布的五个区域，从而实现作为目标属性终轧温度的非线性离散化。具体离散化方式可见图1。0035其中，T0是终轧目标温度，A是温度变。

17、化量，其大小根据精轧工艺具体确定。以目标温度T0为中心，对称分布的五个区域被划分为0036表1目标属性的非线性离散化00370038BEST，PB，NB，PW，NW也分别对应目标属性的五个离散值。0039所述步骤C的具体步骤如下对未成为决策结点的所有决策属性进行如下操作，00401对连续值决策属性进行离散分割；00412对离散属性和离散分割后的连续值决策属性进行信息增益和信息增益率的计算；00423对比所有决策属性的信息增益率值，取信息增益率最大的属性作为决策树当前的决策结点。00434反复执行13步骤，直至所有决策属性被遍历，生成决策树。0044所述对连续值决策属性进行离散分割的方法为004。

18、5找出连续值决策属性的取值范围A，B，在区间A，B内插入N个数值AII1，2，L，N，将A，B等分为N1个小区间；0046比较用AII1，2，L，N划分连续值决策属性A，B的信息增益率，找出具有最大信息增益率的分割点AI，用AI作为离散分割阈值，将连续值决策属性离散化。0047所述用AI划分连续值决策属性，计算信息增益率的方法为0048A、设某连续值决策属性为A；0049B、设全部决策属性数据向量构成的集合为S，集合中的数据向量按照目标属性划分为五个类，五个类为BEST，PB，NB，PW，NW，S相对于这5个类的信息熵为00500051其中，PII1，5是集合S中目标属性取为BEST，PB，N。

19、B，PW，NW中的各说明书CN102049420ACN102049424A4/10页7个离散值的概率；0052C、对于某个连续值决策属性A，AI把其取值范围A，B划分为2类，分别是S1A，AI和S2AI，B。此时，连续值决策属性A相对于集合S的信息增益为00530054其中，ISV是集合SV相对五个分类的信息熵，计算方式与IS相同；0055D、集合S相对于连续值决策属性A的分类的信息熵为00560057其中，PVV1，2是集合S中元素属于SV的概率；0058E、连续值决策属性A相对于集合S的信息增益率为00590060所述2步骤中进行信息增益和信息增益率的计算，计算方法与用AI划分连续值决策属。

20、性，计算信息增益率的方法相同。0061所述步骤D具体为根据C步骤决策树生成过程中计算的每个决策属性信息增益率的大小，判断该属性字段对应的特征变量对终轧温度影响的大小，并按照决策树中的结点排序对所有属性字段排序，生成新的以精轧终轧温度为目标属性的属性向量。从决策树上层结点开始，从上至下选择结点。0062如图2，对应结点1的决策属性就索引为字段1，对应结点2的决策属性就索引为字段2，依此类推。0063本步骤中将步骤A中得到的属性向量重新排序，如果有决策属性在不同结点重复出现的情况，则只在第一次出现的时候提取该属性，后续的都不予提取。按照以上操作，可以得到与步骤A中属性向量的属性的种类和个数相同，但。

21、排列顺序不同的新的属性向量00640065所述步骤E提取影响精轧终轧温度的关键特征变量，根据温度预报精度要求，提取D步骤中获得的新的属性向量中的前面若干个属性作为精轧终轧温度的关键特征变量，并结合精轧实际工艺特点进行筛选和调整。0066根据海量精轧过程数据，用衡量各个属性变量信息熵和信息增益率的方法，建立决策树，并按照决策树中决策结点的排序，判定各个属性变量的对目标变量影响的大小，这一方法是从海量数据中提取信息。从数据中提取的信息有两个方面的特点第一，能够在很大程度上验证生产工艺的本质；第二，决策树反应的是目标属性和决策属性之间的相关性大小，但不是因果关系。第三，关系反应现场的具体的现场工况。。

22、提取的关键特征变量的目标是搜索目标变量的因变量，另外实际现场工况不可能是一成不变的，所以在实际关键特征变量提取的过程中，不能完全依赖从数据中提取的信息。0067从前向后，从属性向量形式见公式5中逐一提取属性字段，并根据实际精轧工艺予以确认，确认有效后方能作为关键特征变量。所提取属性字段的数量，也即关键特征变说明书CN102049420ACN102049424A5/10页8量的个数，主要由控制模型的精度决定。实际应用过程中，并不是关键变量越多模型精度越高，一般取310个关键变量为宜。可以在控制模型中的添加偏差项，来弥补忽略其它因素带来的影响。0068本专利的基于决策树的精轧温控过程关键特征变量提。

23、取方法。对精轧海量过程数据进行去噪和整理，通过计算过程数据所包含的信息熵，比较各个属性即过程变量的信息增益率，确定对终轧温度有决定性影响的关键变量。也就是，从精轧海量过程数据中，根据各个变量提出有效知识信息，这些信息可以反映精轧的工艺本质，就是关键特征变量与目标变量终轧温度之间的关系；也可以反映实时过程中存在的特殊现象和问题。为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。附图说明0069图1是本发明的目标属性非线性离散化图；0070图2是决策树结点排序示意图；0071图3是本发明实施例或的部分决策树图。具体实施方式0072以下列举三条带钢的四个系列数据中的少数字段数据。它们的带钢号为分。

24、别为9232000400、9232000500和9232000600。0073已知三条带钢的终轧目标温度均为880，它们的各段实际终轧温度见表2。0074三条钢带的精轧过程数据如表36。0075表2三条带钢的三段终轧温度00760077表3三条带钢的数据系列1说明书CN102049420ACN102049424A6/10页900780079表4三条带钢的数据系列200800081表5三条带钢的数据系列300820083表6三条带钢的数据系列40084说明书CN102049420ACN102049424A7/10页100085说明书CN102049420ACN102049424A8/10页110。

25、0860087首先进行A步骤对上述海量精轧过程数据进行预处理，包括去噪和数据整理。0088遍历四个系列的数据字段，如果系列1或2中有离散属性值或连续属性值超出设置范围或工艺实际，就需要将超限值所属的带钢数据全部除去；如果系列3或4中有离散属性值或连续属性值超限，则需将超限值所属的带钢分段数据全部除去。在去噪完成后，将精轧过程数据的所有索引变量去掉，再将一条带钢的一个分段号对应的所有数据整理为一个数据向量，然后以精轧终轧温度为目标属性，将数据向量中的各个数据字段对应作为向量的各个决策属性，从而将过程数据转化为以精轧终轧温度为目标属性的决策属性向量。表7为带钢9232000400第二分段号的决策属。

26、性向量，由于宽度有限，所以分四行给出了所有决策属性。另外，表7给出了对应于带钢9232000400的第二个分段的决策属性的数据值，以及各属性在过程数据中的字段编号。0089表7带钢9232000400的第二个分段号的决策属性向量说明书CN102049420ACN102049424A9/10页1200900091步骤B，对精轧终轧温度进行非线性离散化。已知T0880，设A5，按照表1中的判定方法，可得三条带钢的各个分段的终轧温度离散值，见表2中的最后一列。0092步骤C，计算每个精轧数据向量中离散或连续值决策属性的信息增益率，并生成以精轧终轧温度为目标属性的决策树。建立决策树需要较多的数据，因此。

27、选用实际精轧过程中的499条带钢数据上述3条带钢的数据也包含在内，同时为简化决策树，仅采用表36中相同的字段进行计算。00931对连续值决策属性进行离散分割。具体方法是找出连续值决策属性的取值范围A，B，在区间A，B内插入N个数值AII1，2，L，N，将A，B等分为N1个小区间；比较用AII1，2，L，N划分A，B的信息增益率，找出具有最大信息增益率的分割点AI，用AI作为离散分割阈值，将连续值变量离散化。0094用AI划分连续值决策属性，计算信息增益率的方法为0095A、设某连续值决策属性为A；0096B、设全部决策属性数据向量构成的集合为S，集合中的数据向量按照目标属性终轧温度划分为五个类。

28、BEST，PB，NB，PW，NW，S相对于这5个分类的信息熵为00970098其中，PII1，5是集合S中目标属性取为BEST，PB，NB，PW，NW中的各个离散值的概率。0099C、对于某个连续值决策属性A，AI把其取值范围A，B划分为2类，分别是S1A，AI和S2AI，B。此时，属性A相对于集合S的信息增益为说明书CN102049420ACN102049424A10/10页1301000101其中，ISV是集合SV相对五个分类的信息熵，计算方式与IS相同。0102D、集合S相对于属性A的分类的信息熵为01030104其中，PVV1，2是集合S中元素属于SV的概率。0105E、属性A相对于集。

29、合S的信息增益率为01060107计算所有AII1，2，L，N划分A，B的信息增益率，找出具有最大信息增益率的分割点AI，用AI作为离散分割阈值，将连续值变量离散化。01082对所有候选的离散属性和离散分割后的连续属性进行信息增益和信息增益率的计算。所使用计算方法与步骤I中用AI划分连续值决策属性时，计算属性A的信息增益率的步骤完全相同。01093最后对比各候选属性的信息增益率值，取增益率最大的属性作为决策树当前的决策结点。0110反复执行以上的步骤13，直至所有属性被遍历，即可生成决策树，图2是所得决策树的开始部分。图3是根据精轧过程实际数据获得的部分决策树。0111步骤D，根据信息增益率判。

30、定各个属性与目标属性的相关程度，并对属性向量按照决策树中的结点顺序重新排序。0112在图3中，按顺序从上至下，从左到右，遍历所有结点和决策属性。按照结点的排列顺序，可将表7中的决策属性向量重新排序，得到新的决策属性向量。按照图3只能得到这个决策属性的前半部分0113RM_THICK，RM_TEMP，FORCE1，FORCE4，MODE_SCALE，0114步骤E，根据温度预报精度要求并结合精轧工艺特点，提取影响精轧终轧温度的关键特征变量。0115在新的决策属性向量中，从前向后，分析整个决策属性向量。首先，RM_THICK粗轧厚度和RM_TEMP粗轧温度这两个决策属性对终轧温度影响最大，这与精轧。

31、工艺机理是非常一致的。因此这两个变量自然被选作关键特征变量。其次，有两个决策属性，FORCE1机架1的轧制力和FORCE4机架4的轧制力，这两个属性变量与终轧温度具有很强的相关性，但因果关系不明确，所以暂时不作为关键特征变量。另外一个，还有一个MODE_SCALE除磷模式对终轧温度也有十分明确的影响，因此也可以被选作关键特征变量。要说明的是MODE_SCALE是一个离散状态变量，它不能直接作为模型参数，但对模型中的换热相关参数有决定性影响。0116综上，通过本例的实施，可得到关键特征变量包括RM_THICK，RM_TEMP和MODE_SCALE。在实际应用中，可以得到更多的关键特征变量。说明书CN102049420ACN102049424A1/2页14图1图2说明书附图CN102049420ACN102049424A2/2页15图3说明书附图CN102049420A。

展开阅读全文