基于决策树的精轧温控过程关键特征变量提取方法 技术领域 本发明涉及带钢热连轧精轧终轧温度模型建立过程中的关键特征变量提取方法, 特别涉及基于决策树的精轧温控过程关键特征变量提取方法。
背景技术 在热轧带钢生产中, 精轧机组终轧温度的控制精度对最终产品的组织性能有直接 影响。精轧带钢全长终轧温度控制一直是热轧生产中的重要研究课题, 也是难点之一。第 一, 影响精轧终轧温度的过程变量众多 ; 第二, 精轧区内有效测温点少, 只有粗轧出口和精 轧出口的两个点测温条件最可靠 ; 第三, 原有的温度相关工艺模型精度有限, 达不到实时控 制的要求 ; 第四, 用来控制全长终轧温度的常用手段包括控制带钢运行加速度和机架间喷 淋的水量和水压, 它们对终轧温度的影响都有很大的滞后, 很难用常规的无模型控制方法 实现有效控制。
综合分析以上问题, 可以得出结论, 建立可靠的终轧温度控制模型是对精轧终轧 温度进行有效控制的前提。建立有效的温度模型, 就可以克服精轧生产线缺少有效测温点 的困难, 也可以弥补原有工艺模型精度低不能用于实时控制的缺点, 更可以进行有效的温 度预报, 从而解决水量和速度对温度的控制滞后问题。而建立可靠的终轧温度控制模型的 前提, 就是从众多的精轧过程变量中提取出对精轧终轧温度有决定性影响的若干关键特征 变量。为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。
发明内容
基于以上原因, 本专利提出一种基于决策树的精轧温控过程关键特征变量提取方 法。这种方法能从精轧海量过程数据中, 最终提取到精轧温控过程中的具有决定性作用的 关键特征变量, 为建立终轧温度预报模型和修正精轧温度工艺模型奠定基础。
本发明的基于决策树的精轧温控过程关键特征变量提取方法, 包括如下步骤 :
a) 对精轧过程数据进行预处理, 将以带钢号为索引的过程数据转化为以精轧温度 为目标属性的决策属性向量 ;
b) 对精轧终轧温度进行非线性离散化 ;
c) 计算以精轧终轧温度为目标属性的决策属性向量中每个离散或连续值决策属 性的信息增益率, 生成以精轧终轧温度为目标属性的决策树 ;
d) 根据信息增益率判定各个离散或连续值决策属性对精轧终轧温度影响的大小, 并按照决策树的结点顺序对决策属性向量重新排序 ;
e) 提取影响精轧终轧温度的关键特征变量。
所述步骤 a) 对精轧过程数据进行预处理, 包括去噪和数据整理。
从现场采集的海量过程数据, 是按带钢号索引并由几百个字段数据组成。 首先, 数 据采集过程中必然有一些偶然因素, 所以要把超限幅噪声数据滤掉, 避免它们给信息熵和 信息增益率的计算带来不利影响 ; 其次, 过程数据的索引排列形式也不符合对终轧温度进行决策的物理意义要求, 因此要对数据进行去噪和整理。
所述的去噪为 : 首先根据工艺和设备条件给出精轧过程数据的各个字段值的上下 限幅值, 然后按照限幅值对相应字段的所有数据, 用限幅滤波法滤掉所有的该字段数据超 过限幅值的过程数据向量。 在给出精轧过程数据的各个字段值的上下限幅值时需要按照精 轧工艺和设备情况进行确定。
所述的数据整理是将精轧过程数据的所有索引变量去掉, 再将一条带钢的一个分 段号对应的所有数据整理为一个数据向量, 然后以精轧终轧温度为目标属性, 将数据向量 中的各个数据字段对应作为向量的各个决策属性, 从而将过程数据转化为以精轧终轧温度 为目标属性的决策属性向量。
由带钢号索引的精轧过程数据是按照带钢号、 带钢分段号和机架号分别采集的。 具体的过程数据分类形式为 :
数据系列 1 : { 带钢号, 字段 11, 字段 12, 字段 13, ......}
数据系列 2 : { 带钢号, 字段 21, 字段 22, 字段 23, ......}
数据系列 3 : { 带钢号, 分段号 i, 字段 3i1, 字段 3i2, ......}
数据系列 4 : { 带钢号, 分段号 i, 机架号 j, 字段 4ij1, 字段 4ij2, ......}
其中, i ∈ {1, 2, 3}, 是带钢分段的索引号 ;
j ∈ {1, 2, ..., 7}, 是精轧机架的索引号 ;
举例说明字段下标含义 : “字段 12” 表示一条带钢的第 1 个数据系列的第 2 个字段, “字段 22” 表示同一带钢的第 2 个数据系列的第 2 个字段, “字段 3i2” 表示同一带钢的第 3 个 数据系列的对应第 i 个带钢分段的第 2 个字段, “字段 4ij2” 表示同一带钢的第 4 个数据系列 的对应第 i 个带钢分段的、 第 j 个机架的第 2 个字段。
这种过程数据组合形式, 不符合温控过程建模的物理意义, 因此需要重新整理, 去 掉所有索引变量, 包括带钢号、 段号、 和机架号, 将一条带钢的某一分段号对应的所有数据 整理为一个数据向量, 以终轧温度为目标属性, 数据向量中的各个数据字段对应作为向量 的各个决策属性, 从而将过程数据转化为以精轧温度为目标属性的决策属性向量。
整理之后, 对应某一条带钢的第 i 个分段的属性数据向量形式为 :
其中, 目标属性是该带钢的第 i 个分段的精轧终轧温度。 大括号内的所有字段构成与目标属性相对应的属性向量, 各字段对应为各个决策 通过以上方法, 可以把现场采集的过程数据向量, 转化为用于构造决策树的决策5属性。
102049420 A CN 102049424说明书3/10 页属性向量。
所述步骤 b) 对精轧终轧温度进行非线性离散化, 是以精轧终轧目标温度为中心 将精轧终轧温度定义为对称分布的五个区域, 五个区域对应目标属性的五个离散值。
由于决策树生成过程中, 需要对目标属性值离散分类, 才能进行信息熵和信息增 益率的计算, 因此需要对精轧终轧温度进行非线性离散化。
根据精轧过程的工艺特点和实际过程数据中终轧温度的实际分布情况, 定义以精 轧终轧目标温度为中心的对称分布的五个区域, 从而实现作为目标属性终轧温度的非线性 离散化。具体离散化方式可见图 1。
其中, T0 是终轧目标温度, a 是温度变化量, 其大小根据精轧工艺具体确定。以目 标温度 T0 为中心, 对称分布的五个区域被划分为 :
表 1 目标属性的非线性离散化
Best, PB, NB, PW, NW 也分别对应目标属性的五个离散值。 所述步骤 c) 的具体步骤如下 : 对未成为决策结点的所有决策属性进行如下操作, 1) 对连续值决策属性进行离散分割 ; 2) 对离散属性和离散分割后的连续值决策属性进行信息增益和信息增益率的计算; 3) 对比所有决策属性的信息增益率值, 取信息增益率最大的属性作为决策树当前 的决策结点。
4) 反复执行 1)-3) 步骤, 直至所有决策属性被遍历, 生成决策树。
所述对连续值决策属性进行离散分割的方法为 :
找出连续值决策属性的取值范围 [a, b], 在区间 [a, b] 内插入 n 个数值 ai(i = 1, 2, L, n), 将 [a, b] 等分为 n+1 个小区间 ;
比较用 ai(i = 1, 2, L, n) 划分连续值决策属性 [a, b] 的信息增益率, 找出具有最 大信息增益率的分割点 ai, 用 ai 作为离散分割阈值, 将连续值决策属性离散化。
所述用 ai 划分连续值决策属性, 计算信息增益率的方法为 :
A、 设某连续值决策属性为 A ;
B、 设全部决策属性数据向量构成的集合为 S, 集合中的数据向量按照目标属性划 分为五个类, 五个类为 Best, PB, NB, PW, NW, S 相对于这 5 个类的信息熵为 :
其中, pi(i = 1, ..., 5) 是集合 S 中目标属性取为 {Best, PB, NB, PW, NW} 中的各个离散值的概率 ;
C、 对于某个连续值决策属性 A, ai 把其取值范围 [a, b] 划分为 2 类, 分别是 : S1(a, ai]) 和 S2([ai, b])。此时, 连续值决策属性 A 相对于集合 S 的信息增益为 :
其中, I(Sv) 是集合 Sv 相对五个分类的信息熵, 计算方式与 I(S) 相同 ; D、 集合 S 相对于连续值决策属性 A 的分类的信息熵为 :其中, pv(v = 1, 2) 是集合 S 中元素属于 Sv 的概率 ; E、 连续值决策属性 A 相对于集合 S 的信息增益率为 :所述 2) 步骤中进行信息增益和信息增益率的计算, 计算方法与用 ai 划分连续值 决策属性, 计算信息增益率的方法相同。
所述步骤 d) 具体为 : 根据 c 步骤决策树生成过程中计算的每个决策属性信息增益 率的大小, 判断该属性字段对应的特征变量对终轧温度影响的大小, 并按照决策树中的结 点排序对所有属性字段排序, 生成新的以精轧终轧温度为目标属性的属性向量。从决策树 上层结点开始, 从上至下选择结点。
如图 2, 对应结点 1 的决策属性就索引为字段 1, 对应结点 2 的决策属性就索引为 字段 2, 依此类推。
本步骤中将步骤 a) 中得到的属性向量重新排序, 如果有决策属性在不同结点重 复出现的情况, 则只在第一次出现的时候提取该属性, 后续的都不予提取。按照以上操作, 可以得到与步骤 a) 中属性向量的属性的种类和个数相同, 但排列顺序不同的新的属性向 量:
所述步骤 e) 提取影响精轧终轧温度的关键特征变量, 根据温度预报精度要求, 提 取 d) 步骤中获得的新的属性向量中的前面若干个属性作为精轧终轧温度的关键特征变 量, 并结合精轧实际工艺特点进行筛选和调整。
根据海量精轧过程数据, 用衡量各个属性变量信息熵和信息增益率的方法, 建立 决策树, 并按照决策树中决策结点的排序, 判定各个属性变量的对目标变量影响的大小, 这 一方法是从海量数据中提取信息。 从数据中提取的信息有两个方面的特点 : 第一, 能够在很 大程度上验证生产工艺的本质 ; 第二, 决策树反应的是目标属性和决策属性之间的相关性 大小, 但不是因果关系。第三, 关系反应现场的具体的现场工况。提取的关键特征变量的目 标是搜索目标变量的因变量, 另外实际现场工况不可能是一成不变的, 所以在实际关键特 征变量提取的过程中, 不能完全依赖从数据中提取的信息。
从前向后, 从属性向量 ( 形式见公式 5) 中逐一提取属性字段, 并根据实际精轧工 艺予以确认, 确认有效后方能作为关键特征变量。 所提取属性字段的数量, 也即关键特征变
量的个数, 主要由控制模型的精度决定。 实际应用过程中, 并不是关键变量越多模型精度越 高, 一般取 3 ~ 10 个关键变量为宜。可以在控制模型中的添加偏差项, 来弥补忽略其它因 素带来的影响。
本专利的基于决策树的精轧温控过程关键特征变量提取方法。 对精轧海量过程数 据进行去噪和整理, 通过计算过程数据所包含的信息熵, 比较各个属性即过程变量的信息 增益率, 确定对终轧温度有决定性影响的关键变量。也就是, 从精轧海量过程数据中, 根据 各个变量提出有效知识信息, 这些信息可以反映精轧的工艺本质, 就是关键特征变量与目 标变量终轧温度之间的关系 ; 也可以反映实时过程中存在的特殊现象和问题。为建立终轧 温度预报模型和修正精轧温度工艺模型奠定基础。 附图说明
图 1 是本发明的目标属性非线性离散化图 ;
图 2 是决策树结点排序示意图 ;
图 3 是本发明实施例或的部分决策树图。 具体实施方式 以下列举三条带钢的四个系列数据中的少数字段数据。它们的带钢号为分别为 9232000400、 9232000500 和 9232000600。
已知三条带钢的终轧目标温度均为 880℃, 它们的各段实际终轧温度见表 2。
三条钢带的精轧过程数据如表 3 ~ 6。
表 2 三条带钢的三段终轧温度
表 3 三条带钢的数据系列 1
表 4 三条带钢的数据系列 2
表 5 三条带钢的数据系列 3
表 6 三条带钢的数据系列 4
首先进行 a) 步骤对上述海量精轧过程数据进行预处理, 包括去噪和数据整理。
遍历四个系列的数据字段, 如果系列 1 或 2 中有离散属性值或连续属性值超出设 置范围或工艺实际, 就需要将超限值所属的带钢数据全部除去 ; 如果系列 3 或 4 中有离散属 性值或连续属性值超限, 则需将超限值所属的带钢分段数据全部除去。 在去噪完成后, 将精 轧过程数据的所有索引变量去掉, 再将一条带钢的一个分段号对应的所有数据整理为一个 数据向量, 然后以精轧终轧温度为目标属性, 将数据向量中的各个数据字段对应作为向量 的各个决策属性, 从而将过程数据转化为以精轧终轧温度为目标属性的决策属性向量。 表7 为带钢 9232000400 第二分段号的决策属性向量, 由于宽度有限, 所以分四行给出了所有决 策属性。另外, 表 7 给出了对应于带钢 9232000400 的第二个分段的决策属性的数据值, 以 及各属性在过程数据中的字段编号。
表 7 带钢 9232000400 的第二个分段号的决策属性向量
步骤 b), 对精轧终轧温度进行非线性离散化。已知 T0 = 880℃, 设 a = 5, 按照表 1 中的判定方法, 可得三条带钢的各个分段的终轧温度离散值, 见表 2 中的最后一列。
步骤 c), 计算每个精轧数据向量中离散或连续值决策属性的信息增益率, 并生成 以精轧终轧温度为目标属性的决策树。建立决策树需要较多的数据, 因此选用实际精轧过 程中的 499 条带钢数据 ( 上述 3 条带钢的数据也包含在内 ), 同时为简化决策树, 仅采用表 3 ~ 6 中相同的字段进行计算。
1) 对连续值决策属性进行离散分割。具体方法是 : 找出连续值决策属性的取值范 围 [a, b], 在区间 [a, b] 内插入 n 个数值 ai(i = 1, 2, L, n), 将 [a, b] 等分为 n+1 个小区间 ; 比较用 ai(i = 1, 2, L, n) 划分 [a, b] 的信息增益率, 找出具有最大信息增益率的分割点 ai, 用 ai 作为离散分割阈值, 将连续值变量离散化。
用 ai 划分连续值决策属性, 计算信息增益率的方法为 :
A、 设某连续值决策属性为 A ;
B、 设全部决策属性数据向量构成的集合为 S, 集合中的数据向量按照目标属性 ( 终轧温度 ) 划分为五个类 (Best, PB, NB, PW, NW), S 相对于这 5 个分类的信息熵为 :
其中, pi(i = 1, ..., 5) 是集合 S 中目标属性取为 {Best, PB, NB, PW, NW} 中的各 个离散值的概率。
C、 对于某个连续值决策属性 A, ai 把其取值范围 [a, b] 划分为 2 类, 分别是 : S1([a, ai]) 和 S2([ai, b])。此时, 属性 A 相对于集合 S 的信息增益为 :
其中, I(Sv) 是集合 Sv 相对五个分类的信息熵, 计算方式与 I(S) 相同。 D、 集合 S 相对于属性 A 的分类的信息熵为 :其中, pv(v = 1, 2) 是集合 S 中元素属于 Sv 的概率。 E、 属性 A 相对于集合 S 的信息增益率为 :计算所有 ai(i = 1, 2, L, n) 划分 [a, b] 的信息增益率, 找出具有最大信息增益率 的分割点 ai, 用 ai 作为离散分割阈值, 将连续值变量离散化。
2) 对所有候选的离散属性和离散分割后的连续属性进行信息增益和信息增益率 的计算。所使用计算方法与步骤 i 中用 ai 划分连续值决策属性时, 计算属性 A 的信息增益 率的步骤完全相同。
3) 最后对比各候选属性的信息增益率值, 取增益率最大的属性作为决策树当前的 决策结点。
反复执行以上的步骤 1)-3), 直至所有属性被遍历, 即可生成决策树, 图 2 是所得 决策树的开始部分。图 3 是根据精轧过程实际数据获得的部分决策树。
步骤 d), 根据信息增益率判定各个属性与目标属性的相关程度, 并对属性向量按 照决策树中的结点顺序重新排序。
在图 3 中, 按顺序从上至下, 从左到右, 遍历所有结点和决策属性。按照结点的排 列顺序, 可将表 7 中的决策属性向量重新排序, 得到新的决策属性向量。按照图 3 只能得到 这个决策属性的前半部分 :
{RM_THICK, RM_TEMP, FORCE1, FORCE4, MODE_SCALE, ......}
步骤 e), 根据温度预报精度要求并结合精轧工艺特点, 提取影响精轧终轧温度的 关键特征变量。
在新的决策属性向量中, 从前向后, 分析整个决策属性向量。首先, RM_Thick( 粗 轧厚度 ) 和 RM_Temp( 粗轧温度 ) 这两个决策属性对终轧温度影响最大, 这与精轧工艺机 理是非常一致的。因此这两个变量自然被选作关键特征变量。其次, 有两个决策属性, Force1( 机架 1 的轧制力 ) 和 Force4( 机架 4 的轧制力 ), 这两个属性变量与终轧温度具 有很强的相关性, 但因果关系不明确, 所以暂时不作为关键特征变量。另外一个, 还有一个 Mode_Scale( 除磷模式 ) 对终轧温度也有十分明确的影响, 因此也可以被选作关键特征变
量。要说明的是 Mode_Scale 是一个离散状态变量, 它不能直接作为模型参数, 但对模型中 的换热相关参数有决定性影响。
综上, 通过本例的实施, 可得到关键特征变量包括 : RM_Thick, RM_Temp 和 Mode_ Scale。在实际应用中, 可以得到更多的关键特征变量。