一种用于实现机车节能操纵的双向LSTM模型的训练方法.pdf

摘要
申请专利号：	CN201710039035.X	申请日：	2017.01.18
公开号：	CN106844949A	公开日：	2017.06.13
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/50申请日:20170118\|\|\|公开
IPC分类号：	G06F17/50; G06N3/08	主分类号：	G06F17/50
申请人：	清华大学
发明人：	赵曦滨; 黄思光; 黄晋; 夏雅楠; 顾明; 孙家广
地址：	100084 北京市海淀区清华园
优先权：
专利代理机构：	北京律谱知识产权代理事务所(普通合伙) 11457	代理人：	罗建书
PDF下载：	PDF下载

内容摘要

本发明提供了一种用于实现机车节能操作的双向LSTM模型的训练方法。其步骤为:采集司机历史驾驶数据与机车运行监控日志，作为初始训练数据；对初始训练数据进行预处理，得到训练数据集和测试数据集；如果是初次训练，则直接初始化模型的各个参数，否则在上一次双向LSTM模型的基础上继续训练双向LSTM神经网络模型，并保存训练好的模型；应用训练过的模型对测试数据集做仿真测试，得到新的初始训练数据；将新的初始训练数据和上一训练阶段的训练数据一起作为初始训练数据。不断进行该步骤至模型收敛。本发明提出的特征设计方法、模型设计方法以及迭代训练方法能够充分利用数据信息，提升模型的档位预测能力。

权利要求书

1.一种用于实现机车节能操纵的双向LSTM模型的训练方法，包括下述步骤包括下述步
骤：
步骤101、采集司机历史驾驶数据与机车运行监控日志，作为初始训练数据；
步骤102、对初始训练数据进行预处理，得到训练数据集和测试数据集；
步骤103、如果是初次训练，则直接初始化模型的各个参数，否则在上一次双向LSTM模
型的基础上继续训练双向LSTM神经网络模型，并保存训练好的模型；
步骤104、应用训练过的模型对测试数据集做仿真测试，得到新的初始训练数据；
步骤105、将新的初始训练数据和上一训练阶段的训练数据一起作为初始训练数据；
步骤106、重复进行步骤1-步骤5，不断迭代至模型收敛。
2.根据权利要求1所述的用于实现机车节能操纵的双向LSTM模型的训练方法，其特征
在于，所述的初始训练数据进行预处理阶段分为两个阶段：
(1)在数据满足安全性、准点性的基础上，用如下公式筛选出N条J_i较小的数据：
$<mrow>
<msub>
<mi>J</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>E</mi>
<mi>i</mi>
</msub>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
</mfrac>
</mrow>$
其中：J_i是第i个驾驶数据的单位车重油耗，E_i是第i个驾驶数据的总油耗，W_i是第i个驾
驶数据的总车重；
(2)在抽取的数据基础上，进一步抽取特征数据，形成训练数据集和测试数据集；特征
数据分为前向特征数据和后向特征数据，前向特征数据指的是机车所处状态之前的历史行
驶信息和道路信息，后向特征指机车行驶方向的道路信息。
3.根据权利要求2所述的用于实现机车节能操纵的双向LSTM模型的训练方法，其特征
在于，所述的双向LSTM模型，其输入层中，特征数据分别按照时间点不同和地理位置不同进
行输入，按时间点不同所对应的输入数据是前向特征数据，按地理位置不同输入的数据是
后向特征数据。
4.根据权利要求2所述的用于实现机车节能操纵的双向LSTM模型的训练方法，其特征
在于，
前向特征包括17个特征，分别为车重、车长、重车辆数、轻车辆数、当前坡段平均坡度、
当前坡段总长度、当前坡段平均速度、当前位置的限速值、当前限速值的剩余长度、当前点
处于的两个车站间的平均速度、当前位置距离下一车站距离、当前位置到达下一车站的剩
余时间、当前档位、当前速度、当前位置点的坡度、当前速度与限速值的差值；
后向特征包括8个特征，分别为当前坡段平均坡度、当前坡段总长度、当前坡段剩余长
度、当前坡段平均速度、当前位置的限速值、当前位置距离下一车站的距离、当前位置点的
坡度、当前机车的速度与抽取特征位置点限速的差值。
5.根据权利要求1所述的用于实现机车节能操纵的双向LSTM模型的训练方法，其特征
在于，所述的不断迭代过程也可以设置迭代固定的次数之后终止迭代，终止迭代后保存当
前训练的模型作为最终模型。
6.根据权利要求1所述的用于实现机车节能操纵的双向LSTM模型的训练方法，其特征
在于，原始训练数据集的采集可以从铁路机车中的列车运行控制记录装置获得，具体包括
机车属性，线路属性以及机车行驶日志。

说明书

一种用于实现机车节能操纵的双向LSTM模型的训练方法

技术领域

本发明涉及铁路机车节能操纵领域，尤其涉及一种用于实现机车节能操纵的双向
LSTM模型训练方法。

背景技术

机车运行控制系统是一个典型的多目标、多约束、非线性的复杂控制系统，需要保
证可靠性、安全性、准时性以及节油性，所以机车节能操纵问题是一个非线性有约束的多目
标动态优化问题。而该类问题由于在解决过程中需要考虑众多复杂的约束条件，整个优化
的搜索空间非常大，是一个短时间内较难搜索到最优解的问题，对其研究的现实意义重大。

现有的机车节能操纵运行的优化方法可以分为数值搜索方法、解析求解方法和启
发式策略设计方法。其中数值搜索指通过数值搜索算法对操纵序列进行寻优搜索从而得到
优化的操纵序列，常见的算法有遗传算法、群搜索算法、动态规划等，但是这种方式耗时长，
且很难收敛到最优结果；解析求解方法指基于领域知识对操纵控制过程中不同状况下的关
键转换点根据解析公式求解来得到最终的优化操纵序列，但这种方式主要缺陷是转换点的
解析公式推导过程复杂，较难处理多约束条件；启发式策略设计方法是指考虑诸多复杂因
素，人工通过现有领域的一些操作规范等启发式的进行策略设计，该种方式过多的引入人
工的分析与设计，极大的降低了策略设计的效率，同时由于人思考范围有限，无法覆盖所有
可能的情况，这势必会导致部分优化解遗漏。所以，目前的解决方案均存在着各类弊端。

目前由于计算机计算能力的大幅度提升，深度学习技术被广泛应用于多种领域的
复杂问题解决方案中，如图像识别、机器翻译、机器人控制、自动驾驶等。深度学习技术凭借
其较强的复杂状态表征能力和复杂特征抽象能力，在以上这些领域均取得了比传统解决方
法更显著的成效。所以，将深度学习技术应用于机车节能操纵的问题解决上，在突破现有方
法的复杂人工设计、复杂公式推导的瓶颈方面具有重要的意义。

发明内容

本发明的目的是提供一种用于实现机车节能操纵的双向LSTM模型的训练方法。
LSTM属于递归神经网络，特别在处理序列数据方面具有较好的效果。本发明设计了双向
LSTM模型，该模型应用优秀人类司机的历史驾驶数据和机车行驶的路段信息数据等，进行
机车行驶过程中的操纵档位预测，该档位的预测同时兼顾安全性(无超速风险等)、准时性
以及节能性；为充分利用数据信息，本发明提出了时序特征(分为前向特征和后向特征)的
提取方法，同时为有效提升模型的预测能力，本发明也提出了迭代训练双向LSTM模型的方
法。

本发明通过如下技术方案实现：

一种用于实现机车节能操纵的双向LSTM模型的训练方法，包括下述步骤：(1)采集
司机历史驾驶数据与机车运行监控日志，作为初始训练数据；(2)对初始训练数据进行预处
理，得到训练数据集和测试数据集；(3)如果是初次训练，则直接初始化模型的各个参数，否
则在上一次双向LSTM模型的基础上继续训练双向LSTM神经网络模型，并保存训练好的模
型；(4)应用训练过的模型对测试数据集做仿真测试，得到新的初始训练数据；(5)将新的初
始训练数据和上一训练阶段的训练数据一起作为初始训练数据。(6)不断迭代进行(1)～
(5)步骤至模型收敛。

所述双向LSTM模型的训练过程，特征还在于，所述的初始训练数据进行预处理阶
段分为两个阶段：(1)在数据满足安全性、准点性的基础上，用如下公式筛选出N条J_i(是第i
个驾驶数据的单位车重油耗)较小的数据：

其中J_i是第i个驾驶数据的单位车重油耗，E_i是第i个驾驶数据的总油耗，W_i是第i
个驾驶数据的总车重。

(2)在抽取的数据基础上，进一步抽取特征数据，形成训练数据集和测试数据集。
本发明提出的特征数据分为前向特征数据和后向特征数据，前向特征数据指的是机车所处
状态之前的历史行驶信息和道路信息，后向特征指机车行驶方向的道路信息。

所述双向LSTM模型的训练过程，特征还在于，所述的双向LSTM模型，其输入层中，
特征数据分别按照时间点不同和地理位置不同进行输入，按时间点不同所对应的输入数据
是前向特征数据，按地理位置不同输入的数据是后向特征数据。

所述的本发明提出的前向特征和后向特征，具体地，前向特征包括17个特征，分别
为车重、车长、重车辆数、轻车辆数、当前坡段平均坡度、当前坡段总长度、当前坡段平均速
度、当前位置的限速值、当前限速值的剩余长度、当前点处于的两个车站间的平均速度、当
前位置距离下一车站距离、当前位置到达下一车站的剩余时间、当前档位、当前速度、当前
位置点的坡度、当前速度与限速值的差值；后向特征包括8个特征，分别为当前坡段平均坡
度、当前坡段总长度、当前坡段剩余长度、当前坡段平均速度、当前位置的限速值、当前位置
距离下一车站的距离、当前位置点的坡度、当前机车的速度与抽取特征位置点限速的差值。

所述双向LSTM模型的训练过程，其特征还在于，所述的不断迭代过程也可以设置
迭代固定的次数之后终止迭代，终止迭代后保存当前训练的模型作为最终模型。原始训练
数据集的采集可以从铁路机车中的LKJ(列车运行控制记录装置)获得，具体包括机车属性，
线路属性以及机车行驶日志。

采用上述技术方案的有益效果是：

(1)本发明设计了17个前向特征和8个后向特征，这些特征作为模型的输入特征数
据，充分利用了数据信息。同时前向特征的设计考虑了时序性和物理位置特点，后向特征考
虑了位置特点，进一步提升了模型对机车的状态表征能力，从而最终影响预测档位的准确
性；

(2)本发明在现有LSTM模型的基础上，提出的双向LSTM模型和现有技术最大的区
别在于输入层中将前向特征和后向特征分离开来分别输入。本问题中的前向特征和后向特
征在特征数量以及特征意义上均有区别，所以这是根据本发明解决问题的特殊性而设计的
结构，该结构的设计更适用于解决机车节能操纵的问题；

(3)本发明提出了迭代训练双向LSTM的步骤和方法，经过迭代训练后，模型的档位
预测能力将进一步得到的提升，甚至得到比人类优秀司机更优化的操纵档位。

附图说明

图1为本发明的双向LSTM的训练过程；

图2为本发明的双向LSTM的网络结构；

图3为机车在某个特定线路上应用训练好的双向LSTM模型的仿真行驶流程图；

图4为本发明在特定路线下与人类优秀司机驾驶数据的对比图。

具体实施方式

为使本发明更为清晰，下面结合附图对本发明进行详细地说明。

如图1所示，本实施例提供一种基于双向LSTM的机车智能操纵方法，具体包括以下
步骤：

步骤S101，采集司机历史驾驶数据与机车运行监控日志，作为初始训练数据。

铁路机车司机的历史驾驶数据和机车运行监控日志可以从铁路机车中的LKJ(列
车运行控制记录装置)获得。针对一个特定的司机在特定的路线上的机车驾驶数据，应该收
集的数据包括：机车属性，线路属性以及机车行驶日志。其中，机车属性包括车重、车长、重
车辆数和轻车辆数；线路属性包括线路的坡度、限速信息、车站信息、两站之间的运行时间
信息；机车行驶日志包括时间戳、行驶速度、机车行驶档位、耗油量记录等信息。收集到的数
据构成初始训练数据。

步骤S102，对初始训练数据进行预处理，得到训练数据集和测试数据集。

原始训练数据中包含较多冗余信息，且数据格式不统一，不能直接作为训练数据，
需要对原始训练数据进行预处理。预处理过程分为两个阶段，第一阶段为从原始训练数据
中选取司机驾驶行为较好的数据集，选择标准为满足安全性、准点性的基础上，选择单位车
重油耗较小的历史数据。其中安全性指行驶过程中无安全性问题出现，准点性指行驶过程
中无误点的现象。以上两个指标可直接从机车行驶日志中获取。而单位车重油耗的计算公
式如下：

其中J_i是第i个驾驶数据的单位车重油耗，E_i是第i个驾驶数据的总油耗，W_i是第i
个驾驶数据的总车重。预处理第一阶段从原始训练数据中选取中J_i较小的前N个驾驶数据，
舍弃其他数据。

第二阶段，继续对选出的驾驶数据进行预处理。根据双向LSTM模型处理序列数据
的特点，本发明提出了针对机车智能操纵问题的时序特征提取方法。对于一个特定的机车
行驶状态，设机车处于道路的kp公里标处，则提取的特征可分为两部分，分别是在该状态前
(公里标小于kp)机车的行驶信息及道路信息和在该状态之后(公里标大于kp)的道路信息，
在该实施例中分别称作前向特征和后向特征。在该阶段，根据时序特征提取方法，从原始数
据中提取出相对应的数据，最终构成训练数据集和测试数据集。具体地，该实施例设计的前
向特征包括17个特征，分别为车重、车长、重车辆数、轻车辆数、当前坡段平均坡度、当前坡
段总长度、当前坡段平均速度、当前位置的限速值、当前限速值的剩余长度、当前点处于的
两个车站间的平均速度、当前位置距离下一车站距离、当前位置到达下一车站的剩余时间、
当前档位、当前速度、当前位置点的坡度、当前速度与限速值的差值；后向特征包括8个特
征，分别为当前坡段平均坡度、当前坡段总长度、当前坡段剩余长度、当前坡段平均速度、当
前位置的限速值、当前位置距离下一车站的距离、当前位置点的坡度、当前机车的速度与抽
取特征位置点限速的差值。

本步骤通过以上阐述的两阶段预处理方法进行数据时序特征点提取,提取出的特
征点数据分为训练数据集和测试数据集。

步骤S103，在model_i-1的基础上训练BLSTM神经网络模型，并保存训练好的模型为
model_i。具体的，如果是初次训练，则直接初始化模型的各个参数，否则在上一次双向LSTM
模型的基础上继续训练双向LSTM神经网络模型，并保存训练好的模型；

在本步骤中，根据步骤S102提取出的训练数据进行双向LSTM模型的训练。接下来
首先介绍该实施例针对机车节能操纵问题提出的双向LSTM网络结构模型如下：

LSTM是一种递归神经网络，递归神经网络(RNN)是一类在隐藏单元上添加了自循
环连接的网络结构，该网络结构适用于处理序列数据，特点在于可以将信息持久化，将以前
的信息连接到当前的任务中来，增强数据的表征能力。但是RNN在处理长期依赖数据上具有
梯度消失的问题，LSTM则是解决该问题的一种RNN变体。LSTM全称为长短期记忆网络，在RNN
的基础上添加了记忆单元、遗忘门、输入门、输出门等单元，进一步提升其数据表征与分析
能力。双向LSTM是在LSTM的基础上，考虑了序列数据上下文信息的网络结构，也称为BLSTM，
该网络结构有两个独立的LSTM网络，分别处理不同的序列数据。BLSTM模型最早在2005年发
表的论文“Framewise phoneme classification with bidirectional LSTM and other
neural network architectures”中由Alex Graves等人提出，但该实施例提出的解决机车
节能操纵方法的双向LSTM的结构与原始BLSTM模型相比，在输入层的处理方案有所不同，具
体结构如图2所示。

图2展示的是本实施例提出的双向LSTM的3个时间步的展开形式，整个网络结构分
为输入层、前向层、后向层和输出层。其中输入层，按时间输入的是步骤S102中所述的前向
特征信息，每个时间步按时间点输入该状态下的17维度前向特征，按地点输入的是步骤
S102中所述的后向特征信息，每个时间步按位置点输入该位置下的8维度后向特征。其中输
出层使用softmax函数作为激活函数，输入层输入一个机车状态对应的多个前向特征和后
向特征后，输出层能够输出所预测的下一时刻的机车操纵档位，这个档位是该模型预测最
优的档位。

以上是对该实施例提出的双向LSTM模型的介绍。在本步骤中，如果是对双向LSTM
模型的首次训练，则随机初始化模型的参数，进行模型训练；如果不是首次训练，则模型的
初始参数使用上一次训练结束时模型(即模型model_i-1)的参数。训练结束后保存模型为
model_i。

步骤S104，应用模型model_i对测试数据集做仿真测试，得到新的初始训练数据。模
型model_i即步骤S103训练结束后保存的模型。

本步骤中根据训练好的双向LSTM模型，对训练数据集进行仿真测试，在测试结束
后将生成新的初始训练数据。仿真测试的流程如图3所示。即，首先根据该实施例设计的前
向特征和后向特征，提取出测试机车当前状态下的特征数据；然后将提取的特征数据作为
模型model_i的输入数据，并用该模型得出预测的档位；机车在仿真环境下，根据预测的档位
行驶固定的单位时间T_step，进入下一个新的状态；如果机车已经仿真行驶到道路的终点，
则结束仿真，否则继续进行仿真实验。

根据以上流程进行每个测试机车的仿真实验，仿真完全模拟真实环境下的机车行
驶效果，所以，本步骤结束后能够得到和步骤S101中类似的原始训练数据。

步骤S105,将新的初始训练数据和上一训练阶段的训练数据一起作为初始训练数
据。

步骤S104中仿真实验使用的模型是根据已有的训练数据训练得出的，应用该模型
能够生成与优秀司机平均驾驶结果相似甚至更好的优化结果。所以为了进一步提升模型的
档位预测效果，将仿真测试得到的数据与原始训练数据一起作为初始训练数据，并迭代进
行后续的预处理与模型训练过程。

迭代进行步骤S102到S105的训练过程，直到模型提升效果不明显，即达到收敛时
停止训练，并保存该阶段的模型作为最终模型。在整个过程中，迭代训练也可以根据迭代次
数进行随时终止，并取上一次训练的结果作为最终模型。

以上所述是该实施例提出的基于双向LSTM模型的机车节能操纵方法及其训练过
程。该实施例首先创新性的提出了从机车历史驾驶数据中提取时序特征(分为前向特征和
后向特征)，并按节油、安全、准时性等目标进行了数据预处理；然后提出应用双向LSTM模型
进行档位的预测，具体实现时，在现有LSTM网络的基础上，有针对性的根据现有问题提出在
网络结构的输入层进行前向特征和后向特征的分开输入，充分利用了机车历史驾驶数据、
当前行驶状态和行驶前后方向的道路信息，这对档位的有效预测带来了帮助；同时，该实施
例提出对所训练的双向LSTM模型进行迭代更新，这在一定程度上能够进一步提升模型的档
位预测能力，甚至能够预测得到比优秀司机更为优化的档位操纵序列。

为了全面准确的评估本发明所提出方法的性能，选取真实路段(沈阳-丹东线的两
个站点)和优秀司机驾驶数据进行模型训练结果的对比测试。本实验的机车车重为3070.00
吨，车长为44.00米。对比结果如图4所示。图4中档位预测的曲线基本和优秀司机的驾驶档
位变化曲线一致，统计的平均准确度为95.6％，说明该实施例提出的模型具备了人类优秀
司机驾驶的水平；相对应的模型控制机车运行速度曲线与优秀司机驾驶曲线基本一致，而
且特别值得注意的是，在412000公里标附件的低限速条件下，模型也有效的预测出了合适
的操纵档位，机车运行速度也完全在安全范围内，未产生超速等风险情况。同时，统计得出
该实施例提出的模型相对人类司机的普通驾驶，节油率在10％左右。综上所示，本发明提出
的一种基于双向LSTM模型的机车节能操纵方法能充分利用机车历史数据和道路信息，并结
合预处理得到的时序特征序列，能够预测出保证安全性、准时性以及节油性等多目标的操
纵档位。基于真实路线和机车的实验测试，证明了本发明在保证可靠性和安全性的基础上，
较人类司机在节省能耗方面更有优势。

虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述，本领域技
术人员应该理解，上述实施例仅仅是对本发明的示意性实现方式的解释，并非对本发明包
含范围的限定。实施例中的细节并不构成对本发明范围的限制，在不背离本发明的精神和
范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在
本发明保护范围之内。