专利 基于深度强化学习的城市轨道交通列车时刻表优化方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111556696.2 (22)申请日 2021.12.17 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人胡文斌　吴承泽　秦建楠　耿路路　 (74)专利代理机构南京理工大学专利中心 32203 代理人薛云燕 (51)Int.Cl. G06Q 10/10(2012.01) G06Q 10/04(2012.01) G06Q 50/30(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度强化学习的城市轨道交通列车时刻表优化方法 (57)摘要本发明公开了一种基于深度强化学习的城市轨道交通列车时刻表优化方法，具体为：建立基本数据模块；建立列车牵引能耗计算模块，包括神经网络能耗拟合模块与时间 ‑能耗曲线拟合模块；神经网络能耗拟合模块使用线路数据和列车速度数据作为输入量，使用实测的能耗数据作为期望输出量，经过学习训练，确定与最小误差相对应的网络参数；时间 ‑能耗曲线拟合模块使用实测速度曲线和训练后的网络，对能耗进行拟合获得时间与能耗的关系曲线；列车区间运行时间优化模块采用深度强化学习算法，综合考虑列车全线能耗、乘客旅行体验和运营管理要求，设计目标函数，通过调整各个区间的运行时间，最大化该目标函数的值。本发明方法具有科学、精确、可靠的优点。权利要求书3页说明书7页附图3页 CN 114202316 A 2022.03.18 CN 114202316 A 1.一种基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，包括以下步骤：步骤1，建立基本数据模块，包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块；步骤2，建立列车牵引能耗计算模块，包括神经网络能耗拟合模块与时间 ‑能耗曲线拟合模块；步骤3，使用神经网络能耗拟合模块，将线路数据和列车速度数据作为输入量，使用实测的能耗数据作为期望输出量，通过调节网络参数取值，使误差沿梯度方向下降，经过反复学习训练，确定与最小误差相对应的网络参数；步骤4，使用时间 ‑能耗曲线拟合模块，用实测速度曲线和训练后的网络，对对应的能耗进行拟合，并获得时间与能耗的关系曲线；步骤5，使用列车区间运行时间优化模块，采用深度强化学习算法，综合考虑列车全线能耗、乘客旅行体验和运营管理要求，设计目标函数，通过调整各个区间的运行时间，最大化该目标函数的值。 2.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤1所述的基本数据模块包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块，该四个模块均为数据输入模块，为列车牵引能耗计算模块和列车区间运行时间优化模块提供初始参数，其中：线路数据模块，分为车站数据、坡道数据、弯道数据；列车运行数据模块，提供列车运行时的实测数据，包括列车速度、牵引电流、辅变电流；地铁运营数据模块，提供列车每个运行区间的客流、列车原始的时刻表和换乘站数据；优化参数模块，用于神经网络能耗拟合的参数设置，包括神经网络层数、每层神经元个数、激活函数种类、迭代次数；还用于深度强化学习算法的参数设置，包括深度强化学习算法种类、神经网络层数、每层神经元个数、激活函数种类、迭代次数、奖励函数各个组成部分的比重及所选算法对应的超参数。 3.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤2所述的建立列车牵引能耗计算模块，包括神经网络能耗拟合模块与时间 ‑ 能耗曲线拟合模块，其中：神经网络能耗拟合模块：利用线路数据、列车实测速度、实测能耗对神经网络进行训练，更新网络参数，获得能耗拟合模型；时间‑能耗曲线拟合模块：将更多的实测速度曲线作为训练后的神经网络的输入，计算列车区间运行能耗，获得时间 ‑能耗曲线。 4.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤3所述神经网络能耗拟合模块，使用的列车实测速度、牵引电流、辅变电流、制动电阻电流均为间隔为0.1s 的离散的点，对于每个时刻，输入量为当前时刻及前后各10 个时刻的速度值、列车当前位置的坡道参数、列车当前位置的弯道参数，期望输出量为列车在该时刻的功率，利用误差反向传播算法对网络的参数进行更新，具体步骤如下： (1)确定网络参数：包括网络层数、每层神经元个数、激活函数种类； (2)确定训练参数：包括参数的更新方法、更新步长、终止条件；权　利　要　求　书 1/3 页 2 CN 114202316 A 2(3)计算列车时间 ‑位置曲线：根据实测的列车速度曲线，将速度对时间进行积分运算，得到列车的时间 ‑位置曲线； (4)计算每个时刻列车所处位置的线路参数：根据列车时间 ‑位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数和弯道参数； (5)计算每个时刻列车的功率：根据实测的网压u、牵引电流idr、辅变电流iaux，以0.1s为间隔，计算列车在每个时刻的功率p，计算方法如下： p＝u(ndridr‑nauxiaux) 其中ndr为列车上的牵引变压器数量， naux为列车上的辅助变压器数量； (6)训练网络：以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据，每次将多组数据作为一个小批量，将速度、坡度、曲率半径作为输入，将功率作为期望输出值，使用均方差作为损失函数，并进行误差的反向传播；不断训练，直至终止条件达成。 5.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤4所述时间 ‑能耗曲线拟合模块，利用神经网络能耗拟合模块所训练出的网络参数，将不同的速度曲线作为网络的输入，计算对应的能耗值，将时间和能耗的关系绘制在二维坐标系上，得到时间与能耗的关系曲线，具体步骤如下： (1)计算列车时间 ‑位置曲线：根据实测的列车速度曲线，将速度对时间进行积分运算，得到列车的时间 ‑位置曲线； (2)计算每个时刻列车所处位置的线路参数：根据列车时间 ‑位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数和弯道参数； (3)预测功率：以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据，作为网络的输入，得到该时刻的功率预测值； (4)计算能耗：将列车在一个区间的功率预测值对时间积分，得到列车在这个区间的能耗； (5)绘制时间 ‑能耗曲线：对一个区间的多条速度曲线进行以上(1)～(4)步骤的操作，每条速度曲线都对应一个运行时间和拟合能耗，将运行时间和拟合能耗的关系绘制在二维坐标系上，得到时间与能耗的关系曲线。 6.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤5所述列车区间运行时间优化模块，在时间 ‑能耗曲线拟合模块求解的基础上，采用深度强化学习算法综合考虑列车全线能耗、乘客旅行体验和运营管理要求，设计目标函数，通过调整各个区间的运行时间，最大化该目标函数的值，具体步骤如下： (1)选择算法：选择深度强化学习中基于策略的方法中的一种，包括策略梯度VP G、优势行动器‑评判器A2C、近端策略优化P PO； (2)建立网络：使用的神经网络有两个，一个为行动网络，用来确定一个状态下，应该增加运行时间的区间和应该减少运行时间的区间；另一个为评判网络，用来估算一个状态的价值； VPG仅使用了行动网络，而A2C和PPO使用了行动网络和评判网络；如果轨道交通线路全线区间数为n，则行动网络的输入神经元数量为n，输出分为增分支和减分支，每个分支的输出神经元数量为n+1；评判网络的输入神经元数量为n，输出神经元数量为1；行动网络的权　利　要　求　书 2/3 页 3 CN 114202316 A 3

专利 基于深度强化学习的城市轨道交通列车时刻表优化方法

专利基于深度强化学习的城市轨道交通列车时刻表优化方法