(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111556696.2
(22)申请日 2021.12.17
(71)申请人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
200号
(72)发明人 胡文斌 吴承泽 秦建楠 耿路路
(74)专利代理 机构 南京理工大 学专利中心
32203
代理人 薛云燕
(51)Int.Cl.
G06Q 10/10(2012.01)
G06Q 10/04(2012.01)
G06Q 50/30(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度强化学习的城市轨道交通列车时
刻表优化方法
(57)摘要
本发明公开了一种基于深度强化学习的城
市轨道交通列车时刻表优化方法, 具体为: 建立
基本数据模块; 建立列车牵引能耗计算模块, 包
括神经网络能耗拟合模块与时间 ‑能耗曲线拟合
模块; 神经网络能耗拟合模块使用线路数据和列
车速度数据作为输入量, 使用实测的能耗数据作
为期望输出量, 经过学习训练, 确定与最小误差
相对应的网络参数; 时间 ‑能耗曲线拟合模块使
用实测速度曲线和训练后的网络, 对能耗进行拟
合获得时间与能耗的关系曲线; 列车区间运行时
间优化模块采用深度强化学习算法, 综合考虑列
车全线能耗、 乘客旅行体验和运营管理要求, 设
计目标函数, 通过调整各个区间的运行时间, 最
大化该目标函数的值。 本发明方法具有科学、 精
确、 可靠的优点。
权利要求书3页 说明书7页 附图3页
CN 114202316 A
2022.03.18
CN 114202316 A
1.一种基于深度强化学习的城市轨道交通列车时刻表优化方法, 其特征在于, 包括以
下步骤:
步骤1, 建立基本数据模块, 包括线路数据模块、 列车运行数据模块、 地铁运营数据模
块、 优化参数模块;
步骤2, 建立列车牵引能耗计算模块, 包括神经网络能耗拟合模块与时间 ‑能耗曲线拟
合模块;
步骤3, 使用神经网络能耗拟合模块, 将线路数据和列车速度数据作为输入量, 使用实
测的能耗数据作为期 望输出量, 通过调节网络参数取值, 使误差沿梯度方向下降, 经过反复
学习训练, 确定与最小误差相对应的网络参数;
步骤4, 使用时间 ‑能耗曲线拟合模块, 用实测速度曲线和训练后的网络, 对对应的能耗
进行拟合, 并获得时间与能耗的关系曲线;
步骤5, 使用列车区间运行时间优化模块, 采用深度强化学习算法, 综合考虑列车全线
能耗、 乘客旅行体验和运营管理要求, 设计目标函数, 通过调整各个区间的运行时间, 最大
化该目标函数的值。
2.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其
特征在于, 步骤1所述的基本数据模块包括线路数据模块、 列车运行数据模块、 地铁运营数
据模块、 优化参数模块, 该四个模块均为数据输入模块, 为列车牵引能耗计算模块和列车区
间运行时间优化模块 提供初始参数, 其中:
线路数据模块, 分为车站数据、 坡道数据、 弯 道数据;
列车运行 数据模块, 提供列车运行时的实测数据, 包括列车速度、 牵引电流、 辅变电流;
地铁运营 数据模块, 提供列车每 个运行区间的客 流、 列车原 始的时刻表和换乘 站数据;
优化参数模块, 用于神经网络能耗拟合的参数设置, 包括神经网络层数、 每层神经元个
数、 激活函数种类、 迭代 次数; 还用于深度强化学习算法的参数设置, 包括深度强化学习算
法种类、 神经网络层数、 每层神经元个数、 激活函数种类、 迭代次数、 奖励函数各个组成部 分
的比重及所选算法对应的超参数。
3.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其
特征在于, 步骤2所述的建立列车牵引能耗计算模块, 包括神经网络能耗拟合模块与时间 ‑
能耗曲线拟合模块, 其中:
神经网络能耗拟合模块: 利用线路数据、 列车实测速度、 实测能耗对神经网络进行训
练, 更新网络参数, 获得能耗拟合模型;
时间‑能耗曲线拟合模块: 将更多的实测速度曲线作为训练后的神经网络的输入, 计算
列车区间运行能耗, 获得时间 ‑能耗曲线。
4.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其
特征在于, 步骤3所述神经网络能耗拟合模块, 使用的列车实测 速度、 牵引电流、 辅变电流、
制动电阻电流均为间隔为0.1s 的离散的点, 对于每个时刻, 输入量为当前时刻及前后各10
个时刻的速度值、 列车当前位置的坡道参数、 列车当前位置的弯道 参数, 期望输出量为列车
在该时刻的功率, 利用误差反向传播 算法对网络的参数进行 更新, 具体步骤如下:
(1)确定网络参数: 包括网络层数、 每层神经 元个数、 激活函数种类;
(2)确定训练参数: 包括 参数的更新方法、 更新 步长、 终止条件;权 利 要 求 书 1/3 页
2
CN 114202316 A
2(3)计算列车时间 ‑位置曲线: 根据实测的列车速度曲线, 将速度对时间进行积分运算,
得到列车的时间 ‑位置曲线;
(4)计算每个时刻列车所处位置的线路参数: 根据列车时间 ‑位置曲线, 以0.1s为间隔,
获得列车在每 个时刻的位置, 查表获得 该位置的坡道参数和弯 道参数;
(5)计算每个时刻列车的功率: 根据实测的网压u、 牵引电流idr、 辅变电流iaux, 以0.1s为
间隔, 计算列车在每 个时刻的功率p, 计算方法如下:
p=u(ndridr‑nauxiaux)
其中ndr为列车上的牵引变压器数量, naux为列车上的辅助变压器数量;
(6)训练网络: 以一个时刻前后各10个时刻的速度值、 该时刻列车所在位置的坡度、 该
时刻列车所在位置的曲率半径、 该时刻的功率作为一组数据, 每次将多组数据作为一个小
批量, 将速度、 坡度、 曲率半径作为输入, 将功率作为期望输出值, 使用均方差作为损失函
数, 并进行误差的反向传播; 不断训练, 直至终止条件达成。
5.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其
特征在于, 步骤4所述时间 ‑能耗曲线拟合模块, 利用神经网络能耗拟合模块所训练出 的网
络参数, 将不同的速度曲线作为网络的输入, 计算对应的能耗值, 将时间和能耗的关系绘制
在二维坐标系上, 得到时间与能耗的关系曲线, 具体步骤如下:
(1)计算列车时间 ‑位置曲线: 根据实测的列车速度曲线, 将速度对时间进行积分运算,
得到列车的时间 ‑位置曲线;
(2)计算每个时刻列车所处位置的线路参数: 根据列车时间 ‑位置曲线, 以0.1s为间隔,
获得列车在每 个时刻的位置, 查表获得 该位置的坡道参数和弯 道参数;
(3)预测功率: 以一个时刻前后各10个时刻的速度值、 该时刻列车所在位置的坡度、 该
时刻列车所在位置的曲率半径、 该时刻的功率作为一组数据, 作为网络的输入, 得到该时刻
的功率预测值;
(4)计算能耗: 将列车在一个区间的功率预测值对时间积分, 得到列车在这个区间的能
耗;
(5)绘制时间 ‑能耗曲线: 对一个区间的多条速度曲线进行以上(1)~(4)步骤的操作,
每条速度曲线都对应一个运行时间和拟合能耗, 将运行时间和拟合能耗的关系绘制在二 维
坐标系上, 得到时间与能耗的关系曲线。
6.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其
特征在于, 步骤5所述列车区间运行时间优化模块, 在时间 ‑能耗曲线拟合模块求解的基础
上, 采用深度强化学习算法综合考虑列车全线能耗、 乘客旅行体验和运营管理要求, 设计目
标函数, 通过调整各个区间的运行时间, 最大化该目标函数的值, 具体步骤如下:
(1)选择算法: 选择深度强化学习中基于策略的方法中的一种, 包括策略梯度VP G、 优势
行动器‑评判器A2C、 近端策略优化P PO;
(2)建立网络: 使用的神经网络有两个, 一个为行动网络, 用来确定一个状态下, 应该增
加运行时间的区间和应该减少运行时间的区间; 另一个为评判网络, 用来估算一个状态的
价值; VPG仅使用了行动网络, 而A2C和PPO使用了行动网络和评判网络; 如果轨道交通线路
全线区间数为n, 则行动网络的输入神经元数量为n, 输出分为增分支和减分支, 每个 分支的
输出神经元数量为n+1; 评判网络的输入神经元数量为n, 输出神经元数量为1; 行动网络的权 利 要 求 书 2/3 页
3
CN 114202316 A
3
专利 基于深度强化学习的城市轨道交通列车时刻表优化方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:09:59上传分享