金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111556696.2 (22)申请日 2021.12.17 (71)申请人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人 胡文斌 吴承泽 秦建楠 耿路路  (74)专利代理 机构 南京理工大 学专利中心 32203 代理人 薛云燕 (51)Int.Cl. G06Q 10/10(2012.01) G06Q 10/04(2012.01) G06Q 50/30(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度强化学习的城市轨道交通列车时 刻表优化方法 (57)摘要 本发明公开了一种基于深度强化学习的城 市轨道交通列车时刻表优化方法, 具体为: 建立 基本数据模块; 建立列车牵引能耗计算模块, 包 括神经网络能耗拟合模块与时间 ‑能耗曲线拟合 模块; 神经网络能耗拟合模块使用线路数据和列 车速度数据作为输入量, 使用实测的能耗数据作 为期望输出量, 经过学习训练, 确定与最小误差 相对应的网络参数; 时间 ‑能耗曲线拟合模块使 用实测速度曲线和训练后的网络, 对能耗进行拟 合获得时间与能耗的关系曲线; 列车区间运行时 间优化模块采用深度强化学习算法, 综合考虑列 车全线能耗、 乘客旅行体验和运营管理要求, 设 计目标函数, 通过调整各个区间的运行时间, 最 大化该目标函数的值。 本发明方法具有科学、 精 确、 可靠的优点。 权利要求书3页 说明书7页 附图3页 CN 114202316 A 2022.03.18 CN 114202316 A 1.一种基于深度强化学习的城市轨道交通列车时刻表优化方法, 其特征在于, 包括以 下步骤: 步骤1, 建立基本数据模块, 包括线路数据模块、 列车运行数据模块、 地铁运营数据模 块、 优化参数模块; 步骤2, 建立列车牵引能耗计算模块, 包括神经网络能耗拟合模块与时间 ‑能耗曲线拟 合模块; 步骤3, 使用神经网络能耗拟合模块, 将线路数据和列车速度数据作为输入量, 使用实 测的能耗数据作为期 望输出量, 通过调节网络参数取值, 使误差沿梯度方向下降, 经过反复 学习训练, 确定与最小误差相对应的网络参数; 步骤4, 使用时间 ‑能耗曲线拟合模块, 用实测速度曲线和训练后的网络, 对对应的能耗 进行拟合, 并获得时间与能耗的关系曲线; 步骤5, 使用列车区间运行时间优化模块, 采用深度强化学习算法, 综合考虑列车全线 能耗、 乘客旅行体验和运营管理要求, 设计目标函数, 通过调整各个区间的运行时间, 最大 化该目标函数的值。 2.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其 特征在于, 步骤1所述的基本数据模块包括线路数据模块、 列车运行数据模块、 地铁运营数 据模块、 优化参数模块, 该四个模块均为数据输入模块, 为列车牵引能耗计算模块和列车区 间运行时间优化模块 提供初始参数, 其中: 线路数据模块, 分为车站数据、 坡道数据、 弯 道数据; 列车运行 数据模块, 提供列车运行时的实测数据, 包括列车速度、 牵引电流、 辅变电流; 地铁运营 数据模块, 提供列车每 个运行区间的客 流、 列车原 始的时刻表和换乘 站数据; 优化参数模块, 用于神经网络能耗拟合的参数设置, 包括神经网络层数、 每层神经元个 数、 激活函数种类、 迭代 次数; 还用于深度强化学习算法的参数设置, 包括深度强化学习算 法种类、 神经网络层数、 每层神经元个数、 激活函数种类、 迭代次数、 奖励函数各个组成部 分 的比重及所选算法对应的超参数。 3.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其 特征在于, 步骤2所述的建立列车牵引能耗计算模块, 包括神经网络能耗拟合模块与时间 ‑ 能耗曲线拟合模块, 其中: 神经网络能耗拟合模块: 利用线路数据、 列车实测速度、 实测能耗对神经网络进行训 练, 更新网络参数, 获得能耗拟合模型; 时间‑能耗曲线拟合模块: 将更多的实测速度曲线作为训练后的神经网络的输入, 计算 列车区间运行能耗, 获得时间 ‑能耗曲线。 4.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其 特征在于, 步骤3所述神经网络能耗拟合模块, 使用的列车实测 速度、 牵引电流、 辅变电流、 制动电阻电流均为间隔为0.1s 的离散的点, 对于每个时刻, 输入量为当前时刻及前后各10 个时刻的速度值、 列车当前位置的坡道参数、 列车当前位置的弯道 参数, 期望输出量为列车 在该时刻的功率, 利用误差反向传播 算法对网络的参数进行 更新, 具体步骤如下: (1)确定网络参数: 包括网络层数、 每层神经 元个数、 激活函数种类; (2)确定训练参数: 包括 参数的更新方法、 更新 步长、 终止条件;权 利 要 求 书 1/3 页 2 CN 114202316 A 2(3)计算列车时间 ‑位置曲线: 根据实测的列车速度曲线, 将速度对时间进行积分运算, 得到列车的时间 ‑位置曲线; (4)计算每个时刻列车所处位置的线路参数: 根据列车时间 ‑位置曲线, 以0.1s为间隔, 获得列车在每 个时刻的位置, 查表获得 该位置的坡道参数和弯 道参数; (5)计算每个时刻列车的功率: 根据实测的网压u、 牵引电流idr、 辅变电流iaux, 以0.1s为 间隔, 计算列车在每 个时刻的功率p, 计算方法如下: p=u(ndridr‑nauxiaux) 其中ndr为列车上的牵引变压器数量, naux为列车上的辅助变压器数量; (6)训练网络: 以一个时刻前后各10个时刻的速度值、 该时刻列车所在位置的坡度、 该 时刻列车所在位置的曲率半径、 该时刻的功率作为一组数据, 每次将多组数据作为一个小 批量, 将速度、 坡度、 曲率半径作为输入, 将功率作为期望输出值, 使用均方差作为损失函 数, 并进行误差的反向传播; 不断训练, 直至终止条件达成。 5.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其 特征在于, 步骤4所述时间 ‑能耗曲线拟合模块, 利用神经网络能耗拟合模块所训练出 的网 络参数, 将不同的速度曲线作为网络的输入, 计算对应的能耗值, 将时间和能耗的关系绘制 在二维坐标系上, 得到时间与能耗的关系曲线, 具体步骤如下: (1)计算列车时间 ‑位置曲线: 根据实测的列车速度曲线, 将速度对时间进行积分运算, 得到列车的时间 ‑位置曲线; (2)计算每个时刻列车所处位置的线路参数: 根据列车时间 ‑位置曲线, 以0.1s为间隔, 获得列车在每 个时刻的位置, 查表获得 该位置的坡道参数和弯 道参数; (3)预测功率: 以一个时刻前后各10个时刻的速度值、 该时刻列车所在位置的坡度、 该 时刻列车所在位置的曲率半径、 该时刻的功率作为一组数据, 作为网络的输入, 得到该时刻 的功率预测值; (4)计算能耗: 将列车在一个区间的功率预测值对时间积分, 得到列车在这个区间的能 耗; (5)绘制时间 ‑能耗曲线: 对一个区间的多条速度曲线进行以上(1)~(4)步骤的操作, 每条速度曲线都对应一个运行时间和拟合能耗, 将运行时间和拟合能耗的关系绘制在二 维 坐标系上, 得到时间与能耗的关系曲线。 6.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法, 其 特征在于, 步骤5所述列车区间运行时间优化模块, 在时间 ‑能耗曲线拟合模块求解的基础 上, 采用深度强化学习算法综合考虑列车全线能耗、 乘客旅行体验和运营管理要求, 设计目 标函数, 通过调整各个区间的运行时间, 最大化该目标函数的值, 具体步骤如下: (1)选择算法: 选择深度强化学习中基于策略的方法中的一种, 包括策略梯度VP G、 优势 行动器‑评判器A2C、 近端策略优化P PO; (2)建立网络: 使用的神经网络有两个, 一个为行动网络, 用来确定一个状态下, 应该增 加运行时间的区间和应该减少运行时间的区间; 另一个为评判网络, 用来估算一个状态的 价值; VPG仅使用了行动网络, 而A2C和PPO使用了行动网络和评判网络; 如果轨道交通线路 全线区间数为n, 则行动网络的输入神经元数量为n, 输出分为增分支和减分支, 每个 分支的 输出神经元数量为n+1; 评判网络的输入神经元数量为n, 输出神经元数量为1; 行动网络的权 利 要 求 书 2/3 页 3 CN 114202316 A 3

.PDF文档 专利 基于深度强化学习的城市轨道交通列车时刻表优化方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的城市轨道交通列车时刻表优化方法 第 1 页 专利 基于深度强化学习的城市轨道交通列车时刻表优化方法 第 2 页 专利 基于深度强化学习的城市轨道交通列车时刻表优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:09:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。