(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111563799.1
(22)申请日 2021.12.20
(65)同一申请的已公布的文献号
申请公布号 CN 114218867 A
(43)申请公布日 2022.03.22
(73)专利权人 暨南大学
地址 510632 广东省广州市天河区黄埔大
道西601号
(72)发明人 郭洪飞 戴源志 曾云辉 廖梓钧
石国昕 李秀 李建庆
(74)专利代理 机构 北京精金石知识产权代理有
限公司 1 1470
专利代理师 杨兰兰
(51)Int.Cl.
G06F 30/27(2020.01)G06Q 10/04(2012.01)
G06F 111/04(2020.01)
(56)对比文件
CN 110753886 A,2020.02.04
CN 113534669 A,2021.10.2 2
CN 113093727 A,2021.07.09
CN 113283167 A,2021.08.20
CN 111679660 A,2020.09.18
CN 111766782 A,2020.10.13
CN 113359448 A,2021.09.07
审查员 尤晓美
(54)发明名称
基于熵优化安全强化学习的特种设备流程
控制方法及系统
(57)摘要
本发明提供了一种基于熵优化安全强化学
习的特种设备流程控制方法及系统, 属于人工智
能技术领域。 本发明根据特种设备生产的特点和
实现的功能建立特种设备模型; 提取生产线所需
优化的参数, 并定义符合特种设备生产特点的状
态、 动作、 奖励函数、 折扣因子、 成本函数和策略
模型, 构建安全强化学习模型训练系统, 采用马
尔科夫决策过程进行训练; 采用泛化优势估计算
法实现基于Actor ‑critic框架的熵优化安全强
化学习算法, 对马尔科夫决策过程中的每个策略
设置上下边界, 对特种设备进行流程控制。 本发
明采用的熵优化安全强化学习算法的流程控制,
使得所构建的模 型具有更好的泛化性, 能够有效
提高操作安全性、 精准 性。
权利要求书3页 说明书17页 附图2页
CN 114218867 B
2022.06.28
CN 114218867 B
1.一种基于熵优化安全强化学习的特种设备流程控制方法, 其特征在于, 包括如下步
骤:
根据特种设备生产的特点和实现的功能建立特种设备模型;
在所建立的特种设备模型中提取生产线所需优化的参数, 并定义符合特种设备生产 特
点的状态、 动作、 奖励函数、 折扣因子、 成本函数和策略模型;
利用状态、 动作、 奖励函数、 折扣因子、 成本函数和策略模型, 构建安全强化学习模型训
练系统, 该安全强化学习模型训练系统采用马尔科 夫决策过程进行;
采用基于Actor ‑Critic框架的熵优化安全强化学习算法对马尔科夫决策过程中的每
个策略设置上 下边界;
根据安全强化学习模型的训练结果对特种设备进行流 程控制, 具体包括:
使安全强化学习模型始终输出动作分布, 并在强化学习模型中增 加熵;
根据特种设备对安全强化学习 模型输出动作要求的不同, 对安全强化学习模型始终输
出动作进行处 理;
利用安全强化学习模型最终输出的动作对特种设备进行流 程控制;
根据特种设备对安全强化学习 模型输出动作要求的不同, 对安全强化学习模型始终输
出动作进行处 理, 具体为:
如果特种设备要求输出离散动作, 则对安全强化学习模型输出的动作分布进行采样离
散化, 并根据成本函数的约束选出满足成本函数的约束前提下性能最 好的离散动作输出;
如果特种设备要求输出连续动作, 则将满足成本函数约束的安全强化学习模型输出的
动作分布组合成新的动作分布输出; 如果安全强化学习模型输出的动作分布都不满足成本
函数的约束, 则让安全强化学习模型重新输出一个动作分布, 直到产生满足成本函数约束
的动作分布, 将新的动作分布输出。
2.根据权利要求1所述的基于熵优化安全强化学习的特种设备流程控制方法, 其特征
在于, 使用泛化优势估计算法实现基于Actor ‑Critic框架的熵优化 安全强化学习算法。
3.根据权利要求2所述的于熵优化安全强化学习的特种设备流程控制方法, 其特征在
于, 根据影响特种设备效率及安全运行 的生产环境因素定义状态; 根据要控制的特种设备
的输出定义动作; 根据特种设备 的即时运行效率定义奖励函数; 根据特种设备 的运行的时
序性定义折扣因子, 折扣因子在0 ‑1之间; 根据影响特种设备安全运行的指标定义成本函
数; 根据要控制的特种设备的输出是离散动作还是连续动作分别定义策略为离散策略或者
连续策略。
4.根据权利要求3所述的于熵优化安全强化学习的特种设备流程控制方法, 其特征在
于, 采用基于Actor ‑Critic框架的熵优化安全强化学习算法对马尔科夫决策过程中每个策
略设置上 下边界包括:
采用如下 公式对马尔科夫决策过程中每个 策略增加受限马尔科夫决策过程的策略Ci作
为限制:
权 利 要 求 书 1/3 页
2
CN 114218867 B
2D( π, πk)≤ δ.
其中,
k为优化奖励函数目标函数 所采取的时间步;
i为优化成本函数 所采取的时间步, 与k相比, i更密集;
πk+1为k+1时刻的策略;
J( π )为奖励函数的目标函数;
为成本函数的目标函数;
θ 为需要优化的安全强化学习算法的参数;
Πθ为策略空间;
di为成本函数值期望范围;
m为优化成本函数 所采取的时间步的总步数;
D( π, πk)为策略πk和其前一个时间步的策略π 的差异;
δ 为策略更新的最大允许幅度。
5.根据权利要求3所述的基于熵优化安全强化学习的特种设备流程控制方法, 其特征
在于, 采用基于Act or‑Critic框架的熵优化安全强化学习算法对马尔科夫决策过程中每个
策略设置上下边界具体包括, 采用如下公 式进行策略更新, 保证成本函数、 目标函数及策略
更新的幅度控制在指定范围:
DKL( π|| πk)≤ δ.
其中,
k为优化奖励函数目标函数 所采取的时间步;
i为优化成本函数 所采取的时间步;
πk+1为k+1时刻的策略;
为状态动作对在奖励函数空间的优势函数;
为状态动作对在成本函数空间的优势函数;
s为某一状态;
a为某一动作;
γ为折扣因子, 在(0, 1)之间;
为受策略Ci限制的成本函数的目标函数;
θ 为要优化的安全强化学习算法的参数;
di为期望的成本函数值所在的范围;
为策略π和其前一时间步的策略π 的KL散度;
δ 为策略更新的最大允许幅度。
6.一种基于熵优化安全强化学习的特种设备流程控制系统, 其特征在于, 使用权利要权 利 要 求 书 2/3 页
3
CN 114218867 B
3
专利 基于熵优化安全强化学习的特种设备流程控制方法及系统
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:10:00上传分享