专利 基于熵优化安全强化学习的特种设备流程控制方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111563799.1 (22)申请日 2021.12.20 (65)同一申请的已公布的文献号申请公布号 CN 114218867 A (43)申请公布日 2022.03.22 (73)专利权人暨南大学地址 510632 广东省广州市天河区黄埔大道西601号 (72)发明人郭洪飞　戴源志　曾云辉　廖梓钧　石国昕　李秀　李建庆　 (74)专利代理机构北京精金石知识产权代理有限公司 1 1470 专利代理师杨兰兰 (51)Int.Cl. G06F 30/27(2020.01)G06Q 10/04(2012.01) G06F 111/04(2020.01) (56)对比文件 CN 110753886 A,2020.02.04 CN 113534669 A,2021.10.2 2 CN 113093727 A,2021.07.09 CN 113283167 A,2021.08.20 CN 111679660 A,2020.09.18 CN 111766782 A,2020.10.13 CN 113359448 A,2021.09.07 审查员尤晓美 (54)发明名称基于熵优化安全强化学习的特种设备流程控制方法及系统 (57)摘要本发明提供了一种基于熵优化安全强化学习的特种设备流程控制方法及系统，属于人工智能技术领域。本发明根据特种设备生产的特点和实现的功能建立特种设备模型；提取生产线所需优化的参数，并定义符合特种设备生产特点的状态、动作、奖励函数、折扣因子、成本函数和策略模型，构建安全强化学习模型训练系统，采用马尔科夫决策过程进行训练；采用泛化优势估计算法实现基于Actor ‑critic框架的熵优化安全强化学习算法，对马尔科夫决策过程中的每个策略设置上下边界，对特种设备进行流程控制。本发明采用的熵优化安全强化学习算法的流程控制，使得所构建的模型具有更好的泛化性，能够有效提高操作安全性、精准性。权利要求书3页说明书17页附图2页 CN 114218867 B 2022.06.28 CN 114218867 B 1.一种基于熵优化安全强化学习的特种设备流程控制方法，其特征在于，包括如下步骤：根据特种设备生产的特点和实现的功能建立特种设备模型；在所建立的特种设备模型中提取生产线所需优化的参数，并定义符合特种设备生产特点的状态、动作、奖励函数、折扣因子、成本函数和策略模型；利用状态、动作、奖励函数、折扣因子、成本函数和策略模型，构建安全强化学习模型训练系统，该安全强化学习模型训练系统采用马尔科夫决策过程进行；采用基于Actor ‑Critic框架的熵优化安全强化学习算法对马尔科夫决策过程中的每个策略设置上下边界；根据安全强化学习模型的训练结果对特种设备进行流程控制，具体包括：使安全强化学习模型始终输出动作分布，并在强化学习模型中增加熵；根据特种设备对安全强化学习模型输出动作要求的不同，对安全强化学习模型始终输出动作进行处理；利用安全强化学习模型最终输出的动作对特种设备进行流程控制；根据特种设备对安全强化学习模型输出动作要求的不同，对安全强化学习模型始终输出动作进行处理，具体为：如果特种设备要求输出离散动作，则对安全强化学习模型输出的动作分布进行采样离散化，并根据成本函数的约束选出满足成本函数的约束前提下性能最好的离散动作输出；如果特种设备要求输出连续动作，则将满足成本函数约束的安全强化学习模型输出的动作分布组合成新的动作分布输出；如果安全强化学习模型输出的动作分布都不满足成本函数的约束，则让安全强化学习模型重新输出一个动作分布，直到产生满足成本函数约束的动作分布，将新的动作分布输出。 2.根据权利要求1所述的基于熵优化安全强化学习的特种设备流程控制方法，其特征在于，使用泛化优势估计算法实现基于Actor ‑Critic框架的熵优化安全强化学习算法。 3.根据权利要求2所述的于熵优化安全强化学习的特种设备流程控制方法，其特征在于，根据影响特种设备效率及安全运行的生产环境因素定义状态；根据要控制的特种设备的输出定义动作；根据特种设备的即时运行效率定义奖励函数；根据特种设备的运行的时序性定义折扣因子，折扣因子在0 ‑1之间；根据影响特种设备安全运行的指标定义成本函数；根据要控制的特种设备的输出是离散动作还是连续动作分别定义策略为离散策略或者连续策略。 4.根据权利要求3所述的于熵优化安全强化学习的特种设备流程控制方法，其特征在于，采用基于Actor ‑Critic框架的熵优化安全强化学习算法对马尔科夫决策过程中每个策略设置上下边界包括：采用如下公式对马尔科夫决策过程中每个策略增加受限马尔科夫决策过程的策略Ci作为限制：权　利　要　求　书 1/3 页 2 CN 114218867 B 2D( π， πk)≤ δ. 其中， k为优化奖励函数目标函数所采取的时间步； i为优化成本函数所采取的时间步，与k相比， i更密集； πk+1为k+1时刻的策略； J( π )为奖励函数的目标函数；为成本函数的目标函数； θ 为需要优化的安全强化学习算法的参数； Πθ为策略空间； di为成本函数值期望范围； m为优化成本函数所采取的时间步的总步数； D( π， πk)为策略πk和其前一个时间步的策略π 的差异； δ 为策略更新的最大允许幅度。 5.根据权利要求3所述的基于熵优化安全强化学习的特种设备流程控制方法，其特征在于，采用基于Act or‑Critic框架的熵优化安全强化学习算法对马尔科夫决策过程中每个策略设置上下边界具体包括，采用如下公式进行策略更新，保证成本函数、目标函数及策略更新的幅度控制在指定范围： DKL( π|| πk)≤ δ. 其中， k为优化奖励函数目标函数所采取的时间步； i为优化成本函数所采取的时间步； πk+1为k+1时刻的策略；为状态动作对在奖励函数空间的优势函数；为状态动作对在成本函数空间的优势函数； s为某一状态； a为某一动作； γ为折扣因子，在(0， 1)之间；为受策略Ci限制的成本函数的目标函数； θ 为要优化的安全强化学习算法的参数； di为期望的成本函数值所在的范围；为策略π和其前一时间步的策略π 的KL散度； δ 为策略更新的最大允许幅度。 6.一种基于熵优化安全强化学习的特种设备流程控制系统，其特征在于，使用权利要权　利　要　求　书 2/3 页 3 CN 114218867 B 3

专利 基于熵优化安全强化学习的特种设备流程控制方法及系统

专利基于熵优化安全强化学习的特种设备流程控制方法及系统