专利 基于环境动态分解模型的深度强化学习方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111478934.2 (22)申请日 2021.12.0 6 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人王聪　杨天培　郝建业　郑岩　马亿　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 代理人李素兰 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于环境动态分解模型的深度强化学习方法 (57)摘要本发明公开了一种本发明的基于环境动态分解模型的深度强化学习方法，包括环境分解方式的确定、环境分解模型的建立和与深度强化学习结合，优化非基于模型的深度强化学习方法三个部分，动态进行分解建模来提高环境建模质量，最后我们结合基于模型的深度强化学习方法，来生成策略。与现有技术相比，本发明实现了分解模型与一般强化学习方法的结合，通过提出新的分解网络结构，极大地提高了环境建模的准确性，从而提高了基于模型的深度强化学习方法的学习效果。权利要求书2页说明书5页附图3页 CN 114154582 A 2022.03.08 CN 114154582 A 1.一种基于环境动态分解模型的深度强化学习方法，其特征在于，该方法具体包括以下步骤：步骤1：进行环境动态分解，包括：首先对每个动作维度进行特征值的提取，这一特征值为每个动作维度与所有状态维度之间的皮尔逊相关系数；随后依据特征向量进行动作维度的聚类，将相似的动作维度聚类到一起，相异的分到不同的簇中；最后将聚类的结果作为对环境动态的分解结果；步骤2：建立环境动态分解模型，包括：首先确定以多个环境动态模型建模环境动态的底层框架，模型的数量将对应于环境分解过程中所发现的子动态的数量，使用每一个模型分别预测每一个子动态；每一个子动态对应的子模型都输入当前的状态以及相对应的动作空间中的动作，来预测一个相应的变量，输出一个隐空间变量；随后用子模型来预测一个隐空间变量；在所有的子模型预测完毕后，把所有子模型的预测结果融合起来，通过一个融合神经网络，最后输出一个预测结果；从这个预测结果中，使用解码网络来解码出下一个时刻的状态s以及这一过程的奖励r；步骤3：实现环境动态分解模型与深度强化学习的结合，优化非基于模型的深度强化学习方法。 2.如权利要求1所述的基于环境动态分解模型的深度强化学习方法，其特征在于，所述步骤1进一步包括以下处理：步骤1.1：确定环境动态与动作之间的关系；步骤1.2：对动作维度进行特征提取；对动作维度进行分解相当于对环境动态进行分解，首先对每个动作维度进行相关特征值的提取，具体每个动作维度与所有状态维度之间的皮尔逊相关系数来作为该动作维度的特征向量；动作维度的特征向量表达式如下： Fi＝<|fi， 1， ...， fi， n|> fi,j表达式如下：其中， n为状态维度大小， a为动作向量， Δs为由于执行动作a而产生的状态变化量， i,j 为对应的维度， cov()为协方差，为第i维度的动作向量的标准差，为第j维度的状态变化量的标准差， fi,j为动作维度i与状态维度j的变化量之间的皮尔逊相关系数数值；步骤1.3：根据动作维度的特征向量使用聚类算法进行动作空间的环境动态分解；以每个动作维度的特征向量作为是否与其他动作维度进行聚类的依据；同时会设置一个阈值，当同一个簇内的动作维度的相似性较高，不同簇间的动作维度间的差异性较高时，将终止聚类过程，并且使用当前的聚类结果作为分解方案。 3.如权利要求1所述的基于环境动态分解模型的深度强化学习方法，其特征在于，所述隐空间变量如下式所示：权　利　要　求　书 1/2 页 2 CN 114154582 A 2其中， h为空间变量， s为上一时间步t ‑1的状态，为上一时间步t ‑1在Gm空间下的动作值， k为环境动态分解为子动态的个数，为对环境动态分解后的第m个环境子动态的建模。 4.如权利要求1所述的基于环境动态分解模型的深度强化学习方法，其特征在于，所述步骤3采用dyna ‑style类方法，具体包括：使用建模的环境模型来产生更多的训练数据，来进行策略优化。 5.如权利要求1所述的基于环境动态分解模型的深度强化学习方法，其特征在于，所述步骤3采用analytical gradient方法的，具体包括：首先使用环境模型产生很多条轨迹，随后使用一种收益的计算方式来计算每条轨迹上面的收益，最后直接最大化这些计算出来的收益，直接优化模型产生的轨迹，来进行策略优化。权　利　要　求　书 2/2 页 3 CN 114154582 A 3

专利 基于环境动态分解模型的深度强化学习方法

专利基于环境动态分解模型的深度强化学习方法