(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111478934.2
(22)申请日 2021.12.0 6
(71)申请人 天津大学
地址 300072 天津市南 开区卫津路9 2号
(72)发明人 王聪 杨天培 郝建业 郑岩
马亿
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
代理人 李素兰
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
基于环境动态分解模型的深度强化学习方
法
(57)摘要
本发明公开了一种本发明的基于环境动态
分解模型的深度强化学习方法, 包括环境分解方
式的确定、 环 境分解模型的建立和与深度强化学
习结合, 优化非基于模型的深度强化学习方法三
个部分, 动态进行分解建模来提高环境建模质
量, 最后我们结合基于模型的深度强化学习方
法, 来生成策略。 与现有技术相比, 本发 明实现了
分解模型与一般强化学习方法的结合, 通过提出
新的分解网络结构, 极大地提高了环 境建模的准
确性, 从而提高了基于模型的深度强化学习方法
的学习效果。
权利要求书2页 说明书5页 附图3页
CN 114154582 A
2022.03.08
CN 114154582 A
1.一种基于环境动态分解模型的深度强化学习方法, 其特征在于, 该方法具体包括以
下步骤:
步骤1: 进行环境动态分解, 包括: 首先对每个动作维度进行特征值的提取, 这一特征值
为每个动作维度与所有状态维度之 间的皮尔逊相关系数; 随后依据特征向量进行动作维度
的聚类, 将相似的动作维度聚类到一起, 相异的分到不同的簇中; 最后将聚类的结果作为对
环境动态的分解结果;
步骤2: 建立环境动态分解模型, 包括: 首先确定以多个环境动态模型建模环境动态 的
底层框架, 模型 的数量将对应于环境分解过程中所发现的子动态的数量, 使用每一个模型
分别预测每一个子动态; 每一个子动态对应的子模型都输入当前的状态以及相对应的动作
空间中的动作, 来预测一个相应的变量, 输出一个隐空间变量; 随后用子模型来预测一个隐
空间变量; 在所有的子模型预测完 毕后, 把所有子模型的预测结果融合起来, 通过一个融合
神经网络, 最后输出一个预测结果; 从这个预测结果中, 使用解码网络来解码出下一个时刻
的状态s以及这 一过程的奖励r;
步骤3: 实现环境动态分解模型与深度强化学习的结合, 优化非基于模型的深度强化学
习方法。
2.如权利要求1所述的基于环境动态分解模型的深度强化学习方法, 其特征在于, 所述
步骤1进一 步包括以下处 理:
步骤1.1: 确定环境动态与动作之间的关系;
步骤1.2: 对动作维度进行 特征提取;
对动作维度进行分解相当于对环境动态进行分解, 首先对每个动作维度进行相关特征
值的提取, 具体每个动作维度与所有状态维度之间的皮尔逊相关系数来作为该动作维度的
特征向量; 动作维度的特 征向量表达式如下:
Fi=<|fi, 1, ..., fi, n|>
fi,j表达式如下:
其中, n为状态 维度大小, a为动作向量, Δs为由于执行动作a而产生的状态变化量, i,j
为对应的维度, cov()为协方差,
为第i维度的动作向量的标准差,
为第j维度的状态
变化量的标准差, fi,j为动作维度i与状态维度j的变化 量之间的皮尔逊相关系数 数值;
步骤1.3: 根据动作维度的特 征向量使用聚类算法进行动作空间的环境动态分解;
以每个动作维度的特征向量作为是否与其他动作维度进行聚类的依据; 同时会设置一
个阈值, 当同一个簇内的动作维度的相似性较高, 不同簇间的动作维度间的差异 性较高时,
将终止聚类过程, 并且使用当前的聚类结果作为分解方案 。
3.如权利要求1所述的基于环境动态分解模型的深度强化学习方法, 其特征在于, 所述
隐空间变量如下式所示:
权 利 要 求 书 1/2 页
2
CN 114154582 A
2其中, h为空间变量, s为上一时间步t ‑1的状态,
为上一时间步t ‑1在Gm空间下的动
作值, k为环境动态分解为子动态的个数,
为对环境动态分解后的第m个
环境子动态的建模。
4.如权利要求1所述的基于环境动态分解模型的深度强化学习方法, 其特征在于, 所述
步骤3采用dyna ‑style类方法, 具体包括: 使用建模的环境模型来产生更多的训练数据, 来
进行策略优化。
5.如权利要求1所述的基于环境动态分解模型的深度强化学习方法, 其特征在于, 所述
步骤3采用analytical gradient方法的, 具体包括: 首先使用环 境模型产生很多条轨迹, 随
后使用一种收益的计算方式来计算每条轨迹上面的收益, 最后直接最大化这些计算出来的
收益, 直接优化模型产生的轨 迹, 来进行 策略优化。权 利 要 求 书 2/2 页
3
CN 114154582 A
3
专利 基于环境动态分解模型的深度强化学习方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:21:48上传分享