1/71
文档分类:IT计算机

面向强化学习的规划优化方法研究.pdf


下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
面向强化学习的规划优化方法研究.pdf
文档介绍:
面向强化学****的规划优化方法研究 中文摘要
面向强化学****的规划优化方法研究
中文摘要
强化学****reinforcement learning, RL)是一类重要的机器学****方法,在智能机器人、
经济学、工业制造和博弈等领域得到了广泛的应用。强化学****是一种从环境状态到动
作映射的学****并期望动作从环境中获得的累积奖赏最大。强化学****可分为两个基本
的过程:学****过程与规划过程。学****是指 Agent 与环境直接交互的过程,并在此过程
中利用获得的直接经验来更新值函数以改进策略。规划是指在环境模型中进行学****的
过程,并在此过程中利用模型产生的模拟经验来更新值函数以改进策略。
针对强化学****方法在处理大状态空间问题时候存在的“维数灾”及收敛速度慢等
普遍的严重问题,本文从提升规划收敛性能的角度出发,分别针对模型已知和模型未
知的强化学****任务提出了 2 种优化的强化学****算法,主要研究内容概括如下:
(1) 提出了一种基于拓扑序列更新的值迭代算法—VI-TS 算法,以提升传统值迭
代算法的收敛速度和稳定性。VI-TS 算法通过构造任务模型的有向图,分解出有向图
的强连通变量,依照拓扑序列计算强连通分量中状态的值函数,以实现整个任务的求
解。分解后的状态空间维度降低了,且算法迭代扫描的次数大幅减少,使得规划效率
显著提高。VI-TS 算法使用启发式搜索剔除动作空间中的非优动作,使得算法具有普
遍适用性。本文分析了 VI-TS 算法收敛性,并通过实验来检验算法的收敛性和适用性。
(2) 提出了一种基于优先级扫描的 Dyna 结构优化算法—Dyna-PS 算法,以进一步
提高传统 Dyna 结构的收敛速度和收敛精度。Dyna-PS 算法在 Dyna 结构规划部分采
用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、
策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一
步提升了 Dyna 结构算法的性能。本文在理论上对 Dyna-PS 的收敛性进行了证明,且
通过实验验证了 Dyna-PS 算法的性能并做了相关分析。
关键词:强化学****规划,拓扑序列,VI-TS,优先级扫描,Dyna-PS
作 者:孙洪坤
指导教师:刘 全(教授)
I
Abstract Research on Optimized Methods of Planning within Reinforcement Learning
Research on Optimized Methods of Planning
within Reinforcement Learning
Abstract
Reinforcement learning is an important kind of machine learning methods that has
been widely applied in robotics, economics, industrial manufacturing and games and so on.
Reinforcement learning is a process of state from the environment mapping to actions and
expects the largest accumulated reward
内容来自淘豆网www.taodocs.com转载请标明出处.
相关文档
非法内容举报中心
文档信息
  • 页数71
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wxc6688
  • 文件大小1.20 MB
  • 时间2021-09-23