下载此文档

面向强化学习的规划优化方法研究.pdf

文档分类：IT计算机 | 页数：约71页举报非法文档有奖

1/71

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/71 下载此文档

文档列表 文档介绍

面向强化学****的规划优化方法研究中文摘要
面向强化学****的规划优化方法研究
中文摘要
强化学****reinforcement learning, RL)是一类重要的机器学****方法，在智能机器人、
经济学、工业制造和博弈等领域得到了广泛的应用。强化学****是一种从环境状态到动
作映射的学****并期望动作从环境中获得的累积奖赏最大。强化学****可分为两个基本
的过程：学****过程与规划过程。学****是指 Agent 与环境直接交互的过程，并在此过程
中利用获得的直接经验来更新值函数以改进策略。规划是指在环境模型中进行学****的
过程，并在此过程中利用模型产生的模拟经验来更新值函数以改进策略。
针对强化学****方法在处理大状态空间问题时候存在的“维数灾”及收敛速度慢等
普遍的严重问题，本文从提升规划收敛性能的角度出发，分别针对模型已知和模型未
知的强化学****任务提出了 2 种优化的强化学****算法，主要研究内容概括如下：
(1) 提出了一种基于拓扑序列更新的值迭代算法—VI-TS 算法，以提升传统值迭
代算法的收敛速度和稳定性。VI-TS 算法通过构造任务模型的有向图，分解出有向图
的强连通变量，依照拓扑序列计算强连通分量中状态的值函数，以实现整个任务的求
解。分解后的状态空间维度降低了，且算法迭代扫描的次数大幅减少，使得规划效率
显著提高。VI-TS 算法使用启发式搜索剔除动作空间中的非优动作，使得算法具有普
遍适用性。本文分析了 VI-TS 算法收敛性，并通过实验来检验算法的收敛性和适用性。
(2) 提出了一种基于优先级扫描的 Dyna 结构优化算法—Dyna-PS 算法，以进一步
提高传统 Dyna 结构的收敛速度和收敛精度。Dyna-PS 算法在 Dyna 结构规划部分采
用优先级扫描算法的思想，对优先级函数值高的状态优先更新，剔除了传统值迭代、
策略迭代过程中不相关和无更新意义的状态更新，提升了规划的收敛效率，从而进一
步提升了 Dyna 结构算法的性能。本文在理论上对 Dyna-PS 的收敛性进行了证明，且
通过实验验证了 Dyna-PS 算法的性能并做了相关分析。
关键词：强化学****规划，拓扑序列，VI-TS，优先级扫描，Dyna-PS
作者：孙洪坤
指导教师：刘全（教授）
I
Abstract Research on Optimized Methods of Planning within Reinforcement Learning
Research on Optimized Methods of Planning
within Reinforcement Learning
Abstract
Reinforcement learning is an important kind of machine learning methods that has
been widely applied in robotics, economics, industrial manufacturing and games and so on.
Reinforcement learning is a process of state from the environment mapping to actions and
expects the largest accumulated reward of the actions from the environment.

面向强化学习的规划优化方法研究来自淘豆网www.taodocs.com转载请标明出处.