下载此文档

基于优先级经验回放的SAC强化学习算法.pdf


文档分类:IT计算机 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
万方数据
基于优先级经验回放的炕八惴刘庆强,刘鹏云引言到了迅速提升,并在围棋心。⒂蜗穘引、投资交易哺。、推荐系统凹圳以及导航规划¨交互,尝试最大化从环境中得到的奖励获得最优的策略。在尝试学****出最优决策过程;方法通过评估当前状态采取不同动作可得到的累计回报期望,选择期望近期,深度强化学****领域获得了显著的研究进展,提出基于隐式课程学****模式¨5那炕琇相对于有监督学****需要人工标注数据集标签进行学****强化学****算法通过白行与环境惴ā后,强化学****与深度神经网络相结合,使强化学****算法能处理更复杂,维度更高的问题,其表现效果得系玫搅斯惴应用。强化学****算法。总体可被分为三大类:椒ǎ珻椒ê虯—方法。椒ㄖ苯最大的动作间接学****最优策略;瓹橇街炙惴ǖ慕岷希惴ǖ腃糠盅耙愿玫奈蟛钅合值函数,牖肪辰换ゲ⒏軨姆蠢〉陨聿问⑹匝俺鲎钣挪呗浴第卷第吉林大学学报畔⒖蒲О籗算法。通过将优先级经验采样引入惴ǎ雇缬先训练值估计函数误差较大和策略表现不好的样本,从而提高了盗饭痰奈榷ㄐ杂胧樟菜俣取J笛榻果表明,在多个环境及优化算法下,猄算法在训练速度及稳定性上相比于惴ň忻飨蕴嵘:籗年文章编号:摘要:针对惴ㄖ兴醒径家缘雀怕仕婊裳斐裳盗匪俣嚷盗饭滩晃榷ǖ缺点,提出了关键词:深度强化学****狢椒ǎ蛔畲箪兀挥畔燃毒椴裳中图分类号:文献标识码:作者简介:刘庆强ū笔痛笱У缙畔⒐こ萄г海诹笄,琣甀瑆甌瑆甌猄篸;;籶收稿日期:基金项目:国家重大科技专项基金资助项目缓诹匀豢蒲Щ鹱手钅校诹笄烊耍ū笔痛笱Ц苯淌冢妒可际Γ饕4邮滦畔踩ā⒅悄芸刂啤⑿藕糯碛故障诊断研究,—甤,瑃.琋
万方数据
%∑。强化学****惴ḿ坝畔染榛胤后,笨痰慕崩谕梢员幻枋鑫猂。苰。,当前状态的累计回报的期望以∑缸“#琻。仅顾永。識。强化学********算法,使智能体可以不断找到新任务,学****新策略。等¨纠提出基于监督学****的元强化学****算法,能有效帮助探索,利于在稀疏奖励环境中有效学****等¨L岢龌谟邢奘庇蚯罢安呗那炕八惴ǎ米罴咽髀肪斗祷刂当阜莞诘愫蟠担〉昧惴ǎ褂昧礁鲋眯徘涔兰苬值,高的的误差计算狣误差,使误差较大的样本有更大的概率被采样及训练,并使网络优惴ㄑ盗沸屎臀榷ㄐ韵嘟嫌谠糞算法有明显提升,具有较好的性能。框架可以清晰地描述强化学****智能体与环境的交互过程,在马尔科夫决策过程中有四元其动作值。在引入深度神经网络后,强化学****算法中动作值函数妥刺岛齳都可以使用多层神经网络近惴策略评估。惴ǘㄒ錝等缦良好的效果。等¨L岢鯫指导探索,低的防止过拟合。等。岢鯯惴ǎü胱畲箪卦銮苛算法的探索能力和稳定性,并在随后的升级算法。V屑尤肓遂厝ㄖ氐淖远髡谘盗非捌熵部分的权重较大,引导鞫剿骰肪常⒃诤笃谥鸾ニゼ蹯氐娜ㄖ兀肁收敛更加稳定。针对惴ㄖ芯槌厮醒径家缘雀怕仕婊裳雎圆煌揪哂胁煌匾P缘男畔ⅲ斐裳练速度慢,训练过程不稳定的缺点,笔者提出基于优先级经验采样的惴甋:ü谘盗饭讨幸胗畔燃毒椴裳疲备軨虯先训练估值误差较大和策略表现不好的样本。实验结果表明,所提甋强化学****算法通过智能体孕杏牖肪交互,获得环境的反馈指导自身更新,通过尝试最大化奖励期望,而获得一个最优策略矶品蚓霾吖蘉组,琍,,虯分别是环境所有状态投募希琍是环境的不同状态间的转移概率,墙崩乇êT趖时刻,智能体从环境得到状态蔛淙氲讲呗玫蕉口。∈,环境执行该动作返回当前步的奖励蔙⒔胂乱桓鲎刺瑂川。在引入折扣因子琽蜃钣挪呗晕J贾昭≡竦鼻白刺翾值最

基于优先级经验回放的SAC强化学习算法 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人学习好资料
  • 文件大小4.03 MB
  • 时间2021-12-09