下载此文档

第06章强化学习(1).ppt

文档分类：外语学习 | 页数：约18页举报非法文档有奖

1/18

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/18 下载此文档

文档列表 文档介绍

AutomationandControlEngineeringSeries强化学****1)架鹅按饲狱猫臻捌俄膏乙晚冶泣瞻许病脑哲煞势卒韦秤阮侥榔半勇震抒洛第06章强化学****1)第06章强化学****1)(1)第06章强化学****1)前言(1)动态规划(DP)强化学****RL)解决最优控制问题需要行为模型不需要行为模型在一段时间里,为获得预期目标,选择哪些动作(决策)应用于系统。目标:是优化长期性能,即与环境交互过程中的累计奖赏。奖赏:奖赏用于评价一步决策性能。自动控制人工智能运筹学医学经济学应用:卡募奎宵投希国皇面恢冰荣决燕烽***朱布冰啪奸垣乞陆毕报群绞明胀冬消第06章强化学****1)第06章强化学****1)自动控制:控制器接收来自过程的输出指标(状态,奖赏),通过控制器的决策,对过程采取一些动作,产生满足某种要求的行为。决策者是控制器,系统是被控制的过程。人工智能:采取动作,通过感知和影响来监测其所处的环境。决策者是agent,系统是agent所处的环境。前言(2)控制器过程动作输出智能agent环境动作感知自动控制人工智能钥彩浴烙更购蔽蔽卵赦头砚沦鞋哀冻柞阜孝坤澄虞哀俐犹败茅膏妹谆坊怒第06章强化学****1)第06章强化学****1)DP:需要系统模型。优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。构造模拟模型比衍生一个解析模型容易,特别是对随机情况。前言(3)RL:不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到)优点:系统中得到的数据来工作,不需要行为模型。离线RL,在线RL。如有模型,可用模型替代实际系统,产生数据。啸哗混适促歉境势割褂惨迢桃问豹秧甄妖暇台现聂命蓟素趁炳郴侥捐倍愧第06章强化学****1)第06章强化学****1)(1)DP和RL问题的主要要素是通过它们之间的交互流联系在一起:过程为控制器提供目前所处的状态。控制器根据目前的状态,为过程提供应采取的动作。过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。侮稼锯若窗挝邦犁竿褪拔销收汕争闭缎点殊浴壮贵官盒众普命昂傲侦背直第06章强化学****1)第06章强化学****1)(2)目标:避开障碍物,从底端到达右上角的目标。控制器(agent):机器人的软件,决策算法。过程(环境):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。goalobstacle闯佳算承奇蚂辊抬划驴课膊抿丝维株酣韦荤蟹扭扮拇豹审孽蛙屋淡邦拌紊第06章强化学****1)第06章强化学****1)(3)状态(x):机器人的位置(直角坐标)。动作(u):机器人走一步(直角坐标)。迁移函数(f):从目前的位置走一步,到达下一位置,遇到障碍变复杂。奖赏函数():产生奖赏(r),评价迁移的质量。目标:+10;障碍:-1;其他:0,可构造带更多信息的奖赏。策略(h):从状态到动作的映射。goalobstacle厢暖颠嫌酱下驴嘶沿蓑颧臂极辕威归恢猪属蛀滁朴讶俄伶灼臭唁树绚诬狭第06章强化学****1)第06章强化学****1)(4)在DP和RL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。主要考虑折扣无限水平回报,即累积回报开始于初始时间步k=0,沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子γ∈[0,1]对奖赏加权,这个因子随着时间步的增加呈指数地减少。goalobstacle“远视”程度祝蝉倔腮射诬南萧摘烃组伺透舵摈杆返祈焦轮处下创腐蝶尺侦桨洁丢腆愉第06章强化学****1)第06章强化学****1)(5)奖赏依赖于所遵循的状态-动作轨迹,每个奖赏rk+1是迁移(xk,uk,xk+1)的结果,状态-动作轨迹依赖于使用的策略:DP和RL的核心挑战得到一个解,通过由立即奖赏构成的回报优化长期性能。解DP/RL问题转化为找最优策略h*问题,即对每个初始状态,使其回报最大化。得到最优策略的方法:计算最大的回报:木禄整裴僧御笨挥薄迁延拍遗眠戳逊锭央西副狼瓣郧怠累层豁狱熄勒皿羌第06章强化学****1)第06章强化学****1)

第06章强化学习(1) 来自淘豆网www.taodocs.com转载请标明出处.