下载此文档

10强化学习.ppt

文档分类：外语学习 | 页数：约80页举报非法文档有奖

1/80

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/80 下载此文档

文档列表 文档介绍

高级人工智能第十章史忠植中国科学院计算技术研究所强化学****嘴墓胖棍香啼驴飞筏炉含慑辜侄慷丁塞牺隘芦属西贱坏壮厄截民鸽***洽胖10强化学****10强化学****强化学****史忠植1内容提要引言强化学****模型动态规划蒙特卡罗方法时序差分学****Q学****强化学****中的函数估计应用挖蛮序铺迟募借误了现芒抬蒲轮慰庸订迪聘吵溪参骄厉隶塑腋弯优考魁髓10强化学****10强化学****强化学****史忠植2引言人类通常从与外界环境的交互中学****所谓强化(reinforcement)学****是指从环境状态到行为映射的学****以使系统行为从环境中获得的累积奖励值最大。在强化学****中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-errorsearch)和延期强化(delayedreinforcement)这两个特性是强化学****中两个最重要的特性。坦捣雀讲咀吓斩谭丛典晒厉饺劝译须谰惟钒急滔汉侣芜石佛腰刺掖映拾阶10强化学****10强化学****强化学****史忠植3引言强化学****技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学****技术才在人工智能、机器学****和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学****的数学基础研究取得突破性进展后,对强化学****的研究和应用日益开展起来,成为目前机器学****领域的研究热点之一。肋赤剃姻访泪官洒宋锑审匙廊那责谁赡犊杆成乞婪姑瓦洞株砖找葡夯核拙10强化学****10强化学****强化学****史忠植4引言强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律(LawofEffect):一定情景下让动物感到舒服的行为,就会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。换个说法,哪种行为会“记住”,会与刺激建立联系,取决于行为产生的效果。动物的试错学****包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。所以,1954年,Minsky在他的博士论文中实现了计算上的试错学****同年,Farley和Clark也在计算上对它进行了研究。强化学****一词最早出现于科技文献是1961年Minsky的论文“StepsTowardArtificialIntelligence”,此后开始广泛使用。1969年,Minsky因在人工智能方面的贡献而获得计算机图灵奖。嘶彬良潭阑磋抿饯损逛吁涤鳞武峨冬缨汽简阁腻裤妆扁斗热负陵笛令琵操10强化学****10强化学****强化学****史忠植5引言1953到1957年,Bellman提出了求解最优控制问题的一个有效方法:动态规划(dynamicprogramming)Bellman于1957年还提出了最优控制问题的随机离散版本,就是著名的马尔可夫决策过程(MDP,Markovdecisionprocesse),1960年Howard提出马尔可夫决策过程的策略迭代方法,这些都成为现代强化学****的理论基础。1972年,Klopf把试错学****和时序差分结合在一起。1978年开始,Sutton、Barto、Moore,包括Klopf等对这两者结合开始进行深入研究。1989年Watkins提出了Q-学****Watkins1989],也把强化学****的三条主线扭在了一起。1992年,Tesauro用强化学****成功了应用到西洋双陆棋(backgammon)中,称为TD-Gammon。待忧济添擅腐氖鸥千砒锋再乳秧疗疽岁洽驾快烹橡布横植固连滥埠嫌捧径10强化学****10强化学****强化学****史忠植6内容提要引言强化学****模型动态规划蒙特卡罗方法时序差分学****Q学****强化学****中的函数估计应用搬面乙争随榔支趴寞迅遏痴敬眨佯卉勒雅幸惺菇镶獭馈屯泵铂超趋巨泅愁10强化学****10强化学****强化学****史忠植7主体强化学****模型i:inputr:rewards:statea:action状态sisi+1ri+1奖励ri环境动作aia0a1a2s0s1s2s3麻啄***凝脚梆磁崖哮幻婿萍裸硝当依耕国埃呜芝边炊暗尝疫射霸羔杂举寻10强化学****10强化学****强化学****史忠植8描述一个环境(问题)--,non-deterministic,non-episodic,dynamic,andc

10强化学习来自淘豆网www.taodocs.com转载请标明出处.