下载此文档

机器学习(13)增强学习.ppt


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏概述增强学****要解决的问题:一个能够感知环境的自治agent,怎样通过学****选择能达到其目标的最优动作当agent在其环境中做出每个动作,施教者提供奖励或惩罚信息,agent从这个非直接的回报中学****以便后续动作产生最大的累积回报本章介绍一个称为Q学****的算法,它可从有延迟的回报中获取最优控制策略增强学****与动态规划算法有关,-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏简介考虑一个可学****的机器人,它可以观察环境的状态并能做出一组动作改变这些状态,学****的任务是获得一个控制策略,以选择能达到目的的行为本章关心的是:机器人怎样在环境中做实验并根据回报函数成功学****到控制策略图13-1,学****控制策略以使累积回报最大化这个问题很普遍,它是一个通过学****来控制序列过程的问题,比如生产优化问题:选择一系列生产动作,使生产出的货物减去其成本达到最大化出租车调度:选择出租车运载乘客,-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏简介(2)学****控制策略类似前面讨论过的函数逼近问题,这里待学****的目标函数是控制策略:SA,它在给定当前状态S集合中的s时,-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏简介(3)增强学****问题与普通函数逼近问题有几个重要的不同:延迟回报:施教者只在机器人执行其序列动作时提供一个序列立即回报值,因此面临一个时间信用分配的问题:确定最终回报的生成应归功于序列中哪一个动作探索:学****器面临一个权衡过程,是选择探索未知的状态和动作,还是选择利用它已经学****过、会产生高回报的状态和动作部分可观察状态:机器人的传感器只能感知环境的部分状态终生学****增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏学****任务本节我们把学****序列控制策略的问题更精确地形式化,有多种可选择的形式化方法,比如机器人的行为是确定性或非确定性的机器人可以预测或不能预测每一个行为所产生的状态机器人由外部专家通过示例最优动作序列来训练或必须通过执行自己选择的动作来训练...-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏学****任务(2)我们基于马尔科夫决策过程定义学****控制策略问题的一般形式设机器人可感知到其环境的不同状态集合S,可执行的动作集合A在每个离散时间步t,机器人感知到当前状态st,选择当前动作at,环境给出回报rt+1=r(st,at),并产生后继状态st+1=(st,at)注意:回报函数和后继状态函数只依赖于当前状态和动作,这里先考虑它们为确定性的情形定义:策略-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏学****任务(2)上面定义的量又称为折算累积回报,还有其他一些整体回报的定义:有限水平回报、平均回报定义:学****控制策略的任务是,要求机器人学****到一个策略,使得对于所有状态s,V(s)为最大,表示为最优策略的值函数记作V*(s)图13-2,-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏Q学****机器人在任意的环境中直接学****最优策略很难,因为没有形式为<s,a>的训练样例很明显,可以将V*作为待学****的评估函数,由于状态s下的最优动作是使立即回报r(s,a)加上立即后继状态的V*值最大的动作a,即 因此,如果具有回报函数和状态转移函数的完美知识,那么就可以计算出任意状态下的最优动作但在实际问题中,-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏Q函数对于无法知道回报函数和状态转移函数完美知识的情形,我们使用评估函数Q评估函数Q的定义::因此只需对当前状态的Q值做出反应,-增强学****作者:Mitchell译者:曾华军等讲者:陶晓鹏

机器学习(13)增强学习 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人marry201208
  • 文件大小163 KB
  • 时间2019-05-17
最近更新