下载此文档

java坦克机器人系列强化学习.doc

文档分类：IT计算机 | 页数：约14页举报非法文档有奖

1/14

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/14 下载此文档

文档列表 文档介绍

Java 坦克机器人系列强化学****br/>
人工智能Java坦克机器人系列:强化学****文档选项[img,8,1]///[img,16,16]///v14/icons/[url=javascript:print()]打印本页[/url]
');//--[url=javascript:print()]打印本页[/url]
[img,8,1]///[img,16,16]///v14/icons/[url=javascript:();]将此页作为电子邮件发送[/url]
');//--[url=javascript:();]将此页作为电子邮件发送[/url]
[img,8,1]///[img,16,16]///
级别:中级
编程游戏爱好者,自由撰稿人
本文中,我们将使用强化学****来实现一个机器人。使用强化学****能创建一个自适应的战斗机器人。这个机器人能在战斗中根据环境取得最好的策略,并尽力使战斗行为最佳。并在此过程中不断学****以完善自身不足。Robocode是IBM开发的Java战斗机器人平台,游戏者可以在平台上设计一个Java坦克。每个坦克有个从战场上收集信息的感应器,并且它们还有一个执行动作的传动器。其规则和原理类似于现实中的坦克战斗。其融合了机器学****物理、数学等知识,是研究人工智能的很好工具。
在Robocode坦克程序中,很多爱好者喜欢设计一些策略与移动模式,让自己的坦克机器人能更好的赢得战斗。但是由于Robocode环境时刻在变化,手写的代码只能对已知的环境做一些预测,机器人不能根据环境的变化而自我学****和改善。本文中,将用强化学****实现一个机器人。使用强化学****能创建一个自适应的战斗机器人。这个机器人能在战斗中根据环境取得最好的策略,并尽力使战斗行为最佳。并在此过程中不断学****以完善自身不足。
强化学****br/>强化学****reinforcement learning)是人工智能中策略学****的一种,是一种重要的机器学****方法,又称再励学****参数扰动自适应控制等理论发展而来.
强化学****一词来自于行为心理学,这一理论把行为学****看成是反复试验的过程,从而把动态环境状态映射成相应的动作。它通过不断尝试错误,从环境中得到奖惩的方法来自主学****到不同状态下哪些动作具有最大的价值,从而发现或逼近能够得到最大奖励的策略。它类似于传统经验中的"吃一堑长一智"。
原理与模型
考虑建造一个可学****的机器人,该机器人(或agent)有一些传感器可以观察其环境的状态(state)并能做出一组动作(action)来适应这些状态。比如:一个移动的机器人有摄像头等传感器来感知状态,并可以做"前进","后退"等动作。学****的任务是获得一个控制策略(policy),以选择能达到的目的的行为。
强化学****基本原理也是基于上面的思想:如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标可被定义为一个奖赏或回报函数(reward),它对Agent从不同状态中选取的不同动作赋予一个数字值,即立即支付(immediate payoff)。比如机器人寻找箱子中的回报函数:对能找到的状态-动作赋予正回报,对其他状态动作赋予零或负回报。机器人的任务执行一系列动作,观察结果,再学****控制策略,我们希望的控制策略是在任何初始离散状态中选择动作,使Agent随时间累积中发现最优策略以使期望的折扣奖赏(回报)和最大。
如图描述:Agent选择一个动作(action)用于环境,环境(Enviironment)接受该动作后状态(state)发生变化,同时产生一个强化信号(奖赏reward)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。
强化学****的基本模型
Q学****Q-learning)
增强学****要解决的问题:一个能够感知环境的自治Agent,怎样通过学****选择达到其目标的最优动作。这样一个Agent在任意的环境中如何学到最优策略是我们要重点考虑的对象,下面介绍的称为Q学****的算法,就是其中比较好的一种强化学****算法,它可从有延迟的回报中获取最优控制策略。
Q学****是强化学****的一种形式,机器人在任意的环境中直接学****最优策略很难,因为训练数据中没有提供s,a形式的训练样例。而通过学****一个定义在状态和动作上的数值评估函数,然后以此评估函数的形式实现最优策略将会使过程变得容易。
我们在Q学****中把Q表示在状态s进行t动作的预期值;s是状态向量;a是

java坦克机器人系列强化学习来自淘豆网www.taodocs.com转载请标明出处.