下载此文档

深度强化学习初探.doc


文档分类:外语学习 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
深度强化学****初探
2016年年初备受瞩目的围棋 “人机大战”,以人类围棋冠军被血虐落下帷幕。这只谷歌DeepMind团队开发的围棋机器人阿法狗不仅赚足了眼球,更是掀起了一波关于人工智能的讨论狂潮。现在好像作报告还是写文章都要把深度强化学****初探
2016年年初备受瞩目的围棋 “人机大战”,以人类围棋冠军被血虐落下帷幕。这只谷歌DeepMind团队开发的围棋机器人阿法狗不仅赚足了眼球,更是掀起了一波关于人工智能的讨论狂潮。现在好像作报告还是写文章都要把阿法狗提一下才能紧跟时代潮流啊(好像也自黑了一下)。其实人家DeepMind不光是下围棋的,在他们的主页上写着大大的 “Solve Intelligence”。要“Solve Intelligence”光会下围棋可不行,还得能像人一样能干各种各样的事情。究竟有些什么样的技术能够作为支撑,使得他们敢说出这样的话呢?见识了阿法狗之后,可能很多人记住了深度学****还有人记住了蒙特卡洛树。其实还有个叫深度强化学****的东西也是DeepMind一直在重点研究的领域。他们在这个方向上做了很多工作。这篇文章,我们抛开阿法狗,来简单看看DeepMind提出的被他们称之为深度强化学****的东西大概是怎么一回事。
大家一看到深度强化学****大概会认为现如今深度学****这么火,什么东西都喜欢拿深度学****去套,也是个跟风的产物吧。当然我们可以这么认为。但是在这个套的过程中DeepMind套得恰到好处,大大扩大了强化学****的应用范围。
深度学****大家可能都比较了解,简单说来就是在多层神经网络的结构下,辅以结构设计和各种梯度技术,能够对比如图像分类之类的问题有很好的效果。它的优点在于不仅能够提供端到端的解决方案,而且能够提取出远比人工特征有效得特征向量。
而强化学****大家可能就比较陌生了。但是要是说起波士顿动力,大家可能就又知道了,前段时间被刷屏的机器人,凭借出色的平衡性给大家留下了深刻的印象。像机器人控制这类领域就大量的使用了强化学****技术。除此之外,游戏领域,比如棋类游戏,甚至用户个性化比如推荐等领域都有应用。
什么是强化学****br/>强化学****其实也是机器学****的一个分支,但是它与我们常见的机器学****比如监督学****supervised learning)不太一样。它讲究在一系列的情景之下,通过多步恰当的决策来达到一个目标,是一种序列多步决策的问题。举一个周志华老师在《机器学****8】中种西瓜的例子来帮助大家理解。种瓜有很多步骤,要经过选种,定期浇水,施肥,除草,杀虫这么多操作之后最终才能收获西瓜。但是,我们往往要到最后收获西瓜之后,才知道种的瓜好不好,也就是说,我们在种瓜过程中执行的某个操作时,并不能立即获得这个操作能不能获得好瓜,仅能得到一个当前的反馈,比如瓜苗看起来更健壮了。因此我们就需要多次种瓜,不断摸索,才能总结一个好的种瓜策略。以后就用这个策略去种瓜。摸索这个策略的过程,实际上就是强化学****可以看到强化学****有别于传统的机器学****我们是不能立即得到标记的,而只能得到一个反馈,也可以说强化学****是一种标记延迟的监督学****br/>通过这个种瓜的过程能够看出来,强化学****实际上和我们人类与环境的交互方式类似。是一套非常通用的框架,可以用来解决各种各样的人工智能的问题。
总结起来,强化学****的目标就是要寻找一个能使得我们获得最大累积奖

深度强化学习初探 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人巧姐
  • 文件大小15 KB
  • 时间2022-01-27