- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
下面就是正文了。限于译者水平,肯定会有不少翻译甚至是理解上的错
误,请多包涵,望多交流。谢谢。
这是一篇迟来很久的关于增强学习(ReinforcementLearning,RL)博
文。增强学习最近非常火!你一定有所了解,现在的计算机能不但能够
被全自动地训练去玩儿ATARI(译注:一种游戏机)游戏(直接输入游戏的
原生的像素数据),还能击败围棋的世界冠军、模拟四足动物上蹿下
跳。机器人还能学习如何进行复杂的控制任务,甚至比直接编写的程序
效果还要好。这些在各个方面的领先都应该被归功于增强学习遍地开花
般的研究。我在过去几年中也对增强学习非常感:我完成了
RichardSutton的书,看完了DavidSilver的课程,看了JohnSchulmann
的讲义,写了一个基于Javascript的增强学习的库,并且在DeepMind公
司的DeepRL组实习了一个夏天,而最近的工作有些涉及到一个全新的增
强学习评测工具箱OpenAIGym的设计和开发。所以我实际上已经在这条
贼船上带了一整年,但是直到现在我还没抽出时间去写一篇简短的博客
来阐述增强学习是什么、为什么增强学习这么重要、如何开发一个增强
学习的程序,以及它的应用背景会是什么。
几个增强学习的例子。从左到右:深度Q络玩儿ATARI,
AlphaGo,伯克利堆积木机器人Legos,模拟的四足动物在地面奔
跑。
回忆一下增强学习近期进展的本质是一件很有趣的事情。我比较直白地
认为人工智能受到了以下一个因素的掣肘(此处原文为holdbackAI,总
觉得有些怪怪的):
1.计算能力(显而易见:摩尔定律、显卡、)
2.数据(带有良好的结构,而不是散落在互联网上-比如说
ImageNet)
3.算法(研究和一些点子,比如说BP反向,CNN,LSTM)
4.基础设施(软件,比如Linux,TCP/IP,Git,ROS,PR2,AWS,
AMT,TensorFlow等等)
与计算机视觉界所经历的一样,增强学习的发展进程不像想你想的那样
于什么惊世骇俗的灵感。在计算机视觉界,2012年的AlexNet几乎就
是10年代卷积神经网络(ConvNets)的高规格版本。与之相似的是,
2013年ATARI的深度Q学习(DeepQLearning)的实际上在功能上
近似于一个标准的算法(Q学习,QLearning,函数近,你可以在
Sutton18年编写的标准的增强学习书籍上找到),函数近实际上使
用了一个卷积网络。AlphaGo使用了带有蒙特卡洛树有哪些信誉好的足球投注网站的策略梯度
(Gradients),其实这些也是惯用的组件。当然,也还需要用到
大量的技巧和一点儿耐心让它能够正确地运转起来,同时也需要在那些
之前被传统算法中应用上一些聪明的小技巧,但是对于一阶近似
来说,能产生如此巨大的成就并不是取决于算法,而是(与计算机视觉
类似)据取决计算能力、数据和基础设施。
话题回到增强学习。我很喜欢去写博客来说明一件看上去很梦幻的东西
和其背后的简单的原理。【译注:这句话的原话语法结构太复杂了,驾
驭不住啊】。我见过很多人不敢相信我们能够全自动地让机器像人类一
样学会去玩儿大部分ATARI游戏,甚至只需要一个算法、直接输入像素、
从零做起,效果非常,尝试过。但是我们所用的方法其
实非常的简单(尽管我知道现在回想起来好像这么说会一些争
议)。无论如何,我将会带你了解Gradients算法(PG),即在这
个时候了解增强学习的最佳切入点。如果还是个怎强学习的门外汉,你
一定会好奇为什么我不去介绍DQN算法呢?它可是一个更广为人知的增
强学习算法,并且在玩儿ATARI游戏的中经
文档评论(0)