下面就正文了限于译者水平肯定会有不少翻译甚至理解上错deep reinforcement learning pong.pdfVIP

下载本文档

0
0
约2.21万字
约 23页
2024-10-30 发布于北京
举报
版权申诉

下面就正文了限于译者水平肯定会有不少翻译甚至理解上错deep reinforcement learning pong.pdf

1、本文档共23页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

下面就是正文了。限于译者水平，肯定会有不少翻译甚至是理解上的错

误，请多包涵，望多交流。谢谢。

这是一篇迟来很久的关于增强学习（ReinforcementLearning,RL）博

文。增强学习最近非常火！你一定有所了解，现在的计算机能不但能够

被全自动地训练去玩儿ATARI(译注：一种游戏机)游戏（直接输入游戏的

原生的像素数据），还能击败围棋的世界冠军、模拟四足动物上蹿下

跳。机器人还能学习如何进行复杂的控制任务，甚至比直接编写的程序

效果还要好。这些在各个方面的领先都应该被归功于增强学习遍地开花

般的研究。我在过去几年中也对增强学习非常感：我完成了

RichardSutton的书，看完了DavidSilver的课程，看了JohnSchulmann

的讲义，写了一个基于Javascript的增强学习的库，并且在DeepMind公

司的DeepRL组实习了一个夏天，而最近的工作有些涉及到一个全新的增

强学习评测工具箱OpenAIGym的设计和开发。所以我实际上已经在这条

贼船上带了一整年，但是直到现在我还没抽出时间去写一篇简短的博客

来阐述增强学习是什么、为什么增强学习这么重要、如何开发一个增强

学习的程序，以及它的应用背景会是什么。

几个增强学习的例子。从左到右：深度Q络玩儿ATARI，

AlphaGo，伯克利堆积木机器人Legos，模拟的四足动物在地面奔

跑。

回忆一下增强学习近期进展的本质是一件很有趣的事情。我比较直白地

认为人工智能受到了以下一个因素的掣肘（此处原文为holdbackAI，总

觉得有些怪怪的）：

1.计算能力（显而易见：摩尔定律、显卡、）

2.数据（带有良好的结构，而不是散落在互联网上-比如说

ImageNet）

3.算法（研究和一些点子，比如说BP反向，CNN，LSTM）

4.基础设施（软件，比如Linux，TCP/IP，Git，ROS，PR2，AWS，

AMT，TensorFlow等等）

与计算机视觉界所经历的一样，增强学习的发展进程不像想你想的那样

于什么惊世骇俗的灵感。在计算机视觉界，2012年的AlexNet几乎就

是10年代卷积神经网络（ConvNets）的高规格版本。与之相似的是，

2013年ATARI的深度Q学习（DeepQLearning）的实际上在功能上

近似于一个标准的算法（Q学习，QLearning，函数近，你可以在

Sutton18年编写的标准的增强学习书籍上找到），函数近实际上使

用了一个卷积网络。AlphaGo使用了带有蒙特卡洛树有哪些信誉好的足球投注网站的策略梯度

（Gradients），其实这些也是惯用的组件。当然，也还需要用到

大量的技巧和一点儿耐心让它能够正确地运转起来，同时也需要在那些

之前被传统算法中应用上一些聪明的小技巧，但是对于一阶近似

来说，能产生如此巨大的成就并不是取决于算法，而是（与计算机视觉

类似）据取决计算能力、数据和基础设施。

话题回到增强学习。我很喜欢去写博客来说明一件看上去很梦幻的东西

和其背后的简单的原理。【译注：这句话的原话语法结构太复杂了，驾

驭不住啊】。我见过很多人不敢相信我们能够全自动地让机器像人类一

样学会去玩儿大部分ATARI游戏，甚至只需要一个算法、直接输入像素、

从零做起，效果非常，尝试过。但是我们所用的方法其

实非常的简单（尽管我知道现在回想起来好像这么说会一些争

议）。无论如何，我将会带你了解Gradients算法（PG），即在这

个时候了解增强学习的最佳切入点。如果还是个怎强学习的门外汉，你

一定会好奇为什么我不去介绍DQN算法呢？它可是一个更广为人知的增

强学习算法，并且在玩儿ATARI游戏的中经

您可能关注的文档

文档评论（0）

158****9376 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

下面就正文了限于译者水平肯定会有不少翻译甚至理解上错deep reinforcement learning pong.pdfVIP