- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人人工工智智能能的的新新希希望望——强强化化学学习习全全解解
雷锋网按:本文来自大数据文摘,原文作者FAIZAN SHAIKH, Jennifer Zhu、赖小
娟、张礼俊编译。雷锋网授权发布。
很多人说,强化学习被认为是真正的人工智能的希望。本文将从7个方面带你入门强
化学习,读完本文,希望你对强化学习及实战中实现算法有着更透彻的了解。
|介绍
许多科学家都在研究的一个最基本的问题是“人类如何学习新技能?”。理 显而易见
——如果我们能解答这个问题,人类就能做到很多我们以前没想到的事情。另一种可
能是我们训练机器去做更多的“人类”任务,创造出真正的人工智能。
虽然我们还没有上述问题的全部答案,但有一些事情是清楚的。不论哪种技能,我们
都是先通过与环境的互动来学习它。无论是学习驾驶汽车还是婴儿学步,我们的学习
都是基于与环境的互动。 从这些互动中学习是所有关于学习与智力的理论的基础概
念。
强化学习
今天我们将探讨强化学习 (Re-inforcement Learning),一种基于与环境互动的目标导
向的学习。强化学习被认为是真正的人工智能的希望。我们认为这是正确的说法,因
为强化学习拥有巨大的潜力。
强化学习正在迅速发展。它已经为不同的应用构建了相应的机器学习算法。因此,熟
悉强化学习的技术会对深入学习和使用机器学习非常有帮助。如果您还没听说过强化
学习,我建议您阅读我之前关于 (RL )平台的介绍文章。强化学习和开源强化学习
如果您已经了解了一些强化学习的基础知识,请继续阅读本文。读完本文,您将会对
强化学习及实战中实现算法有着更透彻的了解。
附:下面这些算法实现的讲解中,我们将假设您懂得 ython的基本知识。如果您还不
知道 ython,建议可以先看看。 ython教程
轻松搞定强化学习
(1-4是强化学习的步骤,5-7是其他资源)
1.提出一个强化学习的问题
2.强化学习 v.s. 其他机器学习方法
3.解决强化学习问题的基本框架
4.用python实现强化学习算法
5.更复杂的应用
6.强化学习的必威体育精装版进展
7.其他强化学习的资源
1、提出一个强化学习的问题
强化学习的目的是学习如何做一件事情,以及如何根据不同的情况选择不同的行动。
它的最终结果是为了实现数值回报信号的最大化。强化学习并不告诉学习者采取哪种
行动,而是让学习者去发现采取哪种行动能产生最大的回报。 下面让我们通过一个孩
子学走路的简单例子 (下图)来解释什么是强化学习。
上图:孩子学走路。
以下是孩子在学习走路时要采取的步骤:
首先孩子将观察你是如何行走的。你用两条腿,一步一步走。得到这个概念后,孩子
试图模仿你走路的样子。
但孩子很快发现,走路之前必须站起来!这是一个试图走路必经的挑战。所以现在孩
子试图先站起来,虽然经历挣扎和滑倒,但仍然决心站起来。
然后还有另一个挑战要应付:站起来很容易,但要保持站立又是另一项挑战!孩子挥
舞着双手,似乎是想找到能支撑平衡的地方,设法保持着站立。
现在孩子开始他/她真正的任务––走路。这是件说比做容易的事。要记住很多要点,
比如平衡体重,决定先迈哪个脚,把脚放在哪里。
这听起来像一个困难的任务吗?实际上站起来和开始走路确实有点挑战性,但当你走
熟练了就不会再觉得走路难。不过通过我们的分析,现在的您大概明白了一个孩子学
走路的困难点。
让我们把上面的例子描述成一个强化学习的问题 (下图)。这个例子的“问题”是走
路,这个过程中孩子是一个试图通过采取行动 (行走)来操纵环境 (孩子行走的表
面)的智能体 (agent)。他/她试图从一个状态 (即他/她采取的每个步骤)到另一个
状态。当他/她完成任务的子模块 (即采取几个步骤)时,孩子将得到奖励 (让我们说
巧克力)。但当他/她不能完成走几步时,他/她就不会收到任何巧克力 (亦称负奖
励)。这就是对一个强化学习问题的简单描述。
上图:把小孩子学走路的过程 (图下方)归纳成一个强化学习的问题 (图上方)。
这里我们还推荐一个不错的对强化学习的视频介绍 ()。
2、强化学习 v.s. 其他机器学习方法
强化学习是机器学习算法的一个大的类型。下图描述了机器学习方法的类型。
上图:机器学习的方法分类:蓝色方框从左到右依次为监督学习,无监督学习和强化
学习。
让我们来比较一下强化学习和其他种类机器学习方法:
监督学习 (supervised learning)v.s. 强化学习:在监督学习中,有一个外部“监督
者” (supervisor )。“监督者”了解环境,并与智能体共享环境信息以完成任务。但这
其中存在
您可能关注的文档
- 海洋强国战略视角下海洋经济地理学研究_狄乾斌.pdf
- 科学心理学_常识心理学及质化研究_叶浩生.pdf
- 测试及传感课件.ppt
- (2-2)药理学复习总结.pdf
- FDI对全国经济增长_就业影响研究_基于VAR模型_刘宏.pdf
- 第2章 资料的整理和特征数的计算.ppt
- 班班通发展与技术应用.ppt
- (优化方案)2012高中语文 第三单元第9课跑警报精品课件 语文版必修2.ppt
- 02 第4章 误差及分析数据的处理(1-4).pdf
- 宿舍工建设计规范.doc
- 2025届衡阳市第八中学高三一诊考试物理试卷含解析.doc
- 2025届湖南省娄底市双峰一中等五校重点中学高三第二次诊断性检测物理试卷含解析.doc
- 天水市第一中学2025届高三第二次联考物理试卷含解析.doc
- 2025届金华市重点中学高三考前热身物理试卷含解析.doc
- 2025届北京市石景山区第九中学高三第四次模拟考试物理试卷含解析.doc
- 江苏扬州市2025届高三第一次模拟考试物理试卷含解析.doc
- 2025届江苏省南通市高级中学高考物理五模试卷含解析.doc
- 广东省清远市华侨中学2025届高三第一次调研测试物理试卷含解析.doc
- 辽宁省凤城市2025届高三第五次模拟考试物理试卷含解析.doc
- 内蒙古巴彦淖尔市重点中学2025届高考仿真卷物理试卷含解析.doc
文档评论(0)