微课8-1 强化学习的定义.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;强化学习是机器学习的一个分支,是一种广泛应用于创建智能系统的模式,它研究的主要问题是:一个智能体如何在环境未知,只提供对环境的感知和偶尔的奖励情况下,对某项任务变得精通。在强化学习中,智能体在没有“老师”的情况下,通过考虑执行的

最终成功或失败,根据奖励与惩罚,

主动从自己的经验中学习,以使未来

的奖励最大化。;强化学习侧重在线学习并试图在探索和利用之间保持平衡,用于描述和解决智能体在与环境的交互过程中,以“试错”方式,通过学习策略达成回报最大化或实现特定目标的问题。

强化学习不要求预先给定数据,表现在强化信号上,通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。由环境提供的强化信号是对产生动作的好坏作一种评价。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习,进而在行动—评价的环境中获得知识,改进行动方案以适应环境。;强化学习是从动物学习、参数扰动自适应控制等理论发展而来的,它把学习看作试探评价过程。智能体选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给智能体,智能体根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。;强化学习主要由智能体和环境组成,两者间通过奖励、状态、动作3个信号进行交互。由于智能体和环境的交互方式与人类和环境的交互方式类似,可以认为强化学习是一套通用的学习框架,用来解决通用人工智能问题,因此它也被称为通用人工智能的机器学习方法。

强化学习实际上是智能体在与环境进行交互的过程中,学会最佳决策序列。;强化学习的基本组成元素定义如下。

(1)智能体:强化学习的本体,作为学习者或者决策者。

(2)环境:强化学习智能体以外的一切,主要由状态集组成。

(3)状态:表示环境的数据。状态集是环境中所有可能的状态。

(4)动作:智能体可以做出的动作。可以做出的所有动作称为动作集。

(5)奖励:智能体在执行一个动作后,获得正/负奖励信号,作为反馈。

(6)策略:即智能体选择动作的思考过程。

(7)目标:智能体自动寻找在连续时间序列里的最优策略,即累积奖励。;从严格意义上说,AlphaGo程序在人机围棋对弈中打败韩国围棋大师李世石。其中对人工智能、机器学习和深度强化学习这3种技术都有所使用,但使用得更多的还是深度强化学习。

机器学习方法主要分为监督学习、无监督学习和强化

学习。强化学习和监督学习的共同点是两者都需要大

量的数据进行学习训练,但两者的学习方式不尽相同,

两者所需的数据类型也有差异,监督学习需要多样化

的标签数据,强化学习则需要带有回报的交互数据。;强化学习与监督学习、无监督学习不同之处具体有以下5个方面。

(1)没有监督者,只有奖励信号。监督学习要基于大量作为训练与学习目标的标注数据,而强化学习中没有监督者,智能体不能够马上获得监督信号,只是从环境的反馈中获得奖励信号。

(2)反馈延迟。实际上是延迟奖励,环境可能不会在每一步动作上都给与奖励,有时候需要完成一连串的动作,甚至是完成整个任务后才能获得奖励。;(3)试错学习。因为没有监督,所以没有直接的指导信息,智能体要与环境不断进行交互,通过试错的方式来获得最优策略。

(4)智能体的动作会影响其后续数据。智能体选择不同动作会进入不同的状态。当前状态只与上一个状态有关,与其他状态无关,因此下一个时间步所获得的状态变化,环境的反馈也会随之发生变化。

(5)时间序列很重要。强化学习更加注重输入数据的序列性,下一个时间步t的输入依赖于前一个时间步t-1的状态。;一般而言,监督学习是通过对数据进行分析,找到数据的表达模型,随后利用该模型,在新输入的数据上进行决策。下图为监督学习的一般方法,主要分为训练阶段和预测阶段。;深度学习的一般方法与传统机器学习中监督学习的一般方法相比少了特征工程,从而大大降低了业务领域门槛与人力成本。;监督学习分为预测和训练两个阶段,学习发生在训练阶段。例如在语音识别任务中,需要收集大量的语音语料数据和该语料对应标注好的文本内容。有了原始的语音数据和对应的语音标注数据后,可通过监督学习方法收集数据中的模式,例如对语音分类、判别该语音音素所对应的单词等。

强化学习与监督学习截然不同,其学习过程与生物的自然学习过程非常类似。具体而言,智能体在与环境的互动过程中,通过不断探索与试错的方式,利用基于正/负奖励的方式进行学习。;强化学习不需要像监督学习那样依赖先验知识数据,越来越多的用户使用移动终端,使数据获取来源更为广泛。

强化学习通过自我博弈方式产生更多的标准数据。例如,如果有基本棋谱,强化学习可以利用自我学习和奖励方式,自动学习更多的棋谱或者使用两个智能体进行互相博弈,进而补充

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档