网站大量收购独家精品文档,联系QQ:2885784924

《深度强化学习分析综述》4000字.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

深度强化学习分析综述

深度强化学习基础知识

深度强化学习和强化学习在处理数据方面都有自身擅长的一些优势和相较的劣势,深度强化学习具备很大优势的感知能力,但是处理决策问题却效果很差;强化学习处理起决策问题游刃有余,但处理感知问题就收效甚微。因此,本文将深度强化学习和强化学习的优势融合起来,处理起复杂系统甚至是繁杂的感知决策方面的问题,达到1+1大于2的效果。深度强化学习很好地把深度强化学习和强化学习融合起来,把复杂高维数据通过深度强化学习方法的特征提取转化到低维特征空间,紧接着在把数据输入进强化学习最终实现分析决策。广受学界深入研究和业界运用的深度强化学习算法有:深度强化学习算法、深度策略梯度算法和异步优势Actor-Critic算法[10]。

强化学习基础知识

强化学习(ReinforcementLearning)属于人工智能,此概念最初来自精神学研究里的行为主义学习理论[23]。是在对动物及人类采取一系列控制较严密的实验研究的基础上,发现并提出一系列有关学习的原理和规律。强化学习作为机器学习的一个重要分支领域,在这个分支中,智能体学习如何通过与环境的交互来获得最大的奖励。与监督学习不同,强化学习不能从经验丰富的外部监管者提供的样本中学习。相反,它必须根据自己的经验来学习,尽管它面临着环境的较大不确定性。强化学习的定义不是描述学习方法,而是描述学习问题。任何适合解决该问题的方法都可以被认为是一种强化学习方法。一个强化学习问题中一般包括元素如下表所示。

表2-5强化学习中的一般元素

元素

解释

状态

智能体从环境获取的信息。描述了当前的环境,如围棋程序,状态是棋子在棋盘上的位置;状态空间是指所有可能的环境条件。

动作

智能体的行为表征。动作空间是指智能体在每种状态下的所有可能操作。

奖励

环境对于动作的反馈。在某种状态下,完成一个动作后,获得奖励。奖励可以是正面的,也可以是负面的(即惩罚)。

状态转移概率

智能体做出动作后进入下一状态的概率。表示系统在某一状态下执行某一动作后,转移到下一状态的概率值。

策略

智能体根据状态进行下一步动作的函数。表示状态与动作之间的映射关系,即在某一状态下执行哪个动作。通常表示为a(t)=π(x(t))智能体需要不断地尝试所有可能的状态一动作组合,策略π表示状态空间上的动作序列。强化学习的目的是寻找最佳的学习策略π*。

值函数

价值函数指从当前状态算起,未来一定数量的奖励函数的累加。如何计算/估计价值函数是整个强化学习的核心问题。

强化学习其最重要的特征有两个,一是试错性有哪些信誉好的足球投注网站(trial-and-errorsearch),即智能体不会被告知该采取何种行为(action),而是自己去探索整个环境,并且有可能会做出错误的选择;二是延迟奖励(delayedreward),即智能体所采取的行动不仅会影响当前的奖励,还会作用到未来状态(state)的奖励[24]。

价值函数指从当前状态算起,未来一定数量的奖励函数的累加。如何计算/估计价值函数是整个强化学习的核心问题。一般来说,强化学习可分为无模型强化学习和基于模型的强化学习,这取决于环境因素(即状态转移概率和奖励函数)是否已知。近年来,无模型强化学习已成功地应用于深层神经网络。它可以直接将原始状态输入到深层神经网络中,学习更难的任务策略。而基于模型的强化学习则借助于监督学习对系统模型进行学习,并在此模型下对策略进行优化。近年来,基于模型的强化学习元素被引入到无模型深层强化学习中,在不丧失无模型学习优势的前提下提高了学习速度。

强化学习作为机器学习的一个重要分支,关注于获取环境中的知识,改进适应环境的行为策略,并做出一系列决策。强化学习系统,是对当前所处的环境状况进行学习与探索、并接受周围反馈的接收,在不需要大量标记数据的情况下,最终形成的自适应模型,强化学习的理念就是智能体与周围环境不断的交互反馈作用,最后根据学习过程做出决策序列,强化最终的决策能力的全过程。在本文可以预见的各种场景中,通过与云计算环境的持续交互,智能体可以采取行动并获得相应的回报。除此以外,强化学习的最终目标是使累积回报最优化、回报率最大化。对于每一集,首先,在每一步t中,智能体获得对云计算环境的观察,即状态st。然后,智能体根据某个策略推断出一个动作at。获得相应的奖励rt。输入新状态s

片段:这是智能体的进行训练的过程。在本文中,片段是从云计算的资源分配过程,它将请求聚合到具有相应应用程序的目标云服务器。它可以表示为状态、动作和奖励的序列,即[s1,a1

策略π:将状态映射到动作的概率分布的策略模型,表示代理的行为并指导代理如何选择动作。

奖励rt

奖励的积累效应:Rt

动作值函数(Q函数):该函数在许多强化学习算法中使用,如果下文将提到的Q-learni

文档评论(0)

02127123006 + 关注
实名认证
内容提供者

关注有哪些信誉好的足球投注网站

1亿VIP精品文档

相关文档