《强化学习理论与应用》规划与蒙特卡洛树有哪些信誉好的足球投注网站.pptx

《强化学习理论与应用》规划与蒙特卡洛树有哪些信誉好的足球投注网站.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目 录; 在强化学习领域,根据MDP环境中是否包含完备的迁移概率,分为有模型和无模型方法。前面章节中的DP方法属于有模型方法,而MC、TD、n-步TD等方法属于无模型的方法。 有模型方法将规划(planning)作为主要组成部分; 在无模型方法将学习(learning)作为主要组成部分; 本章的重点并非是将两种方法进行区分,而是以一定的方法对它们进行有效的结合。;8.1.1 模型 Agent可以通过模型来预测环境并作出反应,即在给定一个状态和动作时,通过模型,可以对下一状态和奖赏进行预测。如果模型是随机的,则存在多种可能的下一状态和奖赏。; 模型通常可以分为分布模型和样本模型两种类型: 分布模型(distribution model) 该模型可以生成所有可能的结果及其对应的概率分布。可以理解为,状态转移概率p已知,在状态s下执行动作a能够给出所有可能的下一状态和相应的转换概率,如DP算法。 ;样本模型(sample model) 该模型能够从所有可能的情况中产生一个确定的结果。可以理解为,状态转移概率p未知,通过采样获取轨迹,如MC和TD算法。 从功能上讲,模型就是用于模拟环境和产生模拟经验的。与样本模型相比,分布模型包含更多的信息,只是现实任务中难以获得所有的状态转移概率。 ;8.1.2 学习 学习过程是从环境产生的真实经验中进行学习。根据经验的使用方法,学习过程可以分为直接强化学习和简介强化学习两种类型: 直接强化学习(direct RL) 在真实环境中采集真实经验,根据真实经验直接改进值函数或策略,不受模型偏差的影响。;间接强化学习 在真实环境中采集真实经验,根据真实经验来构建和改进模拟模型(simulated model),提高模拟模型精度,使其更接近真实环境。 间接强化学习包含模型学习和模型规划两个过程,通常能更充分地利用有限的经验。而直接强化学习是一种直接的学习,它更为简单,容易实现,不受模型构建带来的偏差影响。;8.1.3 规划 规划过程是基于模拟环境或经验模型,从模拟经验中改进值函数,实现改善策略的目的。学习和规划的核心都是通过迭代更新来评估值函数。 不同之处在于:在规划过程中,Agent并没有与真实环境进行交互。;规划通常可分为: 状态空间规划(state-space planning) 方案空间规划(plan-space planning) 在强化学习领域,仅讨论状态空间规划。状态空间规划(以下所有状态空间规划都简称为规划)是在状态空间中寻找最优策略,值函数的计算都是基于状态的,通常将该规划方法视为“有哪些信誉好的足球投注网站”方法。;所有规划算法都以计算值函数作为策略改进的中间关键步骤; 所有规划算法都可以通过基于模型产生的模拟经验来计算值函数。 规划的基本链式结构如下所示: 真实经验既可用于改进模拟模型,也可直接改进值函数或策略。;8.1 模型、学习与规划(9);一种常用的规划算法——随机采样单步表格式Q-planning算法。 ; 目 录;8.2.1 Dyna-Q架构 Dyna-Q架构将学习和规划有机结合在一起,是有模型和无模型方法的融合。在Dyna-Q架构中,规划方法为随机采样单步表格式Q-planning算法,直接强化学习方法为单步表格式Q-leaning算法,模型学习方法为确定环境下的表格式算法。 ;8.2 Dyna-Q结构及其算法改进(2);8.2 Dyna-Q结构及其算法改进(3);;;;;8.2 Dyna-Q结构及其算法改进(8);;;;;;;

文档评论(0)

151****0181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档