《强化学习理论与应用》规划与蒙特卡洛树有哪些信誉好的足球投注网站.pptx

下载文档

1
0
约1.62千字
约 28页
2023-08-19 发布于湖北
举报
版权申诉
保障服务

《强化学习理论与应用》规划与蒙特卡洛树有哪些信誉好的足球投注网站.pptx

1、本文档共28页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目录; 在强化学习领域，根据MDP环境中是否包含完备的迁移概率，分为有模型和无模型方法。前面章节中的DP方法属于有模型方法，而MC、TD、n-步TD等方法属于无模型的方法。有模型方法将规划（planning）作为主要组成部分；在无模型方法将学习（learning）作为主要组成部分；本章的重点并非是将两种方法进行区分，而是以一定的方法对它们进行有效的结合。;8.1.1 模型 Agent可以通过模型来预测环境并作出反应，即在给定一个状态和动作时，通过模型，可以对下一状态和奖赏进行预测。如果模型是随机的，则存在多种可能的下一状态和奖赏。; 模型通常可以分为分布模型和样本模型两种类型：分布模型（distribution model）该模型可以生成所有可能的结果及其对应的概率分布。可以理解为，状态转移概率p已知，在状态s下执行动作a能够给出所有可能的下一状态和相应的转换概率，如DP算法。 ;样本模型（sample model）该模型能够从所有可能的情况中产生一个确定的结果。可以理解为，状态转移概率p未知，通过采样获取轨迹，如MC和TD算法。从功能上讲，模型就是用于模拟环境和产生模拟经验的。与样本模型相比，分布模型包含更多的信息，只是现实任务中难以获得所有的状态转移概率。 ;8.1.2 学习学习过程是从环境产生的真实经验中进行学习。根据经验的使用方法，学习过程可以分为直接强化学习和简介强化学习两种类型：直接强化学习（direct RL）在真实环境中采集真实经验，根据真实经验直接改进值函数或策略，不受模型偏差的影响。;间接强化学习在真实环境中采集真实经验，根据真实经验来构建和改进模拟模型（simulated model），提高模拟模型精度，使其更接近真实环境。间接强化学习包含模型学习和模型规划两个过程，通常能更充分地利用有限的经验。而直接强化学习是一种直接的学习，它更为简单，容易实现，不受模型构建带来的偏差影响。;8.1.3 规划规划过程是基于模拟环境或经验模型，从模拟经验中改进值函数，实现改善策略的目的。学习和规划的核心都是通过迭代更新来评估值函数。不同之处在于：在规划过程中，Agent并没有与真实环境进行交互。;规划通常可分为：状态空间规划（state-space planning）方案空间规划（plan-space planning）在强化学习领域，仅讨论状态空间规划。状态空间规划（以下所有状态空间规划都简称为规划）是在状态空间中寻找最优策略，值函数的计算都是基于状态的，通常将该规划方法视为“有哪些信誉好的足球投注网站”方法。;所有规划算法都以计算值函数作为策略改进的中间关键步骤；所有规划算法都可以通过基于模型产生的模拟经验来计算值函数。规划的基本链式结构如下所示：真实经验既可用于改进模拟模型，也可直接改进值函数或策略。;8.1 模型、学习与规划（9）;一种常用的规划算法——随机采样单步表格式Q-planning算法。 ; 目录;8.2.1 Dyna-Q架构 Dyna-Q架构将学习和规划有机结合在一起，是有模型和无模型方法的融合。在Dyna-Q架构中，规划方法为随机采样单步表格式Q-planning算法，直接强化学习方法为单步表格式Q-leaning算法，模型学习方法为确定环境下的表格式算法。 ;8.2 Dyna-Q结构及其算法改进（2）;8.2 Dyna-Q结构及其算法改进（3）;;;;;8.2 Dyna-Q结构及其算法改进（8）;;;;;;;