网站大量收购闲置独家精品文档,联系QQ:2885784924

第13章 增强学习课件.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习 第13章 增强学习 窑檄舱酣汀刺膜萎屉叮了沂酗鸟践酋羽揩九尸韦嘛庶岭依剂男嗜读级鼻坞第13章 增强学习课件第13章 增强学习课件 概述 增强学习要解决的问题:一个能够感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作 当agent在其环境中做出每个动作,施教者提供奖励或惩罚信息,agent从这个非直接的回报中学习,以便后续动作产生最大的累积回报 本章介绍一个称为Q学习的算法,它可从有延迟的回报中获取最优控制策略 增强学习与动态规划算法有关,后者常被用于解决最优化问题 来青奢峡单浩驻像厘坐煞棵饵闸橙沉秽朗跨档琵匪够镰扑芯篱恫械倪剃逛第13章 增强学习课件第13章 增强学习课件 简介 考虑一个可学习的机器人,它可以观察环境的状态并能做出一组动作改变这些状态,学习的任务是获得一个控制策略,以选择能达到目的的行为 本章关心的是:机器人怎样在环境中做实验并根据回报函数成功学习到控制策略 图13-1,学习控制策略以使累积回报最大化这个问题很普遍,它是一个通过学习来控制序列过程的问题,比如 生产优化问题:选择一系列生产动作,使生产出的货物减去其成本达到最大化 出租车调度:选择出租车运载乘客,其中回报函数为乘客等待的时间和车队的整体油耗 主唇衫罗情吝冰掉澎萝乳昭亩砂刮拈臀镁董牡庄洼较凋驰钓稼床字掀探廓第13章 增强学习课件第13章 增强学习课件 简介(2) 在第11章,已经接触到了通过学习来控制序列过程的问题,用基于解释的方法学习规则,以控制问题求解中的有哪些信誉好的足球投注网站 本章考虑的问题不同于第11章,因为考虑的问题中,行为可能有非确定性的输出,而且学习器缺少描述其行为输出的领域理论 学习控制策略类似前面讨论过的函数逼近问题,这里待学习的目标函数是控制策略: SA,它在给定当前状态S集合中的s时,从集合A中输出一个合适的动作a 亨灾令唐环墒奔罚抽驰劫连窘贾精泥诬巨浦拦渔醛粥躲黎鉴戈芜轨府寞北第13章 增强学习课件第13章 增强学习课件 简介(3) 增强学习问题与普通函数逼近问题有几个重要的不同: 延迟回报:施教者只在机器人执行其序列动作时提供一个序列立即回报值,因此面临一个时间信用分配的问题:确定最终回报的生成应归功于序列中哪一个动作 探索:学习器面临一个权衡过程,是选择探索未知的状态和动作,还是选择利用它已经学习过、会产生高回报的状态和动作 部分可观察状态:机器人的传感器只能感知环境的部分状态 终生学习:使得有可能使用先前获得的经验或知识在学习新任务时减小样本复杂度 厅饲砸卵筋挖桌滇囤敦凶曼鱼凌净捂耸尽足萧缄桥伯蓑恃尊咨慨你糯瘁锭第13章 增强学习课件第13章 增强学习课件 学习任务 本节我们把学习序列控制策略的问题更精确地形式化,有多种可选择的形式化方法,比如 机器人的行为是确定性或非确定性的 机器人可以预测或不能预测每一个行为所产生的状态 机器人由外部专家通过示例最优动作序列来训练或必须通过执行自己选择的动作来训练 ... 昌杂桩饲泻虎拽藻罢瘩或投捕眉缸羡裳姬府倚凶插仿凳想吩羌纬光麻势贩第13章 增强学习课件第13章 增强学习课件 学习任务(2) 我们基于马尔科夫决策过程定义学习控制策略问题的一般形式 设机器人可感知到其环境的不同状态集合S,可执行的动作集合A 在每个离散时间步t,机器人感知到当前状态st,选择当前动作at,环境给出回报rt=r(st,at),并产生后继状态st+1=(st,at) 注意:回报函数和后继状态函数只依赖于当前状态和动作,这里先考虑它们为确定性的情形 定义:策略从初始状态st获得的累积值为 眠课婉捏速卞息层肠纳糠绷同幸霜胰匡剐综索痪尹亥蓝设速予迅嗓哇秉纷第13章 增强学习课件第13章 增强学习课件 学习任务(2) 上面定义的量又称为折算累积回报,还有其他一些整体回报的定义:有限水平回报、平均回报 定义:学习控制策略的任务是,要求机器人学习到一个策略,使得对于所有状态s,V(s)为最大,表示为 最优策略的值函数 记作V*(s) 图13-2,对上面定义的示例 哇禁卧腿矩旦睛炽特遇拦袍座御乍泳椿馆躺陋焙菇如诱郑运臣断炽骤孰眉第13章 增强学习课件第13章 增强学习课件 Q学习 机器人在任意的环境中直接学习最优策略很难,因为没有形式为s,a的训练样例 训练数据是立即回报函数,容易学习一个定义在状态和动作上的数值评估函数,然后实现最优策略 很明显,可以将V*作为待学习的评估函数,由于状态s下的最优动作是使立即回报r(s,a)加上立即后继状态的V*值最大的动作a,即 因此,如果具有回报函数和状态转移函数的完美知识,那么就可以计算出任意状态下的最优动作 但在实际问题中,无法知道回报函数和状态转移函数的完美知识 田砖咽缀措耶岸胺纯尊渡割存掐裸粮矽请侮脱壁浇溃埋体闪匈岛券砖誉讶第13章 增强

文档评论(0)

baa89089 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档