网站大量收购闲置独家精品文档,联系QQ:2885784924

机器学习与机器人_38.pdfVIP

  1. 1、本文档共126页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习与机器人_38 目录 机器学习与机器人_38 1 强化学习1:彻底分清On-PolicyOff-Policy 强化学习2:Q-learning与Saras?流程图逐步解释 强化学习3:逐步掌握Policy Gradient思脉(上) 强化学习4:逐步掌握Policy Gradient思脉(中) BAIR:基于人类演示RL的夹爪训练——高效、通用、低成本 31 强化学习5:逐步掌握Policy Gradient思脉(下) 强化学习:Policy Gradient推导过程(简洁) DQN简易代码实现的技巧分析 57 Udacity-DRL DQN笔记 Udacity Banana Navigation Project Report 为什么Q-learning不需要importance sampling 论文笔记Large-Scale Study of Curiosity-Driven Learning Richard Sutton‘s Talk in NeurIPS 2019 强化学习:PPO (Proximal Policy Optimization)的来龙去脉 新型双臂机器人通过仿真学习实现双手任务 123 强化学习1:彻底分清On-PolicyOff-Policy 强化学习1:彻底分清On-PolicyOff-Policy 本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律,本 人给出直观理解、数学方法、图形表达、简单例子和文字解释,来介绍off-policy,而on-policy 也将在本讲解过程中获得理解。( 在此假设大家已了解Markov Process Decision,动作概率,转 移概率,Monte Carlo Method, \varepsilon-greedy 策略。想了解的童鞋也可在本文最后 Reference中获得相关知识 一、直观理解 古时候,优秀的皇帝都秉持着“水能载舟 亦能覆舟”的思想,希望能多了解民间百姓的生活。皇 帝可以选择通过微服出巡,亲自下凡了解百姓生活(On-policy),虽然眼见为实,但毕竟皇帝本 人分身乏术,掌握情况不全;因此也可以派多个官员去了解情况,而皇帝本人则躺在酒池肉林里 收听百官情报即可(Off-policy)。 (坏皇帝则派出“锦衣卫”_(`」 ∠)_) 二、文字解释 首先,我们搞清楚一个问题:什么是行为策略(Behavior Policy)和目标策略(Target Policy):行为策略是用来与环境互动产生数据的策略,即在训练过程中做决策;而目标策略在 行为策略产生的数据中不断学习、优化,即学习训练完毕后拿去应用的策略。上面的例子中百官 (锦衣卫)就是行为策略,去收集情况或情报,给皇帝(目标策略)做参考来学习,当皇帝收集 到的情报越多,能做的决策就越优。 咦,为什么会有两个策略呢? 因为从人类的直观上来看,为了解决强化学习问题中的exploitation(利用) 和 exploration (探索),我们可以利用一个策略(行为策略)来保持探索性,提供多样化的数据,而不断的优 化另一个策略(目标策略)。 On-policy 的目标策略和行为策略是同一个策略,其好处就是简单粗暴,直接利用数据就可以优 化其策略,但这样的处理会导致策略其实是在学习一个局部最优,因为On-policy的策略没办法很 好的同时保持即探索又利用;而Off-policy将目标策略和行为策略分开,可以在保持探索的同 时,更能求到全局最优值。但其难点在于:如何在一个策略下产生的数据来优化另外一个策略? 三、数学方法 当然,上述只是一些比喻,下面开始正式对主题进行讲解。 为了能从行为策略 b 产生的样本回合(Episode)中评估(学习)策略 \pi ,我们要求当执行 b 策略时, \pi 中的每个动作都有一定概率发生,也就是 \pi(a|s)0 时,必有 b(a|

文档评论(0)

IT文档大师 + 关注
实名认证
文档贡献者

IT架构师、码农、自由职业者

1亿VIP精品文档

相关文档