- 1、本文档共126页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习与机器人_38
目录
机器学习与机器人_38 1
强化学习1:彻底分清On-PolicyOff-Policy
强化学习2:Q-learning与Saras?流程图逐步解释
强化学习3:逐步掌握Policy Gradient思脉(上)
强化学习4:逐步掌握Policy Gradient思脉(中)
BAIR:基于人类演示RL的夹爪训练——高效、通用、低成本 31
强化学习5:逐步掌握Policy Gradient思脉(下)
强化学习:Policy Gradient推导过程(简洁)
DQN简易代码实现的技巧分析 57
Udacity-DRL DQN笔记
Udacity Banana Navigation Project Report
为什么Q-learning不需要importance sampling
论文笔记Large-Scale Study of Curiosity-Driven Learning
Richard Sutton‘s Talk in NeurIPS 2019
强化学习:PPO (Proximal Policy Optimization)的来龙去脉
新型双臂机器人通过仿真学习实现双手任务 123
强化学习1:彻底分清On-PolicyOff-Policy
强化学习1:彻底分清On-PolicyOff-Policy
本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律,本
人给出直观理解、数学方法、图形表达、简单例子和文字解释,来介绍off-policy,而on-policy
也将在本讲解过程中获得理解。( 在此假设大家已了解Markov Process Decision,动作概率,转
移概率,Monte Carlo Method, \varepsilon-greedy 策略。想了解的童鞋也可在本文最后
Reference中获得相关知识
一、直观理解
古时候,优秀的皇帝都秉持着“水能载舟 亦能覆舟”的思想,希望能多了解民间百姓的生活。皇
帝可以选择通过微服出巡,亲自下凡了解百姓生活(On-policy),虽然眼见为实,但毕竟皇帝本
人分身乏术,掌握情况不全;因此也可以派多个官员去了解情况,而皇帝本人则躺在酒池肉林里
收听百官情报即可(Off-policy)。
(坏皇帝则派出“锦衣卫”_(`」 ∠)_)
二、文字解释
首先,我们搞清楚一个问题:什么是行为策略(Behavior Policy)和目标策略(Target
Policy):行为策略是用来与环境互动产生数据的策略,即在训练过程中做决策;而目标策略在
行为策略产生的数据中不断学习、优化,即学习训练完毕后拿去应用的策略。上面的例子中百官
(锦衣卫)就是行为策略,去收集情况或情报,给皇帝(目标策略)做参考来学习,当皇帝收集
到的情报越多,能做的决策就越优。
咦,为什么会有两个策略呢?
因为从人类的直观上来看,为了解决强化学习问题中的exploitation(利用) 和 exploration
(探索),我们可以利用一个策略(行为策略)来保持探索性,提供多样化的数据,而不断的优
化另一个策略(目标策略)。
On-policy 的目标策略和行为策略是同一个策略,其好处就是简单粗暴,直接利用数据就可以优
化其策略,但这样的处理会导致策略其实是在学习一个局部最优,因为On-policy的策略没办法很
好的同时保持即探索又利用;而Off-policy将目标策略和行为策略分开,可以在保持探索的同
时,更能求到全局最优值。但其难点在于:如何在一个策略下产生的数据来优化另外一个策略?
三、数学方法
当然,上述只是一些比喻,下面开始正式对主题进行讲解。
为了能从行为策略 b 产生的样本回合(Episode)中评估(学习)策略 \pi ,我们要求当执行 b
策略时, \pi 中的每个动作都有一定概率发生,也就是 \pi(a|s)0 时,必有 b(a|
您可能关注的文档
- Java_54实用知识库分享.pdf
- Java_7实用知识库分享.pdf
- 湖北冷库安装_24.pdf
- 围棋运营校长百问百答_22.pdf
- 旅游财经_21实用知识库分享.pdf
- 特斯拉保姆级教程_17.pdf
- 电子杂志制作平台_16.pdf
- 芯片验证X_25实用知识库分享.pdf
- 机器人相关_2实用知识库分享.pdf
- 留学_36实用知识库分享.pdf
- 2024_2025学年高中英语Module2FantasyLiteraturePeriodOne教案含解析外研版选修6.docx
- 2024_2025学年高中历史第五单元近现代中国的先进思想第23课毛泽东与马克思主义的中国化课时作业岳麓版必修3.doc
- 江苏专版2024高考语文二轮复习小说文本阅读__群文通练改革留痕含解析.docx
- 2024_2025年高中语文第2单元6罗曼罗兰节选教案粤教版必修1.doc
- 江苏专版2025版高考英语考前保分训练专题1语法知识第3节名词性从句练习牛津译林版.docx
- 江苏专版2025版高考英语大二轮复习专题1语法知识第十一节名词与冠词学案牛津译林版.docx
- 2024_2025学年高中政治第二单元探索世界与追求真理第5课第1框意识的本质作业含解析新人教版必修4.doc
- 再生障碍性贫血讲.ppt
- 企业产品标准信息公共服务平台操作介绍.ppt
- 劳动法和劳动合同法的立法目的.ppt
文档评论(0)