- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
遍历性条件的策略选择 隐含了贪婪原则的选择策略, 无法同时保证遍历性,需要寻找其它选择策略 在下面的迭代过程中 ?-贪婪方法 其中|A(st)|为决策集合的大小,?为探索概率,一般随时间的增长而递减。 Boltzman分布法 模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。 ?的取值一般也随时间的增长而减小。 2. Sarsa算法 Rummery和Niranjan于1994年提出 由于算法中只用到了st、at、r、st+1和at+1五个量,所以Sutton在其书中将其命名为Sarsa。 一种策略有关(on-policy)的学习算法 Sarsa学习算法的收敛性 定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(Greedy in the Limit with Infinite Exploration)条件或RRR(Restricted Rank-based Randomized)条件,且Var{r(s, a)}有界,0??n1,满足 则当n??,收敛于最优值Q*(s, a)。 策略选择条件 GLIE(Greedy in the Limit with Infinite Exploration)条件 每一个(s, a)会被无限访问; Q函数的策略选择随着迭代次数的增长,以概率1收敛于贪婪方法 RRR条件是另一类常见的策略选择思想,这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系,即: 存在问题 收敛速度慢(状态空间、决策空间规模) 因为在一步学习中,获得的即时回报只能影响相邻状态的价值函数值预测。 Markov条件 3. 多步学习算法 学习公式改为: en(s)资格迹(eligibility trace) (时间信度) 0??1为衰减因子,dn(st,at,st+1)为TD误差,例如: 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.3 在控制中的应用 西洋跳棋 倒立摆控制 任务调度 机器人动作学习 与神经网络结合 1. pH值控制 连续搅拌釜CSTR(Continuous Stirred Tank Reactor)控制系统,该控制系统的目的是保持搅拌釜中溶液的pH值保持在一个给定的水平。pH值y(t)可由pH计读出。pH值的控制由一个滴定系统完成,控制信号u(t)由计算机给出。 状态设计 High if y(t)SP+1 High: if SP+0.2 y(t)?? SP+1 Goal: if SP-0.2? y(t)?? SP+0.2 Low: if SP-1? y(t) SP-0.2 Lower: if y(t)SP-1 行为设计 滴定系统采用增量式控制 #a为行为编号,具体有: 大减、减、小减、等待、小增、增、大增 7种,依次编号。例如等待的行为编号为4。 状态转移图 即时回报设计 除了在Goal区域,其余区域的回报均是惩罚 学习策略 单步Q-学习控制 行为选择采用?贪婪算法,具体参数如下: 折扣因子?=0.98, 学习率?=0.3, 探索概率?=0.3。 控制效果 假设机器人欲前往目的地G,不同行为的即时回报r如下图所示。 G 100 100 0 0 0 0 0 0 0 0 0 0 0 2. 移动机器人路径规划 G 100 100 0 0 0 0 0 0 0 0 0 0 0 一步迭代 G 100 100 0 0 90 90 90 0 0 0 0 0 0 第2步迭代 G 100 100 0 81 90 90 90 81 81 81 81 0 0 第3步迭代 G 100 100 0 81 90 90 90 81 81 81 81 72.9 72.9 第4步迭代 * * 需要所有的模型信息 * 需要所有的模型信息 * 需要所有的模型信息 * V(S)和策略同时迭代 * 当?=0时,即为普通的贪婪方法。 第6章 学习控制-增强学习 智能控制基础 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.1增强学习的基本思想 强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。 心理学基础 19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classica
您可能关注的文档
- 弓网系统(标准与规范).ppt
- 引教材之水成美丽篇章.ppt
- 引水隧道圆形断面与城门洞型方案比较.ppt
- 星巴克创新与体验营销.ppt
- 星星变奏曲3.ppt
- 弟子规-余力学文的故事 (2).ppt
- 弟子规第二十八讲-见未真勿轻言知未的勿轻传事非宜勿轻诺苟轻诺进退错凡道字重且舒勿急疾勿模糊 (2).ppt
- 星河湾:营销策略及执行方案.ppt
- 春夜宴从弟桃花园序(使用).ppt
- 张婷婷《主动沟通健康成长》.ppt
- 吉安县公开招聘专职文明实践员笔试备考试题及答案解析.docx
- 2025重庆枫叶国际学校招聘教师笔试备考试题及答案解析.docx
- 游机队电玩自制联网教程-tplink.pdf
- 2025重庆新华出版集团招聘1人笔试模拟试题及答案解析.docx
- 2025宜宾高新丽雅城市产业发展有限公司公开招聘笔试模拟试题及答案解析.docx
- 2025云南保山市龙陵县勐糯镇人民政府招聘合同制专职消防员1人笔试模拟试题及答案解析.docx
- 11.1生活中常见的盐 九年级化学人教版下册.pptx
- 6.1法律保护下的婚姻 高二政治《法律与生活》课件(统编版选择性必修2)(新版).pptx
- 文昌市中小学教师校园招聘29人笔试模拟试题及答案解析.docx
- 10.1.5 常见的酸和碱(第5课时)课件-九年级化学人教版下册.pptx
最近下载
- 小区物业保安员岗位职责.doc VIP
- 口腔癌术后口腔冲洗技术——中华护理学会团体标准解读.pptx
- 高中高考数学所有二级结论《完整版》.docx VIP
- 五年级上册数学试题-期末测试卷人教版(含答案).docx VIP
- 某智慧交通与智慧城管PPP项目建设项目智慧城市下阶段发展建议书.doc VIP
- 智慧城市建设(智慧交通与智慧城管)PPP项目-技术标书.docx VIP
- 湖北省“腾云”联盟2024-2025学年高三上学期8月联考物理试卷含答案.pdf
- 广州数控GSK980TDc车床CNC数控系统使用手册.pdf
- 湖北省腾云联盟2024-2025学年高三上学期12月联考物理试卷含答案.docx VIP
- 药液外渗的应急预案及处理PPT.pptx VIP
文档评论(0)