- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
6.2增强学习6.2.1增强学习的基本思想6.2.2增强学习的主要算法6.2.3增强学习在控制中的应用6.2.2增强学习的主要算法1.Q-学习算法定义一个与行为有关的价值函数Q函数:可知策略选取具体算法因为借鉴瞬时差分的思想确定MDP下的收敛性定理6-7:在确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q0(s,a)有界,0??1,?n=1,则当n??,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。证明n??时,??Qn?0不确定MDP下的收敛性定理6-6:在不确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q0(s,a)有界,0??1,0??n1,且满足则当n??,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。其中,N(n,s,a)为第n次迭代时,单元(s,a)被访问的累计次数。1学习步长选择上述定理告诉我们学习步长既不可衰减太快慢、又不可衰减太快,一般可取?n为:遍历性条件的策略选择在下面的迭代过程中隐含了贪婪原则的选择策略,无法同时保证遍历性,需要寻找其它选择策略?-贪婪方法其中|A(st)|为决策集合的大小,?为探索概率,一般随时间的增长而递减。Boltzman分布法模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。?的取值一般也随时间的增长而减小。2.Sarsa算法Rummery和Niranjan于1994年提出由于算法中只用到了st、at、r、st+1和at+1五个量,所以Sutton在其书中将其命名为Sarsa。一种策略有关(on-policy)的学习算法Sarsa学习算法的收敛性定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(GreedyintheLimitwithInfiniteExploration)条件或RRR(RestrictedRank-basedRandomized)条件,且Var{r(s,a)}有界,0??n1,满足则当n??,收敛于最优值Q*(s,a)。策略选择条件GLIE(GreedyintheLimitwithInfiniteExploration)条件每一个(s,a)会被无限访问;Q函数的策略选择随着迭代次数的增长,以概率1收敛于贪婪方法RRR条件是另一类常见的策略选择思想,这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系,即:存在问题收敛速度慢(状态空间、决策空间规模)因为在一步学习中,获得的即时回报只能影响相邻状态的价值函数值预测。Markov条件**需要所有的模型信息*需要所有的模型信息*需要所有的模型信息*V(S)和策略同时迭代*当?=0时,即为普通的贪婪方法。第6章学习控制-增强学习智能控制基础6.2增强学习6.2.1增强学习的基本思想6.2.2增强学习的主要算法6.2.3增强学习在控制中的应用增强学习的基本思想强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。心理学基础19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classicalconditioning)理论。01美国心理学家桑代克(Thorndike)也通过动物实验发现了效果律(lawofeffect),即动物可以根据试错尝试(trial-and-error)中得到的赏罚信息,学得情景下的有效行为。02这种行为的效果被随后的斯肯纳(Skinner)称为强化作用(reinforcement),而相应的学习则被称为操作条件学习(operantconditioning)。03发展历史二十世纪五十年代,Minsky首次提出。六十年代,Waltz和付京孙将这种思想应用在智能控制中。八十年代以后,大量标志性的成果涌现。系统结构图感知行动agent环境强化信号r状态s动作a增强学习的建模有限Markov决策过程MDP(MarkovDecisionProcesses)。系统状态集合为S;允许行为集合为As,As与状态s有关;行动为at下的状态转移概率P(st+1|st,at)得到即时回报(immediatereward)rt+1的期望为确定系统其中,?为状态转
文档评论(0)