增强学习算法寻找最优策略探析.doc

下载文档 降价啦

0
0
约 4页
2017-06-10 发布于未知
举报
版权申诉
保障服务

增强学习算法寻找最优策略探析.doc

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

增强学习算法寻找最优策略探析

增强学习算法寻找最优策略探析　　摘要如今人工智能发展迅速，在日常生活中越来越普及，与人工智能接触的机会越来越多。本文介绍了增强学习中的Q学习中如何找到最优策略以达到最终状态的过程和总结，以及通过试验对影响Q值的几个因素的进行了分析【关键词】Q-learning 策略探索 Q值状态 1 实验背景文章研究增强学习算法是如何找到最优策略以达到最终状态的。通过使用off-Policy TD Control即Q learning实现 2 实现和实验 2.1 方法和影响因素起初机器人对环境一无所知，能做的只是采取行动然后根据反馈的信息进行判断。每次行走之前机器人会根据当前的动作产生一个次优策略。随着机器人行走步数增多，逐渐会优化行走策略。对于增强学习（Q-learning）考虑以下影响因素： S：一组状态 A：机器人能够采取的动作 T：转换函数T α：学习率，可扩展的范围和方向（范围从0到1） γ：折扣因子（范围从0到1） Living reward：生存状态时的奖励 Epsilon：随机采取动作或者在当前的策略上采取动作（范围从0到1） Noise：一个影响机器人是否能采取正确动作的因子（范围从0到1）注：s是当前状态，s是由当前状态执行操作后的状态以上等式可以计算出Q值。最开始初始化Q值表中的每一个值为0 每轮假设机器人从state 8开始采取动作到下一个状态。当机器人选择向上走（up）时，有（1-noise）的可能到达state 4，也有一定可能到达state 9或原地不动（除开边界和有障碍的情况）。从开始到结束机器人决定是否探索或者采用当前策略，显然不探索就无法确保得到了最优的策略，不采取??前策略这很有可能在无用的尝试上浪费大量的时间 2.2 实验数据 2.2.1 将参数设置为与epsilon=0相比这种情况更理想，因为这种情况保证至少每种state能够被探索一遍。所以这种情况的Q值更为合理有更快的收敛速度。但这不是最理想的情况，因为机器人有可能采取同样的动作会浪费大量时间去计算Q值 3 总结让探索更加有效率而非重复相同的动作，采用了一个探索函数提高效率。实现这个函数需建立一个数组记录到达每个状态的次数，当计算值时需要用有效状态的访问次数。访问的次数越少，探索的奖励就越高 Noise因素，若程序中没有Noise因素（noise=0），Q值则会很快收敛，当noise的值增加，Q值则会不稳定。对于Alpha （α）和折扣因子Gamma（γ），这两个参数的值不宜太小。因为Alpha的值越小，Q值收敛的速度越慢。一般来说，Alpha因素的值应该在整个过程中是改变的。对于折扣因子（γ），用来判断即刻反馈和未来反馈哪一个更重要。γ=1表示未来反馈和即刻反馈同样重要，γ=0表示只考虑即刻反馈的因素。因此，γ因子也需要根据不同的场景进行改变参考文献 [1]Richard S.Sutton Andrew G.Barto.Reinforcement Learning：An introduction[M].Massachusetts：MIT Press，1998：12-16. [2]Tom M.Mitchell. Machine Learning：A Guide to Current Research[M].Germany： Springer，1986：265-278. 作者简介孙灿宇（1995-），男，重庆市人。现为四川大学软件学院软件工程系本科在读。主要研究方向为软件工程作者单位四川大学软件学院软件工程系四川省成都市 610207 1