强化学习技术有着相当长的历史.docx

下载文档

16
0
约4.32千字
约 8页
2017-12-14 发布于河南
举报
版权申诉
保障服务

强化学习技术有着相当长的历史.docx

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

强化学习技术有着相当长的历史

强化学习技术有着相当长的历史，但直到80 年代末90 年代初，强化学习技术才在人工智能，机器学习中得到广泛应用[1]，强化学习是一种从环境状态到行为映射的学习技术．强化学习的思想来自于条件反射理论和动物学习理论．它是受到动物学习过程启发而得到的一种仿生算法，是一种重要的机器学习方法[2]．Agent 通过对感知到的环境状态采取各种试探动作，获得环境状态的适合度评价值（通常是一个奖励或惩罚信号），从而修改自身的动作策略以获得较大的奖励或较小的惩罚，强化学习就是这样一种赋予Agent 学习自适应性能力的方法．本文全面介绍了强化学习的基本原理，学习算法及其应用情况，最后讨论了多机器人系统中强化学习的研究热点问题．1 强化学习的基本原理1.1 强化学习的原理和结构强化学习把学习看作试探过程，基本模型如图1 所示．在强化学习中，Agent 选择一个动作作用于环境，环境接收该动作后发生变化，同时产生一个强化信号（奖或罚）反馈给Agent，Agent 再根据强化信号和环境的当前状态再选择下一个动作，选择的原则是使受到正的报酬的概率增大．选择的动作不仅影响立即强化值而且还影响下一时刻的状态及最终强化值．强化学习的目的就是寻找一个最优策收稿日期：2006-08-05作者简介：黄炳强（1975-），男（汉族），博士生．DOI:10.14081/j.cnki.hgdxb.2006.06.007第6期黄炳强，等：强化学习原理、算法及应用 35略，使得Agent 在运行中所获得的累计报酬值最大[3]．1.2 马尔可夫决策过程（MDP）很多强化学习问题基于的一个关键假设就是Agent 与环境之间的交互可以被看成一个马尔可夫决策过程（MDP），因此强化学习的研究主要集中于对Markov 的问题处理．Markov 决策过程的模型可以用一个四元组（，，，）表示：为可能的状态集合，为可能的动作集合，： × 是状态转移函数；： × 是奖赏函数．在每一个时间步，环境处于状态集合中的某一状态，Agent 选择动作集合中的一个动作，收到即时奖赏，并转移至下一状态．状态转移函数, , 表示在状态执行动作转移到状态的概率，可以用, 表示．状态转移函数和奖赏函数都是随机的．Agent 目标就是寻求一个最优控制策略，使值函数最大．1.3 有哪些信誉好的足球投注网站策略Agent 对动作的有哪些信誉好的足球投注网站策略主要有贪婪策略和随机策略．贪婪策略总是选择估计报酬为最大的动作．当报酬函数收敛到局部最优时，贪婪策略无法脱离局部最优点．为此，可采用-贪婪策略（ -greedy）；随机策略是用一个随机分布来根据各动作的评价值确定其被选择的概率，其原则是保证学习开始时动作选择的随机性较大，随着学习次数的增大，评价值最大的动作被选择的相对概率也随之增大，一种常用的分布是Boltzmann 分布[4]．所有的强化学习算法的机制都是基于值函数和策略之间的相互作用，如图2 所示．利用值函数可以改善策略，而利用对策略的评价又可以改进值函数．强化学习在这种交互过程中，逐渐得到最优的值函数和最优策略．2 强化学习的算法到目前为止，研究者们提出了很多强化学习算法，近年来对强化学习算法的研究已由算法本身逐渐转向研究经典算法在各种复杂环境中的应用，较有影响的强化学习算法有TD 算法，Q 学习算法，Sarsa算法，Dyan 算法，R 学习算法，H 学习等，还有一些改进算法，如滞后更新多步Q-学习算法等．2.1 瞬时差分算法TD（Temporal Difference Algorithm）这是Sutton 在1988 年提出的用于解决时间信度分配问题的著名方法[5]．TD 方法能够有效的解决强化学习问题中的暂态信用分配问题，可被用于评价值函数的预测．几乎所有强化学习算法中评价值的预测法均可看作TD 方法的特例，以至于通常所指的强化学习实际上就是TD 类强化学习．一步TD 算法，即TD (0) 算法，是一种自适应的策略迭代算法，又名自适应启发评价算法（AdaptiveHeuristic Critic，AHC）．所谓一步TD 算法，是指Agent 获得的瞬时报酬值仅回退一步，也就是说只是修改了相邻状态的估计值．TD (0) 算法如式（1）．= + + (1)其中：为步长；指在环境状态下获得报酬和；是指环境状态转移到时获得的报酬折扣和．图1 强化学习的基本模型Fig. 1 The reinforcement learning framework图2 值函数与策略间的相互作用图Fig. 2 Correlation between value function and policyAgent状态奖赏动TD 算法可扩充到TD ( ) 算法，即Agent 获得的瞬时报酬值可回退任意步． TD ( )算法的收敛速度有很大程度上的提高，算法