- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
深度强化学习是目前机器学习研究中的热点领域,结合了深度学习的强大特征提
取能力和强化学习的决策能力,在理论研究和实际应用中取得了巨大的成功。无模型
强化学习是深度强化学习领域中的一个灵活的框架,不需要对环境建模而是直接学习
决策策略。策略梯度算法是深度强化学习领域中的一类广泛使用的无模型强化学习方
法,它在解决具有挑战性的强化学习问题方面取得了显著的成功。然而,策略梯度算
法一直受到梯度估计方差大的困扰,这导致训练过程中的样本效率较差,策略梯度更
新不稳定。最优基线技术是减小梯度估计方差的有效方法,它保证在无偏估计的情况
下,最大程度地减小了策略梯度估计的方差。
然而,现有的最优基线技术只使用标量值作为基线,忽略了策略梯度各维度之间
的差异,策略梯度估计是一个随机向量而不是随机变量这一事实在很大程度上被忽略
了。针对此,本文提出一种向量基线概念并将其引入到基于参数探索的策略梯度算法
(PGPE)中,推导得到PGPE算法对应的最优向量基线表示。在理论上证明了引入最
优向量基线的策略梯度算法具有更小的梯度估计方差。此外,本文在Pendulum-v0实
验下分别以具体参数下梯度估计的方差和偏差、参数更新过程中方差变化以及所学策
略的性能三个方面验证所提算法的有效性。实验结果表明,与最优标量基线相比,引
入最优向量基线的策略梯度算法具有更小的策略梯度估计方差,梯度更新更加稳定。
最后,将本文所提方法在智能控制领域进行应用,选取MuJoCo平台下的Ant-v3、
HalfCheetah-v2和Walker2D等机器人控制任务进行仿真实验。实验结果表明,引入最
优向量基线的PGPE算法在高维空间任务中都取得了很好的效果,智能体能够很好的
完成行走等任务,进一步验证了所提方法的有效性。
关键词:深度强化学习;策略梯度;梯度估计;控制变量;方差
ABSTRACT
Deepreinforcementlearningisahottopicinmachinelearningresearch.Itcombinesthe
powerfulfeatureextractionabilityofdeeplearningwiththedecision-makingabilityof
reinforcementlearningandhasachievedgreatsuccessintheoreticalresearchandpractical
applications.Model-freereinforcementlearningisaflexibleframeworkinthefieldofdeep
reinforcementlearning,whichdirectlylearnsdecision-makingstrategieswithoutmodeling
theenvironment.Amongthem,policygradientmethodsisakindofmodel-free
reinforcementlearningmethodwidelyusedinthefieldofdeepreinforcementlearning,and
ithasachievedremarkablesuccessinsolvingchallengingreinforcementlearningproblems.
However,thepolicygradientmethodhasbeenplaguedbylargevarianceofgradient
estimation,whichleadstopoorsampleefficiencyandunstableupdatingofpolicygradient
inthetrainingprocess.Theoptimalbaselinetechniqueisaneffectivemethodtoreducethe
varianc
您可能关注的文档
最近下载
- 优秀公诉人竞赛笔试试卷8+答案 .pdf
- 三位数内(三位数+两位数)加减法口算题 9900道题 .pdf
- 江苏省安全员C2证(土建安全员)取证考试题含答案.doc VIP
- 2024年注册土木工程师(水利水电)之专业知识题库含答案【新】.docx
- 人教版化学选择性必修2全册教学课件.pptx
- SIEMENS西门子家电iQ500 全嵌式洗碗机 60 cm SJ65ZX00MC 产品功能表.pdf
- 人教版高中英语单词表(必修1-选修8)打印专用 .pdf
- 功能性食品学(第三版)全套PPT课件.pdf
- 交管12123学法减分复习题库500道含完整答案(历年真题).docx
- 史上最全数据资产资本化知识地图+(必威体育精装版版).pptx
文档评论(0)