《机器学习与Python实践》chapter12课件.pptxVIP

《机器学习与Python实践》chapter12课件.pptx

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第十二章 深度强化学习机器学习与python实践机器学习与python实践()人民邮电出版社 1/47第十二章深度强化学习

深度强化学习深度强化学习=深度学习+强化学习在强化学习中引入深度神经网络取得了巨大成功深度强化学习是人工智能的代表性方法DavidSilver提出人工智能=强化学习+深度学习。深度Q网络DQN、AlphaGo机器学习与python实践()人民邮电出版社 2/47第十二章深度强化学习

目录基于值函数的强化学习值函数近似和深度Q网络3策略梯度和Actor-Critic方法4学习、推演和有哪些信誉好的足球投注网站机器学习与python实践()人民邮电出版社 3/47第十二章深度强化学习

基于值函数的强化学习目录基于值函数的强化学习值函数近似和深度Q网络3策略梯度和Actor-Critic方法4学习、推演和有哪些信誉好的足球投注网站机器学习与python实践()人民邮电出版社 4/47第十二章深度强化学习

基于值函数的强化学习强化学习的基础概念强化学习的基础概念涉及决策和环境交互影响的问题代理(Agent):依据环境状态做出决策的主体(决策函数)。在时刻t,代理观察到环境状态st,并执行动作at。在t+1,代理收到该动作的回报rt+1,观测到st+1,并执行at+1。如此下去,直到这个过程以某种方式结束。机器学习与python实践()人民邮电出版社 5/47第十二章深度强化学习

基于值函数的强化学习 强化学习的基础概念强化学习的基础概念强化学习是近似求解马尔科夫决策过程MDP的算法集。MDP是一个五元组(S,A,P,R,γ):S是状态集,st∈S;A是动作集,at∈A;P是转移概率函数矩阵a(4)R是回报函数,R=E(rs t+1t t|s=s,a=a);(5)γ∈[0,1]是折现因子,下一时刻单位回报在当前的价值。目标:寻求决策函数π(a|s),使执行该策略的期望累计回报最大?π=argmaxEπ∞∑k=0确定性策略:?s,?a′,s.t.π(a′|s)=1,记为a′=π′(s)。kγrt+k+1( ).机器学习与python实践()人民邮电出版社 6/47第十二章深度强化学习

基于值函数的强化学习 值函数和Bellman方程值函数值函数:给定某个策略π下,未来累积折现回报的期望状态值函数vπ(s):vπ(s)=Eπ(Rt|st=s)动作状态值函数qπ(s,a):qπ(s,a)=Eπ(Rt|st=s,at=a)∞∑kR= γrt t+k+1 t+1=r +γRt+1,是时刻t开始的总回报。k=0值函数分解:vπ(s)=Eπ(rt+1+γvπ(st+1)|st=s)qπ(s,a)=Eπ(rt+1+γqπ(st+1,at+1)|st=s,at=a)机器学习与python实践()人民邮电出版社 7/47第十二章深度强化学习

值函数和Bellman方程基于值函数的强化学习值函数的Bellman方程条件概率展开vπ(s),qπ(s,a)π∑v(s)= Pa∈At(a=at|s=sπ tt)E(R|s=st,a=a)∑= π(aπ|s)q(a,s)a∈Aqπ(s,a)=Eπ(rt+1|st=s,at=a)+γEπ(Rt+1|st=s,at=a)∑s′∈S=R+γ Ps ssπa a ′′v(s)上述两式相互带入,状态值函数的Bellman方程π∑v(s)= π(aa∈A[as∑|s)R+γ Ps′∈Sassπ′′v(s)]动作-状态值函数的Bellman方程aπ s∑q(s,a)=R+γ Pass∑s′∈S a′∈Aπ′′ ′′′( π(a|s)q(a,s))机器学习与python实践()人民邮电出版社 8/47第十二章深度强化学习

基于值函数的强化学习 值函数和Bellman方程值函数的Bellman最优方程a最优值函数:v?(s)=maxvπ(s),q?(s,a)=maxqπ(s,a)π π如果已知q?(s,a),有最优值函数,v?(s)=maxq?(s,a)满足?q(s,aas∑)=R+γ Ps′∈Sssa ?′′v(s)上述两式相互带入,状态值函数的Bellman

文档评论(0)

leet1201 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档