- 1、本文档共110页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习浅介-实验室
强化学习浅介
俞扬
南京⼤学 计算机系
软件新技术国家重点实验室
机器学习与数据挖掘研究所 (LAMDA)
Reinforcement learning
intelligent animals can learn from interactions
to adapt to the environment
can computers do similarly?
reinforcement learning, the
“real artificial intelligence”
action/decision
Agent Environment
reward
state
VALSE 2017 :强化学习浅介 .
Reinforcement learning
action/decision
Agent Environment
reward
state
Agent’s inside: Policy: ⇡ : S ⇥ A ! R, Xa2A ⇡ (a|s) = 1
Policy (deterministic): ⇡ : S ! A
Agent’s goal: learn a policy to maximize long-term total reward
X X
T 1
t
T-step: t=1 rt discounted: t=1 rt
VALSE 2017 :强化学习浅介 .
Difference between RL and SL?
both learn a model ...
supervised learning reinforcement learning
environment environment
data algorithm data algorithm
您可能关注的文档
- 建筑设计工程师:岗位职责:1、负责公司基础建设需求收集与分析.pdf
- 建议书写作策略简报(上载版)-香港教育城.ppt
- 廉政之窗廉政之窗-上海市公共卫生临床中心.pdf
- 建议改进执行情形-国立暨南国际大学.doc
- 建设工程招投标与合同管理1-安徽建筑大学.ppt
- 建筑物折旧第八章成本法.ppt
- 建设工程创新关键成功因素识别.pdf
- 开、评标通知书-沈阳机床股份有限公司.doc
- 开展学习竞争小组,实行双赢、多赢.doc
- 开式泵控锻造油压机流量压力复合位置控制研究-中国机械工程.pdf
- 2024-2030年中国全自动蛋白印迹仪行业前景动态与未来趋势预测报告.docx
- 2024-2030年中国全身感染治疗行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年中国六氯乙硅烷行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年中国全釉瓷砖行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年中国光电池行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年中国光纤适配器行业运营态势与前景动态预测报告.docx
- 2024-2030年中国光纤加速度计(FOA)行业前景动态与投资盈利预测报告.docx
- 2024-2030年中国光敏高分子材料市场现状调查与未来发展趋势研究研究报告.docx
- 2024-2030年中国保健品行业发展分析及投资风险预测分析报告.docx
- 2024-2030年中国全装修营销态势与投资盈利预测报告.docx
文档评论(0)