强化学习课件第1、2章强化学习概述、Bandit问题.pptx

下载文档

0
0
约1.7万字
约 114页
2024-12-13 发布于湖北
举报
版权申诉
保障服务

强化学习课件第1、2章强化学习概述、Bandit问题.pptx

1、本文档共114页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第一章强化学习概述

。马尔可夫决策过程(MDP)

。MDP的分类

。强化学习

。强化学习的应用

机器学习的分类

●有监督学习(supervisedlearning)

。数据集中的样本带有标签，有明确目标

·回归和分类

●无监督学习(unsupervisedlearning)

。数据集中的样本没有标签

。聚类、降维、概率密度估计、生成模型构建

●强化学习(reinforcementlearning)

●序列决策的过程，通过过程模拟和观察来不断学习，提高决策能力。例如：AlphaGo

智能体

·agent:智能体

·environment:环境

·state:状态，St

·action:动作，At

·reward:奖励，Rt

强化学习的元素

action

rewardR

state

环境

时间序列

·按时间顺序排列的一组随机变量X₁,X₂,…,Xt,…表示一个随机事件的时间序列，简记为{Xt,t∈T}或{Xt}

·时间序列可以看作是离散时间的随机过程

11.3430790

113430000

11.3430790

11.3430000

113430790

1134

伦铝电3(LMAD

313

ShareofglobalGDP,1820-2030

—China—USA—Europe

040%

2040

71685E

总手规手特世爱比外

开

长

马尔可夫过程

·马尔可夫性质是指一个随机过程在给定现在状态及所有过去状态的情况下，其未来状态的条件概率分布仅依赖于当前状态，即：

P(Xt+1=x|Xt=Xt,…,X₁=x₁)=P(Xt+1=x|Xt=xt)

·马尔可夫过程是具备马尔可夫性质的随机过程

马尔可夫过程

·Xt只和Xt-1有关系，和之前的Xt-2,Xt-3,…,X₁都没有关系?

X₁→X₂→X₃→X₄→...

X₁没有直接影响X₃,通过X₂间接影响X₃

·求Xt的数字特征，只需用到过去已知的距离Xt最近的信息，例如：

E(X16|X₂=X₂,X₅=x₅,Xg=xg)=E(X16|X₉=xg)

马尔可夫过程

·若用马尔可夫过程来描述一个人上学的经历：

·如果一个人就读于重点中学，那么他考上重点大学的概率也比较大·如果拥有重点大学的学历，那么找到一份好工作的概率也比较大

普通工作

好工作

马尔可夫决策过程

·在读于普通中学的前提下：

·如果很努力学习，则考取重点大学的概率就会相对变高

·如果沉迷于打游戏、不花心思到学习上，那么考取重点大学的概率就会变得很低

·站在自身的角度来看待求学的经历，考取重点大学的概率并不只是“客观的规律”决定的，也有“主观能动性”的成分

·马尔可夫决策过程(MarkovDecisionProcess,MDP)还需要定义动作与奖励

·若将奖励定义为求学经历中获得的“幸福感”:

·在中学采取“努力学习”的动作，可能因为玩的时间更少，而只有较低的“幸福感”,但这帮助我们考上了更好的大学，这个更好的状态有助于未来获得更多的“幸福感”

·要在“先苦后甜”与“及时行乐”中进行取舍，选择正确的动作方式，以获得最幸福的人生

马尔可夫决策过程

下一个状态

·S表示状态空间，是对环境的描述，S={S₁,S₂,S₃,…},可能是

离散或连续的

·A表示动作空间，是智能体决策的结果，A={a₁,a₂,a₃,…},可能是离散或连续的

·P表示状态之间的转移概率，状态s转移到状态s的概率记为Pss=P(St+1=s|St=s,At=a)

·R表示奖励，是智能体给出动作后环境的反馈，t时刻的奖励R是t时刻状态st和动作at、t+1时刻状态st+1的标量函数，即

Rt=R(St,at,St+1)

·策略是给定状态s下，动作a的条件概率分布，是“状态→动作”的映射，即π(a|s)=P(At=a|St=s)

MDP的定义

·一般习惯将MDP记作四元组(S,A,P,R):

目标：最大化效用

·智能体在任意t时刻都以最大化长期累积奖励作为目标函数进行决策，即：

·上述式子也称为效用，γ表示长期奖励的折扣率，其值越大，智能体越关心未来的奖励，其值越小，智能体越关心即时奖励

终止状态

·在每个状态St执行动作At后，会有一定概率让MDP结束

·MDP达到终止状态后，

您可能关注的文档

文档评论（0）

祝星 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

强化学习课件第1、2章强化学习概述、Bandit问题.pptx