马尔可夫决策过程实例讲解.pdf

下载文档 降价啦

1695
0
约1.01万字
约 7页
2019-05-12 发布于湖北
举报
版权申诉
保障服务

马尔可夫决策过程实例讲解.pdf

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Machine Learning 16—Reinforcement Learning 之前我们学过3 个部分的内容：监督学习、学习理论、半监督学习。现在我们来学习第四部分：自增强学习。在监督学习中，给定了训练集以及对应的标签，算法要做的就是令预测输出尽可能 y 地接近。在这种情况下，算法运行过程中对应的是有正确答案的。但有些时候，在对问题 y 作出决策或者控制时，我们很难提供一个确切的正确答案。比如在四足机器人行走编程中，我们在一开始的时候对才去怎样的行动是“正确的”根本没有概念，我们只知道这是一个足部调节的过程，因此在这里，监督学习算法并不适用。在自增强学习框架中，算法的核心是奖励函数，区分出学习过程中哪些行为是“好”的，哪些行为是“坏”的。对于四足机器人行走问题，当机器人能够向前进时，我们给予积极奖励；当机器人向后退或者跌倒时候，我们给予消极惩罚。这样，有了奖励惩罚机制，在多次训练后，机器人会越走越好。自增强学习成功应用在了无人机飞行、机器人行走、市场决策选择等问题上。为了正式地定义自增强学习，我们先来看马尔科夫决策过程（Markov Decision Process,简写MDP）。 Markov Decision Process 一个马尔科夫决策过程是一个五元组(S,A,{P }, ,R ，当然有一些书籍上用四元组表示， sa  ) 本意是不变的哈。其中： S 表示状态集（states ） A 表示行为集（actions ） , 表示状态转换分布，对于当前状态s 和当前采取的动作a，下一个状态服从分布（下 P s P sa sa 一个状态出现的概率依赖于前一个状态以及前状态所采取的动作），而且有 , , 。这里隐含的是马尔科夫性质：一个随机过程的未来状态的条件概 P (s ) 1, P (s ) 0 sa sa s, 率分布仅仅依赖于当前状态与该状态下的动作，换句话说，在给定现在状态的时候，它与过去状态是条件独立的。在一些资料中将写成矩阵形式，即状态转换矩阵。 P sa [0,1) 表示的是discount factor，具体含义稍后解释。 R：SxR  表示奖励函数。R 为实数。有时候R 只与状态S 有关（更多时候与状态S 与行为A 都有关），下面的例子就是如此。为了更加具体的表示五元组的含义，我们来说一个MDP 相关的具体例子：上图的场景表征的是机器人导航任务，想象一个机器人生活在网格世界中，阴暗单元是一个障碍。假设我希望机器人到达的目的地是右上角的格子（4,3 ），于是我用+1 奖励来关联这个单元；我想让它避免格子（4,2 ），于是我用-1 奖励来关联该单元。现在让我们来看看在该问题中，MDP 的五元组是什么： S ：机器人可以在11 个网格中的任何一个，那么一共有11 个状态；集合S 对应11 个可能到达的位置。 A={N S E W} 。机器人可以做出的动作有4 个：向东向南向西向北。 P ：假设机器人的行为核心设计并不是那么精准，机器人在受到相关指令后有可能会走偏 sa 方向或者行走距离不那么精确，为简化分析，建立机器人随机动态模型如下：即命令机器人朝北（朝上）行走，他有0.1 的概率朝着左右方向，0.8 的概率朝指定方向。当机器人撞到墙上或者要走到不是相邻的格子时，其概率为0. （当然，也有关于P