人工智能-第5章-机器学习教学幻灯片.ppt

下载文档 降价啦

4
0
约1.66万字
约 102页
2018-02-27 发布于天津
举报
版权申诉
保障服务

人工智能-第5章-机器学习教学幻灯片.ppt

1、本文档共102页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

教学课件课件PPT医学培训课件教育资源教材讲义

《人工智能》强化学习通常包括两个方面的含义：一方面是将强化学习作为一类问题；另一方面是指解决这类问题的一种技术。如果将强化学习作为一类问题，目前的学习技术大致可分成两类：其一是有哪些信誉好的足球投注网站智能系统的行为空间，以发现系统最优的行为。典型的技术如遗传算法等有哪些信誉好的足球投注网站技术；另一类是采用统计技术和动态规划方法来估计在某一环境状态下的行为的效用函数值，从而通过行为效用函数来确定最优行为。我们特指这种学习技术为强化学习技术。强化学习的产生与发展强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律（Law of Effect）：一定情景下让动物感到舒服的行为，就会与此情景增强联系（强化），当此情景再现时，动物的这种行为也更易再现；相反，让动物感觉不舒服的行为，会减弱与情景的联系，此情景再现时，此行为将很难再现。换个说法，哪种行为会“记住”，会与刺激建立联系，取决于行为产生的效果。动物的试错学习，包含两个含义：选择和联系，对应计算上的有哪些信誉好的足球投注网站和记忆。所以，1954年，Minsky在他的博士论文中实现了计算上的试错学习。同年，Farley和Clark也在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky 的论文“Steps Toward Artificial Intelligence”，此后开始广泛使用。1969年， Minsky因在人工智能方面的贡献而获得计算机图灵奖。强化学习的发展过程可粗略分为两个阶段：强化学习的形成阶段（50 年代~60年代） Minsky首次提出“强化”和“强化学习”这些术语； Samuel的下棋程序采用类似值迭代、瞬时差分和Q 学习的训练机制，来学习用线性函数表示的值函数； Saridis 把强化控制系统的控制器看成一个随机自动机，首次系统提出了采用强化学习来解决随机控制系统的学习控制问题。强化学习的发展阶段（70 年代~ ） 1972年，Klopf把试错学习和时序差分结合在一起。1978年开始，Sutton、Barto、 Moore等对这两者结合开始进行深入研究。 1989年Watkins提出了Q-学习，也把强化学习的三条主线扭在了一起。 1992年，Tesauro用强化学习成功了应用到西洋双陆棋中，称为TD-Gammon 。 5.6.1 强化学习的原理强化学习把学习看作试探过程，基本过程如图所示。在强化学习中，Agent 选择一个动作作用于环境，环境接收该动作后发生变化，同时产生一个强化信号（奖或罚）反馈给Agent，Agent 再根据强化信号和环境的当前状态再选择下一个动作，选择的原则是使受到正的报酬的概率增大。选择的动作不仅影响立即强化值而且还影响下一时刻的状态及最终强化值。强化学习的目的就是寻找一个最优策。 1、强化学习的结构 Agent 环境状态s 奖赏r 动作a 强化学习模型由以下部分组成： 2、强化学习模型一个离散的状态集S ={ s0 , s1 , s2 , ?, sn }；动作集A={ a0 , a1 , a2 , ?, an} ；一个强化值集r ∈R； agent 和环境交互的状态—动作序列 (si,ai) →ri，表示agent 在状态si 下执行动作ai 获得的立即奖赏值ri。 agent 执行一个动作除了获得立即奖赏信号外，还有从后续状态—动作映射的延迟奖赏。agent 获得的总奖赏值为: 其中∈[0,1] 为折扣因子。 Agent 的任务就是学习控制策略π: S →A，能够最大化期望奖赏值的总和。强化学习技术的基本原理是：如果系统某个动作导致环境正的奖赏，那么系统以后产生这个动作的趋势便会加强。反之系统产生这个动作的趋势便减弱。这和生理学中的条件反射原理是接近的。如果假定环境是马尔可夫型的，则顺序型强化学习问题可以通过马氏决策过程（Markov Decision Process，MDP）建模。下面首先给出马氏决策过程的形式化定义。马氏决策过程由四元组S, A, R, P定义。包含一个环境状态集S，系统行为集合A，奖赏函数R：S×A→? 和状态转移函数P：S×A→PD(S)。记R(s, a, s’)为系统在状态s采用a动作使环境状态转移到s’获得的瞬时奖赏值，简记为Rass’；记P(s, a, s’)为系统在状态s采用a动作使环境状态转移到s’的概率，简记为Pass’ 。马氏决策过程的本质是：当前状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作，而与历史状态和历史动作无关。因此在已知状态转移概率函数P和奖赏函数R的环境模型知识下，可以采用动态规划技术求解最优