翻译2012-3动机学习.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
翻译2012-3动机学习

动机学习 摘要 一种新的机器学习方法,称为动机学习(ML)呈现在这工作。动机学习的驱动机器发展抽象的动机和选择自己的目标。动态学习还提供了一种自组织的系统,基于动态变化的疼痛信号之间的竞争控制机器的行为。这提供了一个相互作用的外部和内部驱动产生控制信号。结果表明,动机学习不仅产生一个更复杂的学习机制和价值系统比强化学习(RL),但在动态变化的环境比RL在学习复杂的关系更有效和提供更好的性能。此外,本文展示了基本的神经网络结构用于创建抽象的动机,更高层次的目标和子目标。最后,仿真结果表明,在对比动机学习和RL在环境逐渐日益增加的复杂性和难度水平。 介绍 智能机器预计将彻底改变我们的生活方式,但我们仍然不知道如何设计和构建系统与“真实的”情报。大脑的生物两个一个灵感,一个模型的发展智能机器。我们不能建立一个大脑,但我们可以尝试设计模型,表现出相似的激活感知、记忆和运动控制在一个给定的环境中。人工神经网络(ANN)的启发生物神经元网络成功用于分类、函数逼近和控制。然而古典人工神经网络学习只有一个任务,需要广泛的培训工作,并密切监督。 在强化学习(RL)机制有关动物和人类的方式学习(Bakker施密德胡贝尔表示,2004)。仅仅基于偶尔奖励和惩罚信号,RL智能体必须学习如何从环境最大化他们的预期回报。然而, 随着环境的复杂努力学习和计算成本显著增加性(Barto马哈德文,2003),因此, 在一个复杂的环境使用RL最优决策仍然是棘手的。这个特性,通常称为“维数灾难”, RL在实际应用程序中是其中的一个主要缺点。 强化学习还遇到所谓的“信用赋值问题”(萨顿,1984;傅安德森,2006)。在早期阶段强化学习使用时间差异机制传播价值的回报收到。然而, 在早期阶段它没有自然机制来阻止扩散的奖励,没有收到奖励。O reilly提出了一个新的主值和学习价值(PVLV)方案,实现了巴甫洛夫调节(O reilly,胧,Watz,弗兰克,2007)。PVLV直接关联起来的刺激和奖励是一个有前途的替代时间差异(TD)用于传统RL(O reilly 弗兰克,2006)。 提高RL效率的方法之一是使用子目标,构建一个层次结构的后续目标。层次强化学习(HRL)方法倾向于利用环境和在大规模问题下智能体的任务来提高政策学习的结构。在众多方法分层RL一可以区分:达扬和辛顿的研究在封建的强化学习(达扬辛顿,1993),帕尔和罗素(1998)的 研究对分层抽象机器和MAXQ发展方法(Dietterich,2000)。 巴克和施密德胡贝尔 (2004) 基于子目标发现和种子策略专门化提出了一个分层强化学习方法。他们的HASSLE算法可以优于普通RL“通过学习创造两个有用的子目标和相应的专业子任务解决者”。在他们的算法使用HASSLE(哈蒙贝尔德,1996)在两个高和低水平的层次结构。大量的参数是这个系统的局限性,缺乏严格的收敛担保和确定合理的高级的观察依赖。 在分层强化学习中发现子目标(HRL),通过收集输入数据得(巴克施密德胡贝尔表示,2004)到达期望的和有用的结果。在HRL,高层的政策是用来发现子目标,并将它们应用在适当的时候来完成目标。这个收益率自动学习的目标层次结构尽量减少设计师的努力。高层政策优化子目标和管理他们的实时使用。各个子目标的管理是由低层次的政策在感觉运动功能的子空间学习低层次的价值。然而,识别有用的子目标不是容易的和大量的设计参数限制了HRL方法的有效性,虽然HRL与子目标发现并没有提高机器学习的能力,它仍然存在RL大范围的限制,因为对外部设定目标它是关注最大化总回报。 然而,如果我们把动机给机器?一个智能机器必须能够自己能够生成和追求目标,对一组给定的分配任务学习它所需要的,探索原因,开发新的动机和设定自己的目标。现有方法在这个方向已经取得了一些进展 (巴克施密德胡贝尔表示,2004;她,2004;黄翁,2002;Oudeyer,卡普兰, Hafner,2007,2010,,Kruijff Roa,通往,2009;施密德胡贝尔表示,1991) 关键问题是如何“激励”机器采取行动和提高自己的知识能力,如何提高它的学习效率,以及如何设计一个机制,结构自组织从更高级别的看法和通过机器的互动可以发展的技能? (普法伊费尔 2006;钢、邦加德,2004)什么可以与它驱动一个智能体来探索环境和如何有效地学会?最后,如何设计一台机器,不仅能实现给定的目标,而且还创建它们和决定追求目标?该如何做到在一个不断改变环境,尽管分心和不可预见的困难吗? 1.1、内在动机和好奇心驱动的探索 根据普法伊费尔和邦加德(2006),一个智能体的动机应该摆脱发展过程。观察到人类和有人认为它是一个制度,奖励参与活动的略高于目前一个人的能力水平。人类似乎有种与生俱来的需要问

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档