- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习前沿青年科学家
●1●
杜克大学鬲融:通往“Learningtolearn”方法的理论理解
整理:智源编辑许明英
近年来,人工智能的蓬勃发展促进了人们对人工智能理论的深入探索,人工智能理论的研究呈现出了ArtificialIntelligence--MachineLearning--DeepLearning--DeepReinforcementLearning--DeepLearningtoLearn的趋势。LearningtoLearn(学会学习)已经成为继增强学习之后又一个重要的研究分支。
在MachineLearning时代,复杂的分类问题推动了人们对DeepLearning(深度学习)的探索,深度学习的出现基本解决了一对一映射问题,然而深度学习在解决Sequentialdecisionmaking问题上遇到了瓶颈,由此深度增强学习应运而生,并在序列决策问题上初显成效。但是,新的问题接踵而至,深度增强学习依赖于巨量的训练,并且需要精确的Reward,对于现实世界的很多任务,没有好的Reward,也没办法无限量训练。这就需要其能够快速学习。而快速学习的关键是具备学会学习的能力,能够充分的利用以往的知识经验来指导新任务的学习,因此LearningtoLearn成为学者们新一轮攻克方向。
6月24号,在第二届智源大会“机器学习前沿青年科学家”专题论坛上,杜克大学计算机科学系鬲融教授作为演讲嘉宾,带来了主题为《TowardsaTheoreticalUnderstandingofLearning-to-learnMethods》的精彩演讲。
鬲融在报告中,首先就深度学习中起核心作用的优化算法抛出第一个问题:如何训练及优化网络,仅仅使用SGD或Adam足够吗?
他简单阐述了训练神经网络的一些技巧,例如可能需要设计步长、改变一些动量;可能需要增加一些权重衰减,增加数据量;可能需要利用各种各样的技巧去优化网络。然而,调整这些参数优化网络并不是一件容易的事情。
图1:神经网络优化
●2●
图2:具有参数Θ的优化器
优化器可以是传统简单的优化器,也可以是神经网络优化器。训练优化器的步骤为:进行t步优化、定义元目标、在优化器参数Θ做元梯度下降。事实上,这一个过程类似于循环神经网络/策略梯度。
然而这一过程会面临着诸多挑战,例如梯度消失或梯度爆炸问题、可能陷入较差的局部最优解、在具体任务上的泛化能力、没有理论保证等。鬲融在报告中谈到自己为二次目标分析了简单的优化器(包括梯度下降GD和随机梯度下降SGD),并通过实践得出了一些结论如下:
1.对于二次目标的梯度爆炸/梯度消失问题
(1)传统的元目标对于所有步长都存在元梯度爆炸/消失问题;
(2)可以设计一个更好的元目标,其元梯度保持多项式有界;
(3)即使对于新目标,使用反向传播算法计算元梯度也会导致数值问题。
2.最小二乘训练优化器的泛化能力
当样本数量较少时,需要在单独的验证集上定义元目标。当样本数量很大时,只需在训练集上定义元目标即可。
鬲融从步长和设计更好的目标两个方面入手探讨了应对梯度爆炸/梯度消失问题的策略。
一、为简单的二次目标优化步长
目标:
minf(wwTHw
那么,这样做有没有可行性呢?答案是肯定的。
这方面的研究工作目前已经有很多,其中利用Learningtolearn来设计更好的优化算法,从而来提高优化器性能是其中一个方向。鬲融以论文《Learningtolearnbygradientdescentbygradientdescent》为例进行了介绍,这篇论文的主要思想是用Learningtolearn方法学习一个新的优化器,目标是优化分配任务的目标函数f(w);具体则是,将优化算法抽象为具有参数Θ的优化器,然后通过各个分配任务优化参数Θ。
接下来,鬲融提到或许在调参过程中会非常沮丧,或许想摆脱这些繁杂的调参过程,自动找寻新的优化技巧。
●3●
图3:训练优化器的泛化能力
二、设计一个更好的目标
思想:因为目标在T中成倍地变大或变小,导致元梯度很大。因此设计一个新的目标如下:
G(hlogf(wh,TogF(h)
定理:对于新目标,在所有相关参数中,元梯度GO(h)总是多项式。此外,步长为1/·的元梯度下降收敛。然而,如果用反向传播计算FO(h),需要GO(h
文档评论(0)