《大数据挖掘与统计机器学习(第3版)》 课件 9_CNN与网络优化.pptx

《大数据挖掘与统计机器学习(第3版)》 课件 9_CNN与网络优化.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1;9.1卷积神经网络

---9.1.1卷积神经网络的结构;3;4;5;使用卷积层代替全连接层建立模型具有以下优点:

局部连接:卷积层中的每个神经元都只和下一层中某个局部窗口内的神经元相连构成一个局部连接网络,连接数量大大减少。

权重共享:作为参数的滤波器对于所有神经元都是相同的,这样大大减少了参数的个数。

卷积运算之后,得到卷积层的净输入值,再经过非线性激活函数(一般是ReLU函数)得到该层的输出值。;二、池化层;8;三、全连接层;9.1.2CNN的算法实现;?;?;;;卷积层和池化层,误差项的计算有所不同。;;17;;19;;21;9.1.3CNN的经典模型

1.LeNet;1.LeNet;;2.AlexNet;2.AlexNet改进之处;3.VGG-Net;4.GoogLeNet;4.GoogLeNet;4.GoogLeNet;5.ResNet;5.ResNet——残差学习;5.ResNet;9.2网络优化

;1.局部最小值

凸优化的最重要的性质之一就是,其局部最小值(LocalMinima)即为全局最小值(GlobalMinima)。而神经网络的损失函数是非凸的,基于梯度下降的优化方法会陷入局部最优点。

;2.鞍点和平坦区域

在高维空间中,另一类零梯度点鞍点(SaddlePoint)比局部最小值更为常见。如图所示,鞍点形似马鞍状,梯度在一个方向上是极小值,在另一个方向上则是极大值。

帮助梯度下降摆脱陷入局部极小值或鞍点的一种方法是使用随机梯度下降(SGD),鞍点比较不稳定,随机性的引入可以有效逃离鞍点。

;3.平坦最小值

神经网络中参数很多,并且有一定的冗余性,这使得单个参数对最终损失函数的影响比较小,因此损失函数的局部最小值通常落入一个比较平坦的区域,即平坦最小值(FlatMinima),平坦最小值在邻域内损失接近,邻域内的微小扰动不会剧烈影响模型;尖锐最小值则相反。平坦最小值能够更好地泛化,因此是可取的。

4.梯度悬崖

多层神经网络通常具有比较陡峭的区域,类似于悬崖,通常是由几个比较大的权重相乘导致的。在非常陡峭的悬崖结构上,梯度更新步骤可以将参数移动到非常远的位置,很容易致使求解不稳定的梯度爆炸现象。

;38;9.2.2小批量梯度下降

批量梯度下降BGD(BatchGradientDescent)是梯度下降算法常见的形式,在更新参数时使用所有的样本来进行更新。随机梯度下降SGD(StochasticGradientDescent)和BGD原理类似,区别在于求梯度时没有用所有的样本数据,而是仅仅选取一个样本来求梯度,和BGD是两个极端,各自的优缺点都非常突出。

小批量梯度下降(Mini-batchGradientDescent)是BGD和SGD的折中,既不使用整个数据集,也不仅使用单个样本构造损失函数,而是使用固定数量的样本,比如,128,256,512。选择合适的小批量大小,可以确保我们既能有足够的随机性以摆脱局部极小值和鞍点,又能充分利用并行处理的算力优势。在小批量梯度下降中,每次迭代(iteration)选取总体数据集中的固定数量(K个)样本计算损失函数关于参数的偏导数,以此结果更新参数。所有训练集样本更新一次为一个回合(Epoch)。在小批量梯度下降基础上,进一步采取优化算法,主要是从学习率衰减和梯度方向优化两个方面进行考虑。

;9.2.3学习率调整

学习率是网络优化重要的超参数。一般来讲,在小批量梯度下降中,批次大小K比较小的时候,需要设置较小的学习率;K越大,训练越稳定,超参数学习率可以设置大一些。除了考虑K的因素之外,还有很多调整超参数学习率的方法。

学习率衰减

学习率预热

周期性的学习率调整

;AdaGrad算法

;RMSprop算法

;9.2.4Adam算法

;9.2.5Adam算法

;

;9.2.6优化方法小结

;9.2.7其他考虑

1.参数初始化:

;48;2.数据预处理和逐层归一化

虽然网络可以通过参数的调整来适应各变量的取值范围,但由于训

练数据各维度的来源和度量不同,分布往往存在很大差异。因此经常对

输入数据进行标准化或者归一化处理,或者使用主成分得分去掉变量之

间的相关性。此外,在神经网络中,中间某一层的输出是下一层的输入,

最好使每一层的输入的分布都保持一致,通常使用批量归一化或逐层归

一化,使得计算更稳定有效。;3.网络正则化

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档