稀疏自动编码器-学习笔记。.pptVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
稀疏自动编码器-学习笔记。

目录 自动编码器 神经网络中的损失函数以及残差 稀疏自动编码器 程序实现 附录 Autoencoder 在讲稀疏自动编码器之前,我们先看看自动编码器。 自动编码器,非监督 模式识别,要求得到 的输出近似于原始输 入,提取其主要特征 Autoencoder 如果我们输入一张10*10的图像,这样就有100个像素,所以输入层和输出层的节点数量就是100。而我们取隐藏层节点数量为25。这样就会迫使隐藏层节点学习得到输入数据的压缩表示方法,逼得隐藏层要用25维数据重构出100维的数据。这样也就完成了学习过程。 神经网络的损失函数和残差 定义: 为第L层第j个单元 的节点激活量。 为第L层的节点数目。 具体表达式: 其中f(x)函数为sigmoid函数 或则为tanh(x)函数。当L=1时, 为输入,即 神经网络的损失函数和残差 定义: 为第L层节点j激活 量的输入。 具体表达式: = 最终的表达式就用 , ,以及偏置 表示 神经网络的损失函数和残差 在逆向算法更新权值时,假设有 一共m个训练集。 定义: J(w,b)为损失函数,其中第一项称为平均平方和误差,第二项为调整项。 第二项是为了减少权值的量级以及防止过度拟合。 神经网络的损失函数和残差 为了使J(w,b)这个包含W和b的函数最小化(误差最小),我们使用梯度下降法来进行求解。 神经网络的损失函数和残差 梯度下降法,基于这样的观察:如果实值函数F(x) 在点a处可微且有定义,那么函数 F(x)在 a点沿着梯度相反的方向 下降最快。 如果 对于γ0 为一个够小数值时成立,那么 F(a) F(b)。 考虑到这一点,我们可以从函数 F 的局部极小值的初始估计x0 出发,并考虑如下序列 x1,x2,x3......使得 因此可得到F(x0)F(x1)F(x2).....最终收敛. 神经网络的损失函数和残差 对于每一次迭代 其中 神经网络的损失函数和残差 定义: 为第L层的第i个节点对最终输出值的残差贡献值,称之为残差。 计算方法: 1.计算前向过程中的节点激活量 2.计算最终层的残差, 此时 为输出。 神经网络的损失函数和残差 3.根据上面的算式,让 这个式子可以这么理解,对比最终层的节点误差,当 括弧里的算子实际上是逆向算法,是最终层的残差与权重的乘积和即上图中的这个节点产生的总残差.证明. 神经网络的损失函数和残差 4.通过梯度下降法,求得 证明 神经网络的损失函数和残差 获得损失函数及其偏导数之后,便可以采用梯度下降法求网络最优化的参数,整个流程如下: Sparse Autoencoder 自动编码器中当隐层节点数过少,隐层节点则需要对原始输入进行压缩,当输入为随机高斯序列的时候,对原始输入提取特征则会变得困难。 如果隐藏层节点数量很大,甚至比输入层节点数量还要多时,我们仍然可以使用自编码算法,但是这时需要加入 稀疏性限制 。这就是稀疏自编码器。 核心思想:将隐层进行约束,使其变得稀疏。 Sparse Autoencoder 定义: 为隐含层节点j的平均激活量(也有的翻译为平均输出值),也就是对应m个不同训练集的平均激活量。 具体表达式: 因为我们要让隐含层约束为稀疏的,那么当大多数的 接近于0时(0.05),大多数隐含节点变为非激活状态,整个隐含层变为稀疏。具体表现就是sigmoid函数的输出大多数状态是0,tanh函数的输出大多数状态是-1。这样有什么好处?这样能够迫使隐藏神经元发挥最大的潜力,在很不利的条件下学习到真正的特征。 Sparse Autoencoder 为了迫使 是接近于0,引入一个额外项 KL divergence(相对熵)来惩罚 偏离 的情况。 这里给定了 为0.2,实际 我们需要 为更小的值。

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档