- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
前馈神经网络课件
* * * * * * * * * * * * * 它最终寻求的是极值函数:它们使得泛函取得极大或极小值。 函数应该存在我们优化过的函数家族中。 * * * 也可以让最大似然学习高斯分布的协方差,或者让高斯分布的协方差成为一个输入的函数。但是作为输入时,要让协方差矩阵正定。线性单元难以做到。 * * * 讨论如何定义一个在y上的分布,该分布使用z值。作者说sigmoid函数可以被一个未归一化的概率分布激活。 我们设想:未归一化的log概率在y z中是线性的。 * 解释正确答案,正确项是让cost函数最小! 当z符号错误时,(1-2y)z会趋近于绝对值z。 绝对值的导数成为符号函数,因此梯度不会消失?? 最后一段sigmoid值不会取到0,1 实际应用中使用-log(z) * * 想要最大化log式,目的是让cost最小。鼓励第一项增加,第二项减少。 对于第二项,log求和项可以被大概逼近与max zj.(基于这种思想: 如果 zj足够大 其他项就显得很渺小 log 消除掉了 exp)正确项是让cost最小。 * 梯度消失:函数饱和时,使用梯度下降算法,并没有多大的改变。 * * 方差是一个常数,线性模型回归中误差项相同 为?σ2 简单方法根据闭式表达求方差?闭式表达式:它由初等函数经过有限次的初等运算复合而成,可以写出式子的。 左后一个p 然后通过负对数模型作为cost函数来解决,去学习方差? F是神经网络想要学习的函数。 * 新的参数是方差 标准差 ,精度 等等。精度是为了在参数频繁变化时更好的评估概率密度函数。 线性模型回归中误差项不同,不再是一个常数。 更好的方法是使用带精度高斯分布。多元情况下使用对角矩阵。 (精度情况下)使用梯度下降法好的原因是在该方法中只用到了乘法和 log函数的加法,而使用方差,标准差时用到除法,梯度下降不好用了。 保证正定:我们可以使用softplus函数获得一个整的精度向量,方差,标准差同样也可以。 * 概率p是无法观察到的。 均值那一行:-log 成分衡量了每个成分对cost函数的贡献度(通过概率) 协方差矩阵第三行,学习一个单一的成份时,使用单一的对角矩阵来避免行列式。混合的要知道每一部分的比例。 不管是均值还是协方差,每一个成分都要一定得责任度,通过概率来得到。 * 不稳定是因为使用方差当参数时可能是用到除法,当方差趋近于0。 混合密度网络给出了代表多层输出模式和控制方差的一种策略。 解释图:采样来自混合密度输出层。 输入x来自于相同的分布,y是模型的输出。 每一个成分是高斯分布的,而且含有可预测的均值和方差。可以实现非线性的功能。 * 表现很好的原因可能是部分的是因为训练算法不一定总是能让cost函数达到最小值。 * * * G(i)看成是第i个组。 * Maxout是变的 ,不像sigmoid是一个固定的函数。 因为maxout单元有k个value,所以需要比整流线性单元更多的正则项,但是如果训练集非常大,每个单元分的段很少,则不用正则化效果依然很好。 如果行为接近于线性单元,模型就很容易会被优化,整流线性单元是基于这样的设想的,这种思想也可以适用于其他的模型。 * * Sigmoid单元的饱和行导致梯度下降学习效果不好。 双取正切有点像恒等函数f(x)=x一样,,训练双曲正切就像是训练线性函数一样。 尽管饱和性质,Sigmoid家族的函数依然应用广泛 * 在神经网络中,如果隐藏层只由线性转换组成,那么整个网络就会是线性的,对于一些只想得到线性结果的网络这是可接受的。 如果第一层没有激活函数,我们可以使用U,V两个矩阵来分解W。W=U*V,这是通过线性隐藏层算出来的。。 如果U产生的输出q很小,那么可以达到减少参数的效果。为何(n+p)q w要用到np 这应该是全连接的情况。V是干嘛的? 画图解释 * * * Borel measurable函数:可以吧连续有界的函数看成是贝尔曼可测的。 一个神经网络也能approximate映射任意的有限维离散空间到另一空间。? 所以这个universal approximation theorem的意思就是说无论我们要训练的函数是什么样子,我们都可以用一个MLP表示这个函数,然而我们并不能保证训练算法能够训练这个函数,即使MLP能够表示这个函数,但是训练可能会因为两个原因失败:1,是训练算法可以能不饿能找到目的函数的参数,2,是训练算法可能会因为overfit选择错误的函数。 2:以深度换广度。 3:能够逼近的太少。修正网络应该是指的是使用修正单元的网络。通过模拟分段函数逼近。 * 复制过程可以减少样本的计算量。 * 经验显示,更深的网络产生的学习效果更好。 当然,结果也与隐藏单元,参数个数都有关。 * 对比 3层全连接和 3
文档评论(0)