- 1、本文档共63页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信号和权值向量空间 将神经网络的输入、输出以及权值矩阵的行作为向量看待是非常有好处的。这些都是中的向量。 是标准的n维欧基里德空间 线性向量空问 如果已经习惯于将向量看作是一列数字,那么这两个元素的确是奇怪的向量。但是请记住:一个集合只要满足上述10个条件,就可以被认为是一个向量空间。 例如考虑最高阶数小于或等于2的多项式集合此集合的两个元素是: 线性无关 生成空间 内积 范数 正交性 向量展开式 互逆基向量 如果需要向量展开式,而基集又不是正交的,那么就必须引人下列等式所定义的互逆基底: Gram矩阵 神经网络中的线性变换 诸如特征值、特征向量和基变换等基本概念,这些概念对理解一些诸如性能学习(反传学习算法)以及Hopfield网络的收敛特性等神经网络关键课题是十分重要的。 线性变换 变换:一个变换由三部分组成 矩阵表示 可以证明两个有限维向量空间之间的任何线性变换都可以用一个矩阵来表示(这和在有限维的向量空间中的任何一个向量可以用一个数列来表示是一样的)。 以旋转变换为例,来讨论变换的矩阵表示,看看如何找到该变换的矩阵表示。 特征值和特征向量 考虑一个线性交换: : (定义域和值域相同)。分别称满足下式的那些不等于0的向量和标量分别是特征向量和特征值: 请注意,特征向量实际上并不是一个真正的向量,而是一个向量空间。所以,给定变换的一个特征向量表示一个方向,当对任何取该方向的向量进行变换时,它们都将继续指向相同的方向,仅仅是按照特征值对向量的长度进行缩放。 性能曲面和最优点 介绍的是一类称为性能学习的神经网络训练的基础知识。神经网络有几种不同类型的学习规则,如联想学习(Hebb学习)和竞争学习。性能学习是一类重要的学习规则,其目的在于调整网络参数以优化网络性能。主要目的是研究性能曲面,并确定性能曲面存在极大点和极小点的条件。 性能优化 这种优化过程分两个步骤进行。第一步是定义“性能”的含义。换言之,需要找到一个衡量网络性能的定量标准,即性能指数,性能指数在网络性能良好时很小,反之则很大。优化过程的第二步是有哪些信誉好的足球投注网站减小性能指数的参数空间(调整网络权值和偏置值)。 泰勒级数 假定性能指数是一个解析函数,它的各级导数均存在。 向量的情况 神经网络的性能指数并不仅是一个纯量的函数,它是所有网络参数(各个权值和偏置值)的函数,参数的数量可能是很大的。因此,需要将泰勒级数展开形式扩展为多变量形式。 方向导数 最大斜率在什么方向上?当方向向量与梯度的内积最大时斜率最大,故当方向向量与梯度同向时会出现最大斜率(注意方向向量的长度对此没有影响,因为它已被规格化)。 极小点 优化的必要条件 定义了最优点(极小点)后,必须给出这种点需要满足的条件。这里还要用到泰勒级来推导这些条件: 二阶条件 二次函数 研究赫森矩阵的特征值和特征向量得到二次函数性质。考虑以原点为驻点且其值为0的二次函数: 用方向导数的概念说明A的特征值和特征向量的物理意义以及确定二次函数的曲面特性: 所以,在最大特征值的特征向量方向上存在最大的二阶导数。事实上:在每个特征向量方向的二阶导数都等于相应的特征值。在其他方向上二阶导数等于特征值的加权平均值。特征向量方向上的相应特征值即是在该方向上的二阶导数。 现将二次函数的一些特点小结如下: 1)如果赫森矩阵的所有特征值为正,则函数有一个强极小点 2)如果赫森矩阵的所有特征值为负,则函数有一个强极大点 3)如果赫森矩阵的特征值有正有负,则函数有一个鞍点。 4)如果赫森矩阵的所有特征值为非负,但某些特征值为零,则函数要么有一个弱极小点,要么没有驻点。 5)如果赫森矩阵的所有特征值为非正,但某些特征值为零,则函数要么有一个弱极大点,要么没有驻点 性能优化 讨论三类优化算法:最速下降法、牛顿法以及共扼梯度法。这些算法将用于神经网络的训练 所有将要讨论的算法都是迭代的。首先,给定一个初始猜测值,然后按照等式: 最速下降法 下降方向 满足上式的任意向量称为一个下降方向。如果沿此方向取足够小的步长,函数一定递减。这带来了另一个问题:最速下降的方向在哪里?(即在什么方向上函数递减速度最快?)这种情况发生于下式为最大的负数时: (设长度不变,只改变方向。)这是梯度和方向向量之间的内积。当方向向量与梯度反向时,该内积为负,而绝对值最大。(见关于方向导数的讨论。)所以最速下降方向的向量: 最速下降法:迭代中使用此式得最速下降的方法。 从展式中可以得到矩阵表示中的第二列。所以,完整的矩阵表示可以由下式: 如果某个变换有n个不同的特征值,则可以保证得到该变换n个线性无关的特征向量,因此特征向量组成变换的向量空间的一个基集。 驻点:一个极小点处的梯度一定为零。这就是局部极小点的一阶必要条件(不是充分条件)。 可以通过
文档评论(0)