- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优化人工神经网络
优化BP神经网络的一些方法 刘少哲 成琦 王志兵 BP神经网络 BP网络是一种多层前馈神经网络,它采用BP算法实现输入空间到输出空间的非线性映射,具有结构简单、可操作性强等优点,目前已被广泛应用.BP神经网络模型一般由三层构成(图1),对于输入信号先传播到隐层节点,再把隐层节点的信息传播到输出节点. 输入层I有n个节点,隐层J有h个节点,输出层K有m个节点;Wji表示输入层的第i个节点和隐层的第j个节点之间的连接权值,Wkj表示隐层的第j个节点和输出层的第k个节点之间的连接权值;d1,d2,…,dm为期望输出;e1,e2,…,em为实际和期望输出值的误差. BP算法的基本思想: 学习过程由模式正传播和误差逆传播两个过程组成.正向传播时,信号作用于输入层,经隐层处理后,传向输出层.若输出层没能得到期望值,则转入误差反向传播阶段,将输出误差通过隐层向输入层逐层返回,从而获得各层的误差信号,作为修改权值的依据.权值不断修改的过程,也就是网络的学习过程,即对网络的连接权Wji和Wkj进行调整,使该网络实现给定的输入输出映射关系.此过程一直进行到网络输出的误差满足可接受的程度或达到预定的学习次数为止. 基本 BP 算法的局限性 (1) 网络训练的收敛速度很慢 基本BP算法在实际应用中,网络训练的收敛速度很慢,这主要是由于为了保证网络的稳定性,取较小的学习率造成的。 (2) 网络训练容易陷入局部极小点 (3) 网络训练容易陷入S型函数的饱和区 如果神经元采用S型激励函数,当权值太大或学习率太大时,可能使网络计算陷入S型激励函数的饱和区,在这种情况下,S型函数的导数很小,导致权值和偏差的修正值也很小,如果S型函数的导数趋向零,则权值和偏差的修正值也趋向零,从而导致网络对权值和偏差的调节作用几乎停顿下来,这种现象称为“麻痹现象”。 (4) 网络的学习和记忆不稳定 人类的大脑有记忆的稳定性,新的信息的记忆不会影响已记忆的信息。当要求一个训练好的BP网络再去学习一组新的记忆模式时,原来训练好的权值和偏差遭到破坏,导致已经记忆的学习模式的信息被丢失。为了避免该情况发生,必须将原来的学习模式和新的学习模式放在一起重新训练。 (5) 网络训练时间长 网络隐含层的层数与每个隐层神经元的个数的选取没有一个统一而完整的理论推导,而是根据经验确定,使网络产生很大的冗余,从而增加了网络的训练时间。 复合误差函数的设计 BP 算法本质上是以误差平方和函数为目标函数,用梯度下降法求其最小值的算法。在训练样本的初始阶段,输出值远离期望值,E相对较大,ΔE有较大的下降空间,所以,E对加快网络的收敛速度有较大的贡献;随着训练样本以及训练次数的逐渐增加,输出值逐渐靠近期望值,E不断减小,ΔE的下降空间也不断缩小,此时,网络的收敛速度将变得非常缓慢。同时,由于全局均方误差函数 E 是一个非线性函数,意味着由E构成的连接空间不是只有 1个极小点的抛物面,而是存在多个局部极小点的超曲面,因此,误差逆传播网络的收敛过程很可能进入局部极小点,而无法最终收敛到全局最小点。导致这一缺陷的原因是BP学习规则采用了按误差函数梯度下降方向进行收敛。为此本文构造了复合误差函数 ,并用 来代替传统算法中的全局均方误差函数 E(m)。复合误差函数 的具体展开式为: 在训练样本的初始阶段网络的实际输出与期望输出相差较大,λ=1,此时 = E ( m),即为全局均方误差函数,网络收敛速度加快;随着训练样本以及训练次数的逐渐增加,E不断减小,当λ从1趋向于0时,(1-λ) 部分贡献值增大,此时, = ,网络收敛速度同样加快,这在一定程度上克服了传统BP算法收敛速度慢的缺点。对于函数 收敛性,当 → 0时,复合误差函数能使 E(m)和 同时达到极小,收敛性与 E(m)的收敛性是一致的。 采用 与作为λ参数的原因是:当?E(m)>0 时,E(m)>E(m?1),说明全局均方误差 E(m)增大,输出值远离期望值。由于误差变化量?E(m)相对 E(m)要小得多,此时 = 能够迅速减小,使得λ 趋于 1,λE(m)部分贡献值增大,能够加快网络收敛速度;当?E(m)<0 时,E(m)<E(m?1),说明全局均方误差 E(m)减小,输出值靠近期望值。此时,虽然误差变化量?E(m)很小,但误差变化率 相对?E(m)要大得多,因此, 能够迅速增大,使得 λ 趋于 0,(1-λ) 部分贡献值增大,同样也能加快网络收敛速度。 分层动态调节不同学习速率 BP 算法中
文档评论(0)