网站大量收购闲置独家精品文档,联系QQ:2885784924

周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.pptVIP

周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络

机器学习导论 五、神经网络 什么是神经网络(学习)? neural networks are massively parallel interconnected networks of simple (usually adaptive) elements and their hierarchical organizations which are intended to interact with the objects of the real world in the same way as biological nervous systems do [T. Kohonen, NN88] M-P 神经元模型 [McCulloch and Pitts, 1943] 神经网络是一个很 大的学科,本课程 仅讨论它与机器学 习的交集 神经网络学得的 知识蕴含在连接 权与阈值中 神经网络是一个具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。 激活函数 • • 理想激活函数是阶跃函数 , 0表示抑制神经元而1表示激活神经元 阶跃函数具有不连续、不光滑等不好的性质 , 常用的是 Sigmoid 函数 多层前馈网络结构 多层网络:包含隐层的网络 前馈网络:神经元之间不存在 同层连接也不存在跨层连接,即 网络中无环或者回路。 隐层和输出层神经元亦称“功 能单元”(functional unit),无隐藏层的 又称“感知机(Perceptron)” 多层前馈网络有强大的表示能力 只需一个包含足够多神经元的隐层 , 多层前馈神经网络就能以 任意精度逼近任意复杂度的连续函数 [Hornik et al., 1989] 但是,如何设置隐层神经元数是未决问题. 实际常用“试错法” 神经网络发展回顾 1940年代 -萌芽期: M-P模型 (1943), Hebb 学习规则 (1945) 1958左右 -1969左右 ~繁荣期 : 感知机 (1958), Adaline (1960), … 1969年: Minsky Papert “Perceptrons” 冰 河期 1985左右 -1995左右 ~繁荣期 : Hopfield (1983), BP (1986), … 1995年左右:SVM 及 统计学习 兴起 沉 寂期 2010左右 -至今 ~繁荣期 :深度学习 交替模式 : 热十(年) 冷十五(年) 科学的发展总是“螺旋式上升” 三十年河东、三十年河西 坚持才能有结果! 追热门、赶潮流 —— 三思而后行 启示 误差逆传播算法 (BP) 最成功、最常用的神经网络算法,可被用于多种任务(不仅限于分类) P. Werbos在博士学位论文中正式提出: P. Werbos. Beyond regression: New tools for prediction and analysis in the behavioral science. Ph.D dissertation, Harvard University, 1974 输入: d 维特征向量 输出: l 个输出值 隐层:假定使用 q 个 隐层神经元 假定功能单元均使用 Sigmoid 函数 给定训练集 BP 算法推导 对于训练例 则网络在 , 假定网络的实际输出为 上的均方误差为: 需通过学习确定的参数数目: BP 是一个迭代学习算法 , 在迭代的每一轮中采用如下误差修正: BP 算法推导 (续 ) BP 算法基于 梯度下降 策略,以目标的负梯度方向对参数进行调整 以 为例 对误差 注意到 , 给定学习率 先影响到 , 有: , 再影响到 , 然后才影响到 , 有 : “链式法则” BP 算法推导 (续 ) , 有 对 再注意到 于是, BP 算法推导 (续 ) 类似地,有: 其中: 不能太大、不能太小 BP 算法 预处理:属性值一般伸缩到[-1,1], Y伸缩到[0,1] 标准 BP 算法 vs. 累积 BP 算法 标准 BP 算法 • 每次针对单个训练样例更 新权值与阈值 • 参数更新频繁 , 不同样例 可能抵消 , 需要多次迭代 累积 BP 算法 • 其优化目标是最小化整个 训练集上的累计误差 • 读取整个训练集一遍才对 参数进行更新 , 参数更新 频率较低 在很多任务中 , 累计误差下降到一定程度后 , 进一步下降会非常缓慢, 这时 标准 BP算法往往会获得较好的解, 尤其当训练集非常大时效果更明显. 缓解过拟合 主要策略:  早停 (early stopping) •

文档评论(0)

zsmfjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档