《深度学习入门——基于Python的实现》 课件 1 从最简单的神经网络说起.pdf

《深度学习入门——基于Python的实现》 课件 1 从最简单的神经网络说起.pdf

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《深度学习入门—基于Python的实现》

(吴喜之张敏)

从最简单的神经网络说起

张敏

October15,2024

张敏October15,20241/35

纪元和批次

张敏October15,20242/35

神经网络的训练,通常需要进行迭代,而每次迭代都通过误差

梯度等特性来更新原有的参数,以改进拟合.但需要考虑训练

模型时要用多少次整个训练集及每一次迭代需要用多少观测

1

值.产生了纪元(epoch)和批/批次/批处理(batch)的概念.

1术语epoch可以翻译成常用词“时代”或“时期”,这里用纪元主要是避免使用常用

词做专门术语.

张敏October15,20243/35

在通常统计课程中的样本量(samplesize)概念就是数据中全

部观测值的数量,而把全部训练集数据用来训练模型在深度

学习中则称为一个纪元,这是因为在深度学习中往往需要用

整个训练集数据来训练模型多次(训练几次就称几个纪元).

由于无法在每个纪元的训练中一次将所有数据传递给计算机,

因此,需要将整个训练集数据分成较小尺寸(patchsize)的批

次,逐个提供给计算机,并在每一步结束时更新神经网络的权

重以使预测接近给定的目标值.2

2

在统计中称为观测值的是一行数据,是许多变量(variable)的观测值组成的向量,英文是observation,而称一个数据集为样

本(sample);但是在计算机领域往往称变量为特征(feature),观测值为样品或样本(sample),也称为实例(instance)、观测

(observation)、输入向量(inputvector)或特征向量(featurevector).

张敏October15,20244/35

纪元的数量很大,可能为数百或数千,这使得学习算法可以运

行,直到将模型中的误差充分最小化为止.在一些文献中可以

看到纪元数目设置为10、100、500、1000和更大的示例.为

什么使用多个纪元呢?这是因为我们使用的是有限的数据集,

为了优化由迭代积攒的学习效果,仅通过一次或一次更新权

重不够,需要将完整的数据集多次传递到同一个神经网络.

张敏October15,20245/35

当所有训练样本都用于创建一个批次时,该学习算法称为批

次梯度下降(batchgradientdescent);当批次等于一个样本的大

小时,该学习算法称为随机梯度下降(stochasticgradient

descent);当批次大小大于一个样本且小于训练数据集的大小

时,该学习算法称为微型批次梯度下降(mini-batchgradient

descent).

张敏October15,20246/35

在小批量梯度下降的情况下,常用的批量大小包括32、64和

128个样本.如果数据集没有按批次大小平均划分怎么办?在

训练模型时,这种情况可能而且确实经常发生.这仅表示最终

批次的样品少于其他批次,或者可以从数据集中删除一些样

本或更改批次大小,以使数据集中的样本数量确实等于样本

量除以批次大小.

张敏October15,

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档