- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《深度学习入门—基于Python的实现》
(吴喜之张敏)
从最简单的神经网络说起
张敏
October15,2024
张敏October15,20241/35
纪元和批次
张敏October15,20242/35
神经网络的训练,通常需要进行迭代,而每次迭代都通过误差
梯度等特性来更新原有的参数,以改进拟合.但需要考虑训练
模型时要用多少次整个训练集及每一次迭代需要用多少观测
1
值.产生了纪元(epoch)和批/批次/批处理(batch)的概念.
1术语epoch可以翻译成常用词“时代”或“时期”,这里用纪元主要是避免使用常用
词做专门术语.
张敏October15,20243/35
在通常统计课程中的样本量(samplesize)概念就是数据中全
部观测值的数量,而把全部训练集数据用来训练模型在深度
学习中则称为一个纪元,这是因为在深度学习中往往需要用
整个训练集数据来训练模型多次(训练几次就称几个纪元).
由于无法在每个纪元的训练中一次将所有数据传递给计算机,
因此,需要将整个训练集数据分成较小尺寸(patchsize)的批
次,逐个提供给计算机,并在每一步结束时更新神经网络的权
重以使预测接近给定的目标值.2
2
在统计中称为观测值的是一行数据,是许多变量(variable)的观测值组成的向量,英文是observation,而称一个数据集为样
本(sample);但是在计算机领域往往称变量为特征(feature),观测值为样品或样本(sample),也称为实例(instance)、观测
(observation)、输入向量(inputvector)或特征向量(featurevector).
张敏October15,20244/35
纪元的数量很大,可能为数百或数千,这使得学习算法可以运
行,直到将模型中的误差充分最小化为止.在一些文献中可以
看到纪元数目设置为10、100、500、1000和更大的示例.为
什么使用多个纪元呢?这是因为我们使用的是有限的数据集,
为了优化由迭代积攒的学习效果,仅通过一次或一次更新权
重不够,需要将完整的数据集多次传递到同一个神经网络.
张敏October15,20245/35
当所有训练样本都用于创建一个批次时,该学习算法称为批
次梯度下降(batchgradientdescent);当批次等于一个样本的大
小时,该学习算法称为随机梯度下降(stochasticgradient
descent);当批次大小大于一个样本且小于训练数据集的大小
时,该学习算法称为微型批次梯度下降(mini-batchgradient
descent).
张敏October15,20246/35
在小批量梯度下降的情况下,常用的批量大小包括32、64和
128个样本.如果数据集没有按批次大小平均划分怎么办?在
训练模型时,这种情况可能而且确实经常发生.这仅表示最终
批次的样品少于其他批次,或者可以从数据集中删除一些样
本或更改批次大小,以使数据集中的样本数量确实等于样本
量除以批次大小.
张敏October15,
文档评论(0)