- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
PAGE 25
提前终止算法的解析与应用
摘要:本文研究的是提前终止算法。在机器学习中,由于学习方法不同的原因,学出模型的复杂程度会有所不同。在模型选择的时候,为了达到避免过拟合的目的,我们给出了提前终止算法。梯度下降法被用于机器学习,通过定义一个损失函数,反映了学习者在训练集的错误来使这个函数最小化。本文还给出了一些实证,来验证提前终止算法的作用。在最佳模型的选择上,它们会有很好的应用。
关键词:过拟合;提前终止;梯度下降;R软件;最佳模型
The analysis and application of early stopping algorithm
Abstract: This paper studies the early stopping algorithm. In machine learning, because of the different learning approaches, learn the models with different complexity. At the time of model selection, in order to achieve the purpose of avoid over-fitting, we provide the early stopping algorithm. Gradient descent is used in machine-learning by defining a loss function that reflects the error of learner on the training set and then minimizing that function. This article also gives some empirical, to verify the effect of early stopping algorithm. On the choice of the optimal model, they can have very good application.
Keywords: Over-fitting; Early stopping; Gradient descent; R software; the optimal model.
一、引言
神经网络在训练过程中很容易陷入两种状态:“欠拟合(under-fitting)”和“过拟合(over-fitting)”,其中,过拟合指的是,一个过于复杂的,可能会将信号连同噪声一起进行拟合的神经网络(参见[1])。例如,现在有一使用了过多参数学习算法,学出了一个的过拟合模型,这个模型可以精确的分类训练数据,也就是说,再拿训练集中的数据来给它,它百分之百不会分错,但是,也是因为能对训练集数据进行完全正确的分类,使这个学出模型的结构相当的精细复杂,规则也相当的严格,使得任何一个与训练集数据有一点点不同的数据,学出模型都判断为不属于这个模型。所以说,为了可以更好的应用到实际中来,避免过拟合问题并且提高模型的预测能力,成为了模型选择的主要目标。
在训练开始过拟合之前,提前终止(early stopping)的规则提供了指导:训练有多少迭代可以运行。在大多数介绍性论文中,关于监督神经网络训练可以找到相似的图,如下图1所示。我们将样本数据分成两部分:其中一部分用来学学习的训练数据集(training set);另一部分用来验证,为验证数据集(testing set),用以模拟未来的数据,对模型进行检验。如图1所示,训练集和不用于训练的验证集(训练误差曲线和验证误差曲线)之间的泛化误差随着时间的演化不断增大。鉴于这种情况,很显然,我们就可以知道如何做到提前终止:尽快停止训练当验证集上的泛化误差高于最后一次检验。
图 1理想化的训练和验证误差曲线。垂线:误差;水平线:时间
在下文中,我们将举例说明这个现象,用R软件进行了多项式回归拟合(关于R软件的使用,可以参见【】)。首先,我们在绝对值函数里加入的噪声,如图2所示,其后的分布大致仍呈绝对值函数,数据在绝对值函数周围波动,。
图 2绝对值函数(含有噪声)
其次,用最高项次数分别为1、2、4、20的多项式模型来拟合(代码,见附录1),拟合的结果如图3所示。显然,由图3我们可以发现:当多项式最高项次数为1次时,曲线为一条倾斜的直线,数据的拟合效果明显很差;当多项式最高项次数为2和4时,数据的拟合效果看起来不错,与绝对值函数大致相符;而当多项式最高项次数为20时,虽然,曲线较之前的多项式经过了更多的点,效果看起来似乎是最佳的,但是,由于给定的数据本身加入了均值为0,方差为1的正态分布的噪声的,因此,该曲线对未知数据的预测
文档评论(0)