- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
8.4.1自适应提升算法算法流程*8.4.1自适应提升算法算法流程*8.4.1自适应提升算法算法流程*8.4.1自适应提升算法算法流程*梯度提升(GradientBoosting)算法的基本思想是:串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度,使加上该弱学习器后的累积模型损失向负梯度的方向减少。因为拟合的是连续值,所以算法中的弱学习器一般是CART决策树,而不使用分类树。梯度提升算法还可以被理解为函数空间上的梯度下降。我们比较熟悉的梯度下降通常是在参数空间上的梯度下降(如训练神经网络,每轮迭代中计算当前损失关于参数的梯度,对参数进行更新)。而在梯度提升算法中,每轮迭代生成一个弱学习器,这个弱学习器拟合损失函数关于之前累积模型的梯度,然后将这个弱学习器加入累积模型中,逐渐降低累积模型的损失。即参数空间的梯度下降利用梯度信息调整参数降低损失,函数空间的梯度下降利用梯度拟合一个新的函数降低损失。8.4.2梯度提升算法*8.4.2梯度提升算法*8.4.2梯度提升算法*8.5本章小结本章主要介绍了集成学习理论,介绍了投票法、装袋法和提升法的原理及代码实现。投票法的过程较为简单,而装袋法和提升法的过程则相对复杂。对比装袋法和提升法方法可以发现:装袋法通过对原数据进行有放回的采样构建出多个样本数据集,然后用这些新的数据集训练多个分类器。装袋法的性能依赖于弱学习器的稳定性,如果弱学习器是不稳定的,装袋法有助于减低训练数据的随机扰动导致的误差,但是如果弱学习器是稳定的,即对数据变化不敏感,那么装袋法就得不到性能的提升,甚至会降低。提升法是一个选代的过程,通过改变样本分布,使得弱学习器聚焦在那些很难分的样本上,对那些容易错分的样本加强学习,增加错分样本的权重,这样错分的样本在下一轮迭代中就有更大的作用。*8.5本章小结装袋法采用均匀采样,而提升法根据错误率来采样。装袋法训练集的选择是随机的,各轮训练集之间相互独立,而提升法各轮训练集的选择与前面各轮的学习结果有关。装袋法的弱学习器在集成时具有相等的权重,而提升法的弱学习器在集成时的权重是不同的,对于分类误差小的弱学习器会分配更大的权重。装袋法的弱学习器可以并行生成,而提升法的弱学习器只能顺序生成,因为后一个模型的参数需要前一轮模型的结果,故装袋法可以通过并行节省大量训练时间。******第八章集成学习在监督学习中,传统方式是按照选定的学习算法,针对某个给定的训练数据集训练得到一个特定的学习器模型,然后再用它预测未知的样本。集成学习可以组合多个弱模型以期得到一个更好更全面的强模型,集成学习潜在的思想是即便某一个弱学习器得到了错误的预测,其他的弱学习器也可以将错误纠正回来。因此,集成学习(EnsembleLearning)是指利用多个独立的弱学习器来进行学习,组合某输入样例在各个弱学习器上的输出,并由它们按照某种策略共同决定输出。*8.1集成学习概述集成学习是一种功能十分强大的机器学习方法,其基本思想是先通过一定的规则生成固定数量的弱学习器(或称为基学习器、个体学习器),再采用某种集成策略将这些弱学习器的预测结果组合起来,从而形成最终的结论。弱学习器(WeakLearner)是错误概率小于1/2的学习器,也就是说在两类问题上仅比随机猜测好,而强学习器(StrongLearner)则具有任意小的错误概率。集成学习不是一个单独的机器学习算法,而是一个将多重或多个弱学习器组合成一个强学习器,从而有效地提升分类效果。一般而言,集成学习中的基学习器可以是同质的“弱学习器”,也可以是异质的“弱学习器”。目前,同质弱学习器的应用最为广泛,同质弱学习器中使用最多的模型是CART决策树和神经网络。同质弱学习器按照其间是否存在依赖关系又可以分为两类。*8.1集成学习概述串行集成方法:参与训练的弱学习器按照顺序执行。串行方法的原理是利用弱学习器之间的依赖关系,通过对之前训练中错误标记的样本赋值较高的权重,可以提高整体的预测效果,其代表算法是提升法(Boosting)。并行集成方法:参与训练的弱学习器并行执行。并行方法的原理是利用弱学习器之间的独立性,由于弱学习器之间不存在强依赖关系,通过平均可以显著降低错误,其代表算法是投票法(Voting)和装袋法(Bagging)。*8.1集成学习概述根据集成学习的用途不同,结论合成的方法也各不相同。当集成学习用于分类时,集成的输出通常由各弱学习器的输出投票产生。通常采用绝对多数投票法(某分类成为最终结果,当且仅当有超过半数的弱学习器输出结果为该分类)或相对多数投票法(某分类成为最终结果,当且仅当输出结果为
文档评论(0)