bagging及与Boosting的比较.pdfVIP

下载本文档

93
0
约9.25千字
约 7页
2017-08-19 发布于安徽
举报
版权申诉

bagging及与Boosting的比较.pdf

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第36卷南京大学学报(自然科学) voI．36 计算机专辑 JOURNALOF NANJ甜GUNⅣERSrrY Iss∞ C姗吣r 2∞0年11月 (N明『RAI．SC吲cEs) Nov．2咖 Bagg啦及其与Boosting的比较’ 刁力力胡可云陆玉昌石纯一 (清华大学计算机科学技术系．北京，l∞084) (清华大学智能技术与系统田家重点实验室．北京，100084) 一要B耐ln蛐的Ba鹅i“g和FreuIld及ScIl印h的Boo鲥ng是量新的提高预测学习系统谭嗣能力的方法，二者都建芷了通过投票结合起来的孺测善关合．奉文对B一咖提出的B堆g妯g 理论作了较为详细豹介绍，并对其运作的有效性作了理论分析．进而，本文总结了B咤血E 与B∞妇唧的性能比较及相关解释：方差，偏差理论厦R謦j喇gh由I矾鹋哪phg．量后．文 ’ 中指出了Baggi吣存在问最及发展前景．．关t浔组合预澍方法，方差，偏差．M雌1．数据挖掘 O引言预测能力的有效工具，也是组合学习中量具代表性和应用前景的方法。二者都建立了通过投票结合起来的预测器集合．Ba蹈i唱通过产生样本的重复B∞拓廿印实例作为训练集．每一回运行B噼hlg都给学习算法提供有替代地随机从大小为m的原始训练集抽取出m 个训练样本的集合。这种训练集被称作原始训练集合的B00鼬即复制．这种技术也叫做 B∞蜘印练台．即Ba鹊．mg。平均来说，每个B0a曲即复制包含原始训练集的63．2％．有些训练例子会出现多次．与Ba鹳i雌类似．B∞sting操纵训练例子来产生多个假设。它主要包括两个系列：B∞sl-by-m4j∞时和AdaB∞shBoo蚰培在训练例子上维护一套概率分布，在每一回选代中B00mby-m司州ty通过重取样生成不同的训练集，而Ad8Boo啦在每个例子上调整这种分布。具体的学习算法被用来产生成员分类器．Admoon用成员分类器在训练倒子上的错误事来调整训练例子上的概率分布。权重改变的的作用是在被误分的倒子上放置更多的权重．在分正确的例子上其权重将减少．最终分类器通过单个分类器的加权投票建立起来，每个分类器按照其在训练集上的精度而加权．如果产生成员分类器的具体学习算法可以直接使用例子上的分布，则通常会有很好的结果。如果不能， ’国家自然科学基金重太项目(枷58∞和田家重点基础研究发晨项目(G199柏30414)赉助．第一作者简介：刁力力，男．1974年生．博士研究生．兰堕塞查兰堂型!!签型竺! ．————三坚苎：!!一则样本可以随机地有替代地按照概率分布从训练集中抽出。这使Ad出∞St更不确定，但实验表明该过程仍然很有效。这两种方法一般用于提高不稳定的学习器的性能。近年来，组合预测方法方法已得到了较为广泛的实验和应用，尤其是在数据挖掘方面其前景日趋看好。研究的问题及其发展前景作了一定描述。 1 Bagg．mg算法 Ba篮ing由B他imn于1996年提出n 一学习集L由数据“只，t)，^=l，．．，．Ⅳ}组成。其中y要么是类标签，要么是数值响应。用一个特定过程来基于该学习巢来建造一预测器c“￡)一如果输入为x，就通过 c(。￡)来预测弘现在，假定有一个学习集序列n)．每个序列都由N个与L从同样分布下得来的独立观察组成。任务是使用“}来得到～个更好的预测嚣，它比单个训练集预测器((，．￡)要强。这就依靠使用预测嚣卑列{f(z，t)}。如果y是数值的．一个明显的过程是崩f(x一．)在k上的平均取代f(，．￡)，即通过 f(，)：E，(’(t￡)。其中E表L上的期望，c的下标A表示综合。如果f(‘L)预测一个类』e玑．，}．于是综台(’(t．‘)的一种方法是通过投票。设Ⅳ=_{I：c(，一．)=，)．使 C(，)=哪撒J_。尽管通常只有单个学习集L而无多余的C复制，仍然可阻模仿导出c．的过程：在L c．(x)：一，(‘∥)．若y是