网站大量收购独家精品文档,联系QQ:2885784924

bagging及与Boosting的比较.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第36卷 南京大学学报(自然科学) voI.36 计算机专辑 JOURNALOF NANJ甜GUNⅣERSrrY Iss∞ C姗吣r 2∞0年11月 (N明『RAI.SC吲cEs) Nov.2咖 Bagg啦及其与Boosting的比较’ 刁力力胡可云陆玉昌石纯一 (清华大学计算机科学技术系.北京,l∞084) (清华大学智能技术与系统田家重点实验室.北京,100084) 一要B耐ln蛐的Ba鹅i“g和FreuIld及ScIl印h的Boo鲥ng是量新的提高预测学习系统谭嗣 能力的方法,二者都建芷了通过投票结合起来的孺测善关合.奉文对B一咖提出的B堆g妯g 理论作了较为详细豹介绍,并对其运作的有效性作了理论分析.进而,本文总结了B咤血E 与B∞妇唧的性能比较及相关解释:方差,偏差理论厦R謦j喇gh由I矾鹋哪phg.量后.文 ’ 中指出了Baggi吣存在问最及发展前景. . 关t浔组合预澍方法,方差,偏差.M雌1.数据挖掘 O引言 预测能力的有效工具,也是组合学习中量具代表性和应用前景的方法。二者都建立了通 过投票结合起来的预测器集合.Ba蹈i唱通过产生样本的重复B∞拓廿印实例作为训练集. 每一回运行B噼hlg都给学习算法提供有替代地随机从大小为m的原始训练集抽取出m 个训练样本的集合。这种训练集被称作原始训练集合的B00鼬即复制.这种技术也叫做 B∞蜘印练台.即Ba鹊.mg。平均来说,每个B0a曲即复制包含原始训练集的63.2%. 有些训练例子会出现多次.与Ba鹳i雌类似.B∞sting操纵训练例子来产生多个假设。它 主要包括两个系列:B∞sl-by-m4j∞时和AdaB∞shBoo蚰培在训练例子上维护一套概率 分布,在每一回选代中B00mby-m司州ty通过重取样生成不同的训练集,而Ad8Boo啦在 每个例子上调整这种分布。具体的学习算法被用来产生成员分类器.Admoon用成员分 类器在训练倒子上的错误事来调整训练例子上的概率分布。权重改变的的作用是在被误 分的倒子上放置更多的权重.在分正确的例子上其权重将减少.最终分类器通过单个分 类器的加权投票建立起来,每个分类器按照其在训练集上的精度而加权.如果产生成员 分类器的具体学习算法可以直接使用例子上的分布,则通常会有很好的结果。如果不能, ’国家自然科学基金重太项目(枷58∞和田家重点基础研究发晨项目(G199柏30414)赉助.第一作 者简介:刁力力,男.1974年生.博士研究生. 兰 堕塞查兰堂型!!签型竺! .————三坚苎:!!一 则样本可以随机地有替代地按照概率分布从训练集中抽出。这使Ad出∞St更不确定,但 实验表明该过程仍然很有效。这两种方法一般用于提高不稳定的学习器的性能。近年来, 组合预测方法方法已得到了较为广泛的实验和应用,尤其是在数据挖掘方面其前景日趋 看好。 研究的问题及其发展前景作了一定描述。 1 Bagg.mg算法 Ba篮ing由B他imn于1996年提出n 一学习集L由数据“只,t),^=l,..,.Ⅳ}组成。其中y要么是类标签,要么是数值响 应。用一个特定过程来基于该学习巢来建造一预测器c“£)一如果输入为x,就通过 c(。£)来预测弘现在,假定有一个学习集序列n).每个序列都由N个与L从同样分 布下得来的独立观察组成。任务是使用“}来得到~个更好的预测嚣,它比单个训练集 预测器((,.£)要强。这就依靠使用预测嚣卑列{f(z,t)}。 如果y是数值的.一个明显的过程是崩f(x一.)在k上的平均取代f(,.£),即通过 f(,):E,(’(t£)。其中E表L上的期望,c的下标A表示综合。如果f(‘L)预测一个 类』e玑.,}.于是综台(’(t.‘)的一种方法是通过投票。设Ⅳ=_{I:c(,一.)=,).使 C(,)=哪撒J_。 尽管通常只有单个学习集L而无多余的C复制,仍然可阻模仿导出c.的过程:在L c.(x):一,(‘∥).若y是

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档