- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第36卷 南京大学学报(自然科学) voI.36
计算机专辑 JOURNALOF
NANJ甜GUNⅣERSrrY Iss∞
C姗吣r
2∞0年11月 (N明『RAI.SC吲cEs) Nov.2咖
Bagg啦及其与Boosting的比较’
刁力力胡可云陆玉昌石纯一
(清华大学计算机科学技术系.北京,l∞084)
(清华大学智能技术与系统田家重点实验室.北京,100084)
一要B耐ln蛐的Ba鹅i“g和FreuIld及ScIl印h的Boo鲥ng是量新的提高预测学习系统谭嗣
能力的方法,二者都建芷了通过投票结合起来的孺测善关合.奉文对B一咖提出的B堆g妯g
理论作了较为详细豹介绍,并对其运作的有效性作了理论分析.进而,本文总结了B咤血E
与B∞妇唧的性能比较及相关解释:方差,偏差理论厦R謦j喇gh由I矾鹋哪phg.量后.文
’
中指出了Baggi吣存在问最及发展前景.
. 关t浔组合预澍方法,方差,偏差.M雌1.数据挖掘
O引言
预测能力的有效工具,也是组合学习中量具代表性和应用前景的方法。二者都建立了通
过投票结合起来的预测器集合.Ba蹈i唱通过产生样本的重复B∞拓廿印实例作为训练集.
每一回运行B噼hlg都给学习算法提供有替代地随机从大小为m的原始训练集抽取出m
个训练样本的集合。这种训练集被称作原始训练集合的B00鼬即复制.这种技术也叫做
B∞蜘印练台.即Ba鹊.mg。平均来说,每个B0a曲即复制包含原始训练集的63.2%.
有些训练例子会出现多次.与Ba鹳i雌类似.B∞sting操纵训练例子来产生多个假设。它
主要包括两个系列:B∞sl-by-m4j∞时和AdaB∞shBoo蚰培在训练例子上维护一套概率
分布,在每一回选代中B00mby-m司州ty通过重取样生成不同的训练集,而Ad8Boo啦在
每个例子上调整这种分布。具体的学习算法被用来产生成员分类器.Admoon用成员分
类器在训练倒子上的错误事来调整训练例子上的概率分布。权重改变的的作用是在被误
分的倒子上放置更多的权重.在分正确的例子上其权重将减少.最终分类器通过单个分
类器的加权投票建立起来,每个分类器按照其在训练集上的精度而加权.如果产生成员
分类器的具体学习算法可以直接使用例子上的分布,则通常会有很好的结果。如果不能,
’国家自然科学基金重太项目(枷58∞和田家重点基础研究发晨项目(G199柏30414)赉助.第一作
者简介:刁力力,男.1974年生.博士研究生.
兰 堕塞查兰堂型!!签型竺! .————三坚苎:!!一
则样本可以随机地有替代地按照概率分布从训练集中抽出。这使Ad出∞St更不确定,但
实验表明该过程仍然很有效。这两种方法一般用于提高不稳定的学习器的性能。近年来,
组合预测方法方法已得到了较为广泛的实验和应用,尤其是在数据挖掘方面其前景日趋
看好。
研究的问题及其发展前景作了一定描述。
1 Bagg.mg算法
Ba篮ing由B他imn于1996年提出n
一学习集L由数据“只,t),^=l,..,.Ⅳ}组成。其中y要么是类标签,要么是数值响
应。用一个特定过程来基于该学习巢来建造一预测器c“£)一如果输入为x,就通过
c(。£)来预测弘现在,假定有一个学习集序列n).每个序列都由N个与L从同样分
布下得来的独立观察组成。任务是使用“}来得到~个更好的预测嚣,它比单个训练集
预测器((,.£)要强。这就依靠使用预测嚣卑列{f(z,t)}。
如果y是数值的.一个明显的过程是崩f(x一.)在k上的平均取代f(,.£),即通过
f(,):E,(’(t£)。其中E表L上的期望,c的下标A表示综合。如果f(‘L)预测一个
类』e玑.,}.于是综台(’(t.‘)的一种方法是通过投票。设Ⅳ=_{I:c(,一.)=,).使
C(,)=哪撒J_。
尽管通常只有单个学习集L而无多余的C复制,仍然可阻模仿导出c.的过程:在L
c.(x):一,(‘∥).若y是
文档评论(0)