分类算法大数据.pptVIP

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算属性Credit_Rating的熵E(CR):fair(属性值1)有3个,都买,即属于类Yes或1,excellent(属性值2)有2个,属于类No或2。 决策树构造:一个例子 Gain(CR)=I(s1,s2)-E(CR)=0.971 同样,计算其它几个属性的增益 Gain(income)=略 Gain(Stu)=略 属性Credit_Rating的增益最大 决策树构造:一个例子 递归调用: 决策树构造:一个例子 ID3(2个, BC, {I, S}) ID3(3个, BC, {I, S}) 算法停止 算法停止 age? overcast student? credit rating? no yes fair excellent =30 40 no yes yes 30..40 3个:都买 2个:都不买 所以我们有决策树: age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 决策树构造:一个例子 所有样本已经被分类,算法停止,我们得到最终的决策树如下: age? student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 决策树构造:一个例子 决策树裁剪 “Everything should be made as simple as possible, but not simpler.” -Albert Einstein 避免过度拟合 Class B Class B Class A Class A no yes no no no no yes yes yes Class B Class A Class B no yes yes 裁剪前 裁剪后 Class B Class A Class A no yes no no yes yes Class B 分类(有监督学习) 什么是分类 决策树算法 朴素贝页斯分类器 最近邻分类器 基于规则的分类器 CRN:基于特征子集的近邻分类器 集成学习 样本复杂性 朴素贝页斯分类器 X是一个类标识未知的数据样本。 对分类问题, 确定P(Ci|X): 给定观测数据样本X,确定X属于类Ci的概率。 P(Ci): 类Ci的先验概率(prior probability) (即在我们观测任何数据之前的初始概率, 它反映了背景知识) P(X): 样本数据被观测的概率。 P(X|Ci): 在属于类Ci的前提下,观测到样本X的概率。 贝叶斯定理 给定训练集X, X属于类Ci的后验概率(posteriori probability), P(C|X) 遵守如下贝叶斯定理 MAP (Maximum a posteriori,极大后验) 假设 实际应用的困难: 需要许多概率的初始知识, 需要较多的计算时间。 简化:朴素贝叶斯分类器 一个简化假设: 属性之间是条件独立的: 一旦知道了概率P(X|Ci), 把X赋予使得 P(X|Ci)*P(Ci)具有极大值的类Ci。 一个例子 类: C1:buys_computer= ‘yes’ C2:buys_computer= ‘no’ 数据样本 X =(age=30, Income=medium, Student=yes Credit_rating= Fair) 一个例子 对每一个类,计算P(X|Ci) P(age=“30” | buys_computer=“yes”) = 2/9=0.222 P(age=“30” | buys_computer=“no”) = 3/5 =0.6 P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444 P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4 P(student=“yes” | buys_computer=“yes)= 6/9 =0.667 P(student=“yes” | buys_computer=“no”)= 1/5=0.2 P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667 P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4 X=(age=30 ,income =medium, student=yes,credit_ratin

文档评论(0)

ki66588 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档