- 1、本文档共93页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
三、练习与思考思考题1:能否用k—最临近做回归预测?练习:用k-最临近方法对Iris数据集进行分类,对这个数据集,K—最临近方法、支持向量机和神经网络三个方法中那个方法识别率最好?思考题2:能否对k—最临近算法进行其它的改进?(提示:可以考虑各类中心)第93页,共93页,星期六,2024年,5月于是各条件概率为:OutlookC1(Y)C2(N)Sunny13Overcast50Rain32Total95,,,第61页,共93页,星期六,2024年,5月同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nohot22mild42cool31total95于是各条件概率为:,,,第62页,共93页,星期六,2024年,5月对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=noNormal34high61total95WindyPlay=yesPlay=noTrue33False62total95试计算其“条件概率”。第63页,共93页,星期六,2024年,5月对于待分类样本:分别计算以下两个概率:=0.333*0.22*0.33*0.3*0.643=0.0053=0.4*0.4*0.8*0.6*0.357=0.0274,因此为第二类,即不适合比赛。第64页,共93页,星期六,2024年,5月情形2.第j个属性Aj为连续型的情况tid有房婚姻状况年收入拖欠贷款1是单身125否2否已婚100否3否但是70否4是已婚120否5否离婚95是6否已婚60否7是离婚220否8否单身85是9否已婚75否10否单身90是考虑如下的训练样本集,如何判别样本的类别?第65页,共93页,星期六,2024年,5月属性“年收入”为连续型数据类型,此时如果再用公式来估计条件概率已不合适,例如,若新样本的“年收入”为110K,则类似的新样本将无法判别。有两种策略可以用了估计连续型属性的条件概率:1.把连续属性离散化;2.用概率分布来估计条件概率第66页,共93页,星期六,2024年,5月1.把连续属性离散化如前面构造决策树的GiniIndex或信息增益方法,把连续属性划分成几个区间,即连续属性离散化。按前面所述,如果把“年收入”划分成两个区间,则最佳的候选划分点为97K,对应区间为(0,97)和[97,10000)。通过计算类Ci中属性“年收入”落入对应区间的比例来估计条件概率即把训练数据集修改为下表第67页,共93页,星期六,2024年,5月tid有房婚姻状况年收入97K拖欠贷款1是单身否否2否已婚否否3否但是是否4是已婚否否5否离婚是是6否已婚是否7是离婚否否8否单身是是9否已婚是否10否单身是是用Bayes方法估计每个条件概率后,对新给出的任何样本都可以判别。第68页,共93页,星期六,2024年,5月2.用概率分布来估计条件概率假设连续型属性服从某种概率分布(通常假设服从正态分布),然后用训练数据估计出分布的参数,进而计算相应的条件概率。如上例中,假设“年收入”属性为随机变量对于每个类Ci,属性值xj属于类Ci的概率为和分别为类Ci中随机变量xj的期望和方差可分别用Ci中xj的观察值的样本均值和标准差估计。第69页,共93页,星期六,2024年,5月如上表数据中“年收入”数据,分别属于两类,设类别C1=“否”,C2=“是”,对应的观察值如下:类别C1=“否”的两个参数估计如下:年收入125100701209560220857590拖欠贷款否否否否是否否是否是类别C1=“否”的两个参数估计为:第70页,共93页,星期六,2024年,5月同理,类别C2=“是”的两个参数估计为:对于新样本可以估计“年收入”属性相应的条件概率为:第71页,共93页,星期六,2024年,5月下面用上述方法来判别新样本数据汇总如下:样本集所属的类别。类别C1(No)C2(Yes)total73属性“有房”C1(No)C2(Yes)是30
您可能关注的文档
最近下载
- 期末考试成绩质量分析会 教学建议 教学质量分析研讨会PPT课件.pptx
- 人教版六年级下册数学小升初复习试题(试题)3.docx VIP
- 2025清华:DeepSeek从入门到精通.pdf
- 质量信得过班组培训.pptx
- 综合实践项目 利用细菌或真菌制作发酵食品(人教版2024).docx VIP
- 《清式营造则例》下载梁思成着.pdf
- 【2025春】人教版七年级数学下册教学计划(含进度表).docx
- 傻瓜式era汉化教学bymkatze葱神.pdf
- 2024年度党员领导干部民主生活会征求意见反馈内容与2024年度民主生活会领导班子和个人征求意见建议(52条).docx VIP
- 认识物联网工程.pptx VIP
文档评论(0)