- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Machine Learning in Real World:C4.5 Outline Handling Numeric Attributes Finding Best Split(s) Dealing with Missing Values Pruning Pre-pruning, Post-pruning, Error Estimates From Trees to Rules Industrial-strength algorithms For an algorithm to be useful in a wide range of real-world applications it must: Permit numeric attributes Allow missing values Be robust in the presence of noise Be able to approximate arbitrary concept descriptions (at least in principle) Basic schemes need to be extended to fulfill these requirements C4.5 History ID3, CHAID – 1960s C4.5 innovations (Quinlan): permit numeric attributes deal sensibly with missing values pruning to deal with for noisy data C4.5 - one of best-known and most widely-used learning algorithms Last research version: C4.8, implemented in Weka as J4.8 (Java) Commercial successor: C5.0 (available from Rulequest) Numeric attributes Standard method: binary splits E.g. temp 45 Unlike nominal attributes,every attribute has many possible split points Solution is straightforward extension: Evaluate info gain (or other measure)for every possible split point of attribute Choose “best” split point Info gain for best split point is info gain for attribute Computationally more demanding Weather data – nominal values Weather data - numeric Example Split on temperature attribute: E.g. temperature ? 71.5: yes/4, no/2 temperature ? 71.5: yes/5, no/3 Info([4,2],[5,3])= 6/14 info([4,2]) + 8/14 info([5,3]) = 0.939 bits Place split points halfway between values Can evaluate all split points in one pass! Avoid repeated sorting! Sort instances by the values of the numeric attribute Time complexity for sorting: O (n log n) Q. Does this have to be repeated at each node of the tree? A: No! Sort order for children can be derived from sort order for parent Time complexity of derivation: O (n) Drawback: need to create and store an array of sorted indices for each numeric attribute More speeding up Entropy only needs to be evaluated
您可能关注的文档
- 广西贵港市平南县2012年秋季期七年级生物期末试题 新人教版本.doc
- 广西贵港市平南县2013年秋季期七年级生物段考试题 新人教版本.doc
- 广西钦州市浦北县寨圩中学2013-2017年度学年高二数学下学期期中试题 文 新人教A版本.doc
- 广西贵港市平南县2013年秋季期七年级生物期末试题 新人教版本.doc
- 库伦定律 (学案).doc
- 必修1→人教版本→第一章 第1节 质点参考系和坐标系同步练习1.doc
- 必修1→人教版本→第一章 第1节 质点参考系和坐标系同步练习3.doc
- 必修1→人教版本→第一章 第2节 时间和位移同步练习1.doc
- 必修1→人教版本→第一章 第2节 时间和位移同步练习2.doc
- 必修1→人教版本→第一章 第3节 教学内容:运动快慢的描述速度.doc
- 2025年高二地理上学期期末考点(鲁教版2019)区域联系与区域发展(串讲课件).pptx
- 2025年高二地理上学期期末考点(中图版2019)区域类型与区域差异(串讲课件).pptx
- 2024-2025学年云南省昭通市昭阳区正道中学七年级(上)月考数学试卷(9月份)+答案解析.pdf
- 2025年高二地理上学期期末考点(中图版2019)自然地理环境的整体性和地域分异规律(串讲课件).pptx
- 绚丽的文学艺术PPT.ppt
- 中学课堂教学改革实施方案.doc
- 规范语言学与描述语言学.ppt
- 评析人民币国际化优势和弊端——结合亚投行和资本账户联系.ppt
- 行政总监(年中)述职报告.ppt
- 设计素描第一讲:概述.ppt
最近下载
- 宫崎骏和他的作品介绍.ppt
- 2023年一级造价师之工程造价案例分析(水利)真题精选附答案.pdf VIP
- 2024年7月1日实施新版医疗器械质量文件审核批准管理制度.docx
- GB/T 8358-2023钢丝绳 破断拉力测定方法.pdf
- 03S402 室内管道支架及吊架.docx VIP
- 反对网络暴力主题班会PPT课件.pptx VIP
- 2025年宁夏回族自治区银川市西夏区朔方路街道招聘社区工作者考前自测高频考点模拟试题含答案解析.docx VIP
- 中国工商银行工银瑞信2023年校园招聘45名人员模拟卷(含答案解析).docx
- 外墙真石漆工程施工合同(同名13257).doc VIP
- 2025《比亚迪盈利能力的问题分析及应对策略》9800字(论文).doc VIP
文档评论(0)