- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第7章 决策树1
学习目标理解决策树的基本原理及不同类别决策树算法的区别掌握运用Scikit-learn库实现决策树算法的基本流程与方法122
目录页37.1基本原理7.2应用实例决策树
7.1基本原理决策树可视为一颗用非叶节点表示特征的判别函数,叶节点表示分类结果的倒置树,其对新样本的分类过程即是根据不同层级非叶节点对应判别函数的输出,不断明确其所属类别的过程。利用决策树对新样本进行分类的关键在于提前利用训练样本构建决策树,而决策树构建的关键在于最优特征的选择,即将每个特征安置在哪个非叶节点用于相关判别函数的定义最合适。事实上,决策树的构建过程就是利用定义于特征的判别函数,将样本集不断分类为类别不确定性较小的样本子集的过程。4
7.1基本原理对于狗兔分类问题,如果先利用“尾巴特征”对样本进行分类,则兔类与狗类样本的类别不确定性均较小(兔尾巴比狗尾巴短是共识的规律),而若先利用“皮毛颜色”对样本进行分类却不易获得较好的效果(兔与狗均有白色皮毛的品种),此时需要再利用“耳朵特征”进一步对样本进行分类。5
7.1基本原理如何从原特征集中确定最优特征呢?在1975年,罗斯昆(J.RossQuinlan)提出了利用信息熵构建决策树的算法(即ID3),其中,利用信息熵对样本分类结果的影响进行度量,取得较好的效果。在此基础上,后续涌现出许多改进算法(如C4.5、C5.0与CART等)以进一步提高决策树构建的性能,相关特征选择准则包括信息增益、信息增益率、基尼指数等几种。6
7.1基本原理决策树基本算法遵循的策略是简单而直观的“分而治之”,即将一个问题分解成两个或多个相同或相关类型的子问题,直到这些问题变得能够容易直接解决。在学习生活中亦是如此,我们在遇到困难时,不应轻易退缩和放弃,而是根据现有的能力将问题不断分解,从自己会做的开始,不断优化求解的方式实现问题求解,养成不言放弃、精益专注的优秀品质。7课程思政
7.1.1ID3算法?8
7.1.1ID3算法?9
7.1.1ID3算法?10
7.1.1ID3算法?11
7.1.1ID3算法?12
7.1.1ID3算法?13
7.1.1ID3算法?14
7.1.1ID3算法?15
7.1.1ID3算法ID3算法的基本步骤可描述为:步骤1.将初始样本集作为根节点的待分类样本并从特征集中利用信息增益准则选择最优特征以对初始样本集进行分类,进而生成多个样本子集。步骤2.对于每个样本子集,将其作为非叶节点的待分类样本并利用信息增益准则从未选特征中选择最优特征以对其进行分类,进而生成更多样本子集。步骤3.重复步骤2以对持续对不同层的样本子集进行分类直至满足指定终止条件(如决策树深度)。16
7.1.2C4.5算法?17
7.1.3CART算法?18
7.1.3CART算法?19
三个算法对比算法支持模型树结构特征选择连续值处理缺失值处理剪枝ID3分类多叉树信息增益不支持不支持不支持C4.5分类多叉树信息增益比支持支持支持CART分类,回归二叉树基尼系数支持支持支持20
7.2应用实例Scikit-learn库包含DecisionTreeClassifier与DecisionTreeRegressor两种分别用于分类与回归的决策树模型,其导入方法如下:fromsklearn.treeimportDecisionTreeClassifierfromsklearn.treeimportDecisionTreeRegressor21
7.2应用实例函数原型如下:DecisionTreeClassifier(criterion=gini,splitter=best,max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,min_impurity_split=None,class_weight=None,presort=False)DecisionTreeRegressor(criterion=squared_error,splitter=best,max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nod
您可能关注的文档
- 机器学习原理与应用课件 第1章 概述.pptx
- 机器学习原理与应用课件 第2章 特征工程.pptx
- 机器学习原理与应用课件 第3章 线性回归.pptx
- 机器学习原理与应用课件 第4章 Logistic回归.pptx
- 机器学习原理与应用课件 第5章 朴素贝叶斯.pptx
- 机器学习原理与应用课件 第6章 K近邻.pptx
- 机器学习原理与应用课件 第8章 支持向量机.pptx
- 机器学习原理与应用课件 第9章 K均值聚类.pptx
- 机器学习原理与应用课件 第10章 高斯混合模型.pptx
- 机器学习原理与应用课件 第11章 人工神经网络.pptx
- 2025年安徽绿海商务职业学院单招(语文)测试模拟题库附答案.docx
- 2025年黑龙江生态工程职业学院单招(语文)测试模拟题库必威体育精装版.docx
- 2025年黑龙江护理高等专科学校单招(语文)测试模拟题库附答案.docx
- 2025年嘉兴职业技术学院单招职业倾向性测试题库(考试直接用).docx
- 2025年包头职业技术学院单招职业技能测试题库附答案(b卷).docx
- 2025年乐山职业技术学院单招职业适应性测试题库及答案(考点梳理).docx
- 2025年克拉玛依职业技术学院单招职业适应性测试题库及答案(考点梳理).docx
- 2025年九江理工职业学院单招职业技能测试题库含答案(突破训练).docx
- 2025年九江职业大学单招职业适应性测试题库带答案(能力提升).docx
- 2025年黑龙江省哈尔滨市单招(语文)测试题库附答案.docx
文档评论(0)