决策树基本研究.pptx

下载文档

3
0
约2.11万字
约 104页
2021-07-26 发布于河北
举报
版权申诉
保障服务

决策树基本研究.pptx

1、本文档共104页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第 6 章决策树主要内容决策树基本概念决策树算法决策树研究问题主要参考文献主要内容决策树基本概念决策树算法决策树研究问题主要参考文献第6章决策树决策树基本概念关于分类问题分类（Classification）任务就是通过学习获得一个目标函数（Target Function）f, 将每个属性集x映射到一个预先定义好的类标号y。分类任务的输入数据是纪录的集合，每条记录也称为实例或者样例。用元组(X,y)表示，其中，X 是属性集合，y是一个特殊的属性，指出样例的类标号（也称为分类属性或者目标属性）第6章决策树决策树基本概念关于分类问题名称体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号人类恒温毛发是否否是否哺乳动物海龟冷血鳞片否半否是否爬行类鸽子恒温羽毛否否是是否鸟类鲸恒温毛发是是否否否哺乳类Xy分类与回归分类目标属性y是离散的，回归目标属性y是连续的第6章决策树决策树基本概念解决分类问题的一般方法分类技术是一种根据输入数据集建立分类模型的系统方法。分类技术一般是用一种学习算法确定分类模型，该模型可以很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟合输入数据，还要能够正确地预测未知样本的类标号。因此，训练算法的主要目标就是要建立具有很好的泛化能力模型，即建立能够准确地预测未知样本类标号的模型。分类方法的实例包括：决策树分类法、基于规则的分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。第6章决策树决策树基本概念解决分类问题的一般方法通过以上对分类问题一般方法的描述，可以看出分类问题一般包括两个步骤： 1、模型构建（归纳）通过对训练集合的归纳，建立分类模型。 2、预测应用（推论）根据建立的分类模型，对测试集合进行测试。第6章决策树决策树基本概念解决分类问题的一般方法训练集（类标号已知）学习算法TIDA1A2A3类1Y100LN2N125SN3Y400LY4N415MN学习模型归纳模型检验集（类标号未知）应用模型TIDA1A2A3类1Y100L？2N125S？3Y400L？4N415M？推论第6章决策树决策树基本概念有指导的学习与无指导的学习(有监督学习与无监督学习)有指导的学习（supervised learning 一般用于分类）模型的学习在被告知每个训练样本属于“那个类”的指导下进行。新数据使用训练数据集中得到的规则进行分类。无指导的学习（unsupervised learning 一般用于聚类）每个训练样本的类编号是未知的，要学习的类集合和数量也可能是事先未知的。通过一系列的度量、观察来建立数据中的类编号或进行聚类第6章决策树决策树基本概念半监督学习（ semi-supervised learning ）传统的机器学习技术需要使用大量有标记训练样本进行学习，但是在很多真实应用中，获取大量有标记训练样本相当困难，但是很容易获得大量未标记训练样本。半监督学习致力于利用未标记样本来提高学习性能。半监督学习主要有三种学习方法：自训练；协同训练； Co-EM算法第6章决策树决策树基本概念半监督学习（ semi-supervised learning ）自训练方法及特点自训练：先在较小的标识数据集上训练得到初始分类器，然后利用该分类器对未标识样本进行分类。将分类置信度较高的未标识数据作为新的训练样本，添加到原训练集中对模型进行更新。如此循环多次后，输出得到的分类器及其分类结果。特点：自训练的方法通过将训练得到的置信度高的未标识数据作为训练样本，添加到训练集重复训练的方法，增加了训练集的数量，对未标识数据的信息进行了很好的利用，提高了分类的性能。但要求分类器对未标识数据具有较高的分类精度。这点对于较为复杂的分类尤其重要。第6章决策树半监督学习（ semi-supervised learning ）协同训练方法及特点协同训练是一种利用互补的分类器对未标识样本特征空间进行探索的半监督学习方法。协同训练利用分类器之间的相互训练来提高分类性能。可以弥补因一个分类器不准而对最终结果造成的影响。最终结果综合了两个分类器的结果得到。协同训练结果一般要优于自训练。但也面临未知数据分类精度对最终结果的影响问题。第6章决策树半监督学习（ semi-supervised learning ）Co-EM算法及特点 Co-EM算法是协同训练的改进形式，它不是直接利用当前分类器对未标识样本的分类，而利用分类后的后验概率进行分类。优点在于对数据前几轮中的预测标识可以通过后验概率来改变。这样在初始分类器准确率不高的情况下优于协同训练。但其合理性和收敛性没有理论的保证。第6章决策树半监督学习（ semi-supervised learning ）其它半监督学习方法还包括：生成式模