第九讲分类与预测.ppt

下载文档 降价啦

38
0
约3.68万字
约 94页
2016-11-05 发布于湖北
举报
版权申诉
保障服务

第九讲分类与预测.ppt

1、本文档共94页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第八讲分类与预测 Classification and Prediction What is classification? What is prediction? Issues regarding classification and prediction Classification by decision tree induction Bayesian classification Rule-based classification（自学） Classification by back propagation Support Vector Machines (SVM) （自学） Associative classification （自学） Lazy learners (or learning from your neighbors) （自学） Other classification methods （自学） Prediction Accuracy and error measures （自学） Ensemble methods （自学） Model selection （自学） Summary 分类 vs. 预测分类(Classification): 预测分类标号(离散值或名词性词) 建立一个模型，基于训练集的数据和分类属性的值（类标识）来分类，并在新数据中使用该模型。预测(Prediction): 连续值函数上的建模, 例如，预测未知或缺失的值典型应用信用度目标市场医疗诊断分类的两个步骤模型创建: 描述预定的数据类集或概念集。假定每个元组或样本属于一个预定义的类，由一个称为类标号属性（class label attribute）的属性确定。用于建模的元组集称为训练集(training set) 模型表示为：分类规则、判定树或属性公式模型应用:用于分类未来或未知对象评估模型的准确率测试样本的已知标号与根据模型获得的分类结果作比较。准确率定义为正确被模型分类的测试样本的百分比测试集独立于训练集，否则，学习模型倾向于过分适合(over-fitting)数据如果准确率可被接受，使用模型用于分类类标号未知的数据。 Classification Process (1): Model Construction Classification Process (2): Use the Model in Prediction 决策树算法基本算法(贪心算法)，树的构建方式：自顶向下递归的各个击破方式树以代表训练样本的单个节点开始如果样本都在同一类中，则节点为叶子节点，并用该类标记否则，选择能够最好地将样本分类的属性(称为测试属性，必须是离散值的) 对测试属性的每个已知值，创建一个分支，并据此划分样本递归形成每个划分上的样本决策树递归划分步骤仅当下列条件之一成立时立即停止给定节点的所有样本属于同一个类没有剩余属性可作进一步划分样本—— majority voting is employed for classifying the leaf 没有剩余的样本 Attribute Selection: Information Gain Class P: buys_computer = “yes” Class N: buys_computer = “no” means “age =30” has 5 out of 14 samples, with 2 yes’es and 3 no’s. Hence Similarly, Computing Information-Gain for Continuous-Value Attributes Let attribute A be a continuous-valued attribute Must determine the best split point for A Sort the value A in increasing order Typically, the midpoint between each pair of adjacent values is considered as a possible split point (ai+ai+1)/2 is the midpoint between the values of ai and ai+1 The point with the minimum expected information requirement for A is selected as the split-point for A Split: D1 is the set

您可能关注的文档

文档评论（0）

光光文挡 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第九讲分类与预测.ppt