- 1、本文档共75页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘发现知识的类型 广义知识 关联知识 分类知识 预测型知识 偏差型知识 Outline: §5.1 一般概念 (classification 的处理过程、现有的常用算法、分类和回归的预报指标) §5.2 分类和回归的预报评价 §5.3 分类方法 基于距离空间的KNN方法及其衍生方法 基于归纳的决策树分类方法 基于最优判别平面或多面体的分类方法 基于模糊理论的分类方法 基于概率统计的Bayes Net分类算法 §5.4 回归方法 §5.1 一般概念 E.g. 同一组数据,就有可能存在这两种预报 1.分类的处理过程: First, 通过分类算法对数据的分析和学习,建立一个可用分类规则表示的模型或分类器。 表现形式有:(1)规则 if…then (2)判别平面 g(x) = wT(x) then,用上述分类规则对测试样本进行分类,求分类准确率,如果分类准确率达到可接受的程度,该规则就可以用于新数据的分类。 对于回归,训练样本与目标之间的关系,建立相关的函数模型 具体步骤1 建立一个模型,描述给定的数据类集或概念集(简称训练集) 通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类,由类标号属性确定。用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本。由于给出了类标号属性,因此该步骤又称为有监督的学习(supervised)。如果训练样本的类标号是未知的,则称为无监督的学习(unsupervised)。学习模型可用分类规则、决策树和数学公式的形式给出。 具体步骤2 使用模型进行分类 首先对模型分类准确率进行估计 如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未知数据或对象(其类别未知)进行分类。 2.现有的常用算法 分类: 基于概率统计的 Bayes Net 基于归纳学习的 Decision Tree 基于向量空间模型的 KNN,NN,Case-based reasoning,rough set 基于模糊集的Fuzzy theory,FMMNN 基于统计学习理论的SVM 基于超平面或超多面体的 Fisher,PCA,PLS,LMap 回归: 一元(多元)线性(非线性)回归,核,SVR §5.2 分类和回归的预报评价 包括对得到的模型、求解该模型的过程以及用该模型预报未知等一系列工作的评价。 ①.分类/回归的准确率 评价一个模型的准确率:一般是把已知样本分成两个子集(训练集和测试集)。模型是通过分析训练集得到,评价的是该模型用于预报测试集样本的准确率(预报误差) 分类:误报率 回归:均方误差、平均误差、相对误差… 预报准确率的测试方法 根据训练集、测试集的不同划分,可分为不同的测试方法: (1).Holdout method 任意划分两个子集(只规定好数目,至于哪个样本划到哪里是随机的)。可以做多次,然后取平均值。 (2).K-fold cross-validation (k-交叉验证方法) 所给初始样本任意地分成样本数大致相等的k个子集(s1,s2,…sk),并做k次训练与测试:第一次,以s1为Test Sample Set,其它的(S2s3,…sk)为training sample,…,第i次,以si为Test Sample Set,其它的为training sample set。最后,准确率就是k次的测试结果之和。 (3).留n法 固定每次有n个样本做测试集,重复做一直到所有样本都被测试过。n=1时,就是留一法(Jackknife检验)。留一法也是k-交叉验证方法的特例(k=Ns)有几个样本就分成几个子集) (4).Self-consistency检验 用训练集数据进行学习,并对训练集数据进行检验 分类准确率的其他表示方法 §5.3 几种分类方法 基于距离空间的KNN方法及其衍生方法 基于归纳的决策树分类方法 基于概率统计的Bayes分类算法 基于模糊理论的FMMNN分类方法 基于最优判别平面或多面体的分类方法 基于距离空间的KNN及其衍生方法 1.美国的E.Fix 和J.L.Hodges在1951年提出来的KNN方法 KNN是一种最经典的模式识别方法,该方法可用于线性不可分的多类样本的识别。K为最近邻个数。 基本原理: “物以类聚”、“少数服从多数”。即如果未知样本的K个近邻样本都是一种类型,那么该未知样本就
您可能关注的文档
最近下载
- 《母婴保健》 课件全套 重大 第1--8章 绪论、 妊娠前期保健 --- 婴儿期保健.pptx
- 新概念英语第三册 Lesson27 Nothing to sell and nothing to buy 课件.pptx
- 2024年伊春职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析.docx
- 英飞克G3系列用户手册 V3.0.pdf
- 《森林报》知识答题参考题库资料(含答案).pdf
- 公安辅警笔试题目与答案(2024版).docx VIP
- 车辆使用安全责任协议书必威体育精装版通用.docx
- 煤矿安全生产法律法规培训课件ppt2023版.pptx
- 矿山企业交接班记录表.docx
- 剪映:手机短视频制作-教案.pdf VIP
文档评论(0)