Chapter 6.数据挖掘 Classification and Prediction-2.ppt

下载文档 降价啦

2
0
约1.03万字
约 52页
2018-04-29 发布于浙江
举报
版权申诉
保障服务

Chapter 6.数据挖掘 Classification and Prediction-2.ppt

1、本文档共52页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chapter 6.数据挖掘 Classification and Prediction-2

* * 支持向量机上节所得到的最优分类函数为：该式只包含待分类样本与训练样本中的支持向量的内积运算，可见,要解决一个特征空间中的最优线性分类问题,我们只需要知道这个空间中的内积运算即可。 ?对非线性问题, 可以通过非线性变换转化为某个高维空间中的线性问题, 在变换空间求最优分类面. 这种变换可能比较复杂, 因此这种思路在一般情况下不易实现. * * 支持向量机 * * 核函数的选择 * * SVM方法的特点 ①?非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; ②?对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; ③?支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 ?SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”(transductive inference) ,大大简化了通常的分类和回归等问题。 * * SVM方法的特点 SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。 ?少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在: ①增、删非支持向量样本对模型没有影响; ②支持向量样本集具有一定的鲁棒性; ③有些成功的应用中,SVM 方法对核的选取不敏感。 * * 第6章分类与预测什么是分类? 什么是预测? 关于分类和预测的问题用决策树归纳分类贝叶斯分类用反向传播分类支持向量机预测准确率和误差的度量系综方法小结 * * 什么是预测? * * 数据库的预测性建模 * * 回归分析与对数线性模型 Linear regression: involves a response variable y and a single predictor variable x y = w0 + w1 x where w0 (y-intercept) and w1 (slope) are regression coefficients Method of least squares: estimates the best-fitting straight line Multiple linear regression: involves more than one predictor variable Training data is of the form (X1, y1), (X2, y2),…, (X|D|, y|D|) Ex. For 2-D data, we may have: y = w0 + w1 x1+ w2 x2 Solvable by extension of least square method or using SAS, S-Plus Many nonlinear functions can be transformed into the above * * 数值预测 * * 分类预测 * * 第6章分类与预测什么是分类? 什么是预测? 关于分类和预测的问题用决策树归纳分类贝叶斯分类用反向传播分类支持向量机预测准确率和误差的度量系综方法小结 * * 分类器准确率度量 Accuracy of a classifier M, acc(M): percentage of test set tuples that are correctly classified by the model M Error rate (misclassification rate) of M = 1 – acc(M) Given m classes, CMi,j, an entry in a confusion matrix, indicates # of tuples in class i that are labeled by the classifier as class j Alternative accuracy measures (e.g., for cancer diagnosis) sensitivity = t-pos/pos /* true positive recognition rate */ specificity = t-neg/neg /* true ne