R语言数据挖掘(第2版)课件:R的近邻分析:数据预测.ppt

R语言数据挖掘(第2版)课件:R的近邻分析:数据预测.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《R语言数据挖掘(第2版)》《R语言数据挖掘(第2版)》R的近邻分析:数据预测学习目标理论方面,理解近邻分析方法的原理和适用性。了解特征提取在近邻分析中的必要性和提取方法。掌握基于变量重要性和观测相似的加权近邻法的原理和使用特点实践方面,掌握R近邻分析的函数、应用和结果解读,能够正确运用近邻分析实现数据的分类预测预测和预测模型预测是基于对历史数据的分析,归纳和提炼其中包含的规律,并将这种规律体现于预测模型中数据预测的核心是建立预测模型,它要求参与建模的变量分饰两种不同的角色:输入变量(也称解释变量,特征变量,记为x。解释变量可以有多个,记为X)角色,输出变量(也称被解释变量,记为y,通常被解释变量只有一个)角色,且输入和输出变量的取值在已有数据集上是已知的。预测模型充分反映并体现了输入变量取值和输出变量取值间的线性或非线性关系,能够用于对新数据对象的预测,或对数据未来发展趋势进行预测等预测和预测模型预测模型分为输出变量为分类型的预测模型称为分类预测模型输出变量为数值型的预测模型称为回归预测模型传统统计中的一般线性模型、广义线性模型、判别分析都能够解决不同预测模型的建立问题提前:在数据满足某种分布假设下,明确设定输出变量与输入变量取值关系的函数形式在更为宽泛的应用中,大多假设可能是无法满足的。同时,在输入变量较多,样本量较大的情况下,给出函数f的具体形式非常困难解决策略:近邻分析法近邻分析:K-近邻法为预测一个新观测X0输出变量y0的取值,近邻分析法的基本思想:首先在已有数据中找到与X0相似的若干个(如K个)观测,如(X1,X2,…,Xk)。这些观测称为X0的近邻然后,对近邻(X1,X2,…,Xk)的输出变量(y1,y2,…,yk),计算诸如算术平均值(或加权均值,或中位数,或众数),并以此作为新观测X0输出变量取值y0的预测值典型的近邻分析方法是K-近邻法(KNN)。它将样本包含的n个观测数据看成为p维(p个输入变量)特征空间中的点,并根据X0的K个近邻的(y1,y2,…,yk)依函数计算K-近邻法中的距离常用的距离:闵可夫斯基距离欧氏距离绝对距离切比雪夫距离夹角余弦距离数据的预处理K-近邻法中的近邻个数最简单情况下只需找到距离X0最近的一个近邻Xi,即参数K=1(1-近邻)1-近邻法非常简单,尤其适用于分类预测时,特征空间维度较低且类别边界极不规则的情况1-近邻法只根据单个近邻进行预测,预测结果受近邻差异的影响极大,通常预测波动(方差)性较大,稳健性低可通过增加近邻个数K以提升预测的稳健性增加K会导致分类边界趋于平滑,预测误差增大,依据对预测误差的接受程度设置参数K,是一种可取的方式K-近邻法中的近邻个数旁置法将整个样本集随机划分为两个集合。一个集合称为训练样本集,另一个集合称为测试样本集。利用建立在训练样本集上的预测模型,对测试样本集做预测并计算其预测误差。该预测误差也称为测试误差将作为模型预测误差的估计旁置法适合样本量较大的情况留一法在包含n个观测的样本中,抽出一个观测作为测试样本集,剩余的n-1个观测作为训练样本集;依据建立在训练样本集上的预测模型,对被抽出的一个观测进行预测,并计算预测误差;这个过程需重复n次;最后,计算n个预测误差的平均值,该平均值将作为模型预测误差的估计R的K-近邻法和应用示例K-近邻的R函数knn(train=训练样本集,test=测试样本集,cl=输出变量,k=近邻个数K,prob=TRUE/FALSE,use.all=TRUE/FALSE)knn1(train=训练样本集,test=测试样本集,cl=输出变量)knn.cv(train=训练样本集,cl=输出变量,k=近邻个数)进行关于分类预测和回归预测的模拟分析,目的是观察参数K对K-近邻法的影响K-近邻法应用:天猫成交顾客的分类预测K-近邻法的适用性及特征选择K-近邻的适用性:适用于特征空间维度较低且类别边界极不规则情况下的分类预测随特征空间维度p的增加,K-近邻法的“局部”性逐渐丧失,导致预测偏差增大有效降低特征空间的维度,是获得K-近邻方法理想应用的前提保证。降低特征空间维度的最常见处理策略是特征选择特征选择特征选择:是从众多的输入变量中,找出对输出变量分类预测有意义的重要变量。那些对输出变量分类预测没有意义的输入变量,将不再参与预测模型的建立变量的重要性可从三个方面考察:从变量本身考察:从变量本身看,重要的变量应是携带信息较多,也就是变量值差异较大的变量从输入变量与输出变量相关性角度考察简单相关分析、方差分析、卡方检验从预测误差角度考察:Wrapper方法:依据使预测错

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档