- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
小孩体重的统计分析 分析思路 普通线性回归模型(最小二乘多元回归) 岭回归 现代回归方法(回归树、最近邻方法、支持向量机) 现代回归方法组合方法(bagging、randomForest) 评价模型标准的选择 我将选用MAPE(The Mean Absolute Percentage Error ),即平均绝对误差百分比来对模型进行评价,在以后的方法中,均采用1次10折交叉验证。 经典线性回归模型(最小二乘法) 岭回归 刚才的讨论中,我们假定了每个变量之间不存在多重共线性,但实际在小孩体重问题里,数据的变量之间是否存在多重共线性,我们只是做了定性的分析,接下来我们通过岭回归的方法间接的说明变量之间时候存在多重共线性以及岭回归的模型结果。 岭回归 针对多重共线性时,普通最小二乘法明显变坏的问题,A.E.Hoerl在1962年首先提出一种改进最小二乘的方法,叫岭估计(ridge estimate)。后来Hoerl和Kennard于1970年给予了详细的讨论。 现代方法之回归树 现代方法之最近邻方法 它基于训练集对测试集进行分类或回归。每个回归或分类问题都有一些自变量,它们组成一个多维空间。 在回归中,一个测试集点的因变量的预测值应该等于离它最近的k个训练集点相应的因变量值的平均。至于k的选择,一般都用测试集的交叉验证来进行。 现代方法之支持向量机 现代方法之组合方法(bagging) 用自助法生成训练集, 原始训练集D中每个样本未被抽取的概率为( 1 - 1/ N ) N ,这里N 为原始训练集D 中样本的个数。当N 足够大时, ( 1 - 1/ N )^N 将收敛1/e~0.368, 这表明原始样本集D中接近37% 的样本不会出现在bootstrap样本中。这样抽k次就有k个不同的样本。 然后,对每个样本生成一个决策树。这样,每个树都对一个新的观测值产生一个预测。 如果目的是回归,则由这些树的结果的平均得到因变量的预测值。 table(ave(abs(w1[samp,]$bwt-predict(a71,w1[samp,]))/w1[samp,]$bwt))#训练集平均误差 table(ave(abs(w1[samp,]$bwt-predict(a72,w1[samp,]))/w1[samp,]$bwt))#剪完支的模型训练集平均误差 table(ave(abs(w1[tsamp,]$bwt-predict(a71,w1[tsamp,]))/w1[tsamp,]$bwt))#测试集平均误差 table(ave(abs(w1[tsamp,]$bwt-predict(a72,w1[tsamp,]))/w1[tsamp,]$bwt))#剪完枝测试集平均误差 library(kknn)#最近邻方法(nearest neighbor algorithm) a10=kknn(bwt~.,w1[samp,],w1[tsamp,],k=30,distance=2) print(a10) pre=fitted(a10) table(ave(abs(w1[tsamp,]$bwt-pre)/w1[tsamp,]$bwt))#测试集平均误差 Kknn方法上面做不出训练集上的MAPE library(class);library(e1071) a12 - svm(bwt~.,data=w1[samp,],kernal=linear) train=fitted(a12) pred.test - predict(a12,w1[-samp,]) table(ave(abs(w1[samp,]$bwt-train)/w1[samp,]$bwt))#测试集平均误差 table(ave(abs(w1[tsamp,]$bwt-pred.test)/w1[tsamp,]$bwt))#测试集平均误差 * w=read.table(f:/多元统计分析/babies_data_new.txt,header=T) w[1:10,] 这是一个存在缺失值的数据 w[!complete.cases(w),]#显示缺省值数据 该数据一共包含1236个样本,带有缺失值的样本共有62个。仅占总数的5%,选择直接删除缺省值。 nrow(w[!complete.cases(w),]) ##缺失值项的总行数 对缺失值的简单处理 summary(w1);hist(w1$bwt)#删除缺省值后的数据的描述统计和因变量分布 w$parity=factor(w$parity);w$smoke=factor(w$smoke) 数据变量特点 因变量小孩出生净重为定量变量 自变量包含孕期、是否第一次生产等定性变量和定量变量 样本里小孩体重分布服从正态分布 n=nrow(w1);set.
文档评论(0)