[数学]统计学习精要第五章.ppt

下载文档 降价啦

8
0
约2.9千字
约 32页
2018-02-16 发布于浙江
举报
版权申诉
保障服务

[数学]统计学习精要第五章.ppt

1、本文档共32页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[数学]统计学习精要第五章

第五章基展开与正则化本章的核心思想用附加的变量（X的变换）替换输入向量X，在新的导出的输入特征空间上使用线性模型。 5.2 分段多项式和样条三次样条一个具有纽结(j=1，2,···k)的M次样条是一个M-1次分段多项式，并具有高达M-2阶连续导函数。三次样条有M=4。事实上，图5.1中的分段常数函数是1次样条。而连续的分段线性函数是2次样条，截尾幂基集的一般形式是： 5.2.1自然三次样条 5.2.2例南非心脏病 matrix-as.matrix(heart[1:8]) #matrix library(splines) matrix.spline-ns(matrix,df=32) heart.splne-data.frame(cbind(matrix.spline,heart$chd)) #head(heart.splne) fit.spline-glm(V37~.,data=heart.splne) summary(fit.spline) #step(fit.spline) pred.spline-predict(fit.spline) pred.spline.1-rep(0,length) for(i in 1:length) { if(pred.spline[i]0.5) {pred.spline.1[i]-1} } error.spline-sum(abs(pred.spline.1-heart$chd)) error.rate.spline-error.spline/length 5.4光滑样条 5.4.1自由度和光滑矩阵特征向量不受变化的影响，因而被索引的整个光滑样条族（对于一个特定的序列x）具有相同的本征值。从而光滑样条通过关于（整个）基分解y，并使用微分的收缩贡献来进行操作。序列，按的递减排列，看来增加了复杂度。确实，它们具有递增次数多项式的零交叉行为。前两个本征值总是1，并且它们对应于x上线性函数的二维本征空间（见习题5.11），永远不被收缩。特征值是罚矩阵K的本征值的逆函数，被调节；控制递减到0的速率。可以使用基向量对光滑样条重新参数化 ,对于投影光滑，所有本征值为1，每个对应投影子空间的一个维。 5.5 光滑参数的自动选择回归样条的光滑参数包括样条的次数、纽结个数和位置。对于光滑样条，我们只有罚参数需要选择，因为纽结在所有训练X上，并且在实践中总是使用三次样条。 5.5.1 固定自由度由并通过固定df来确定 S-PLUS（R）中，使用指定光滑量。实验多个不同的df值，并根据近似的F-检验，残差图或其他更主观的标准选择一个。 5.5.2 偏倚-方差权衡 Leave-one-out（缺一）交叉验证 5.6 无参逻辑斯蒂回归 Thin-Plate Splines Thin-Plate Splines * 第一个图定义三个基函数：第二个图添加三个基函数第三个图分段连续线性 “knots” cubic spline Number of parameters = (3 regions) X (4 params per region) - (2 knots X 3 constraints per knot) = 6Knot discontinuity essentially invisible to the human eye 三次分段多项式，具有连续的一阶和二阶导数增加一些约束条件1）在中间每个区间都是一个三次多项式（分段多项式）2）在节点处一、二阶导数连续，3）在2个边界分段处函数的一阶导数为0，这样三次样条就变成自然三次样条。 K个节点的自然三次样条，用K个基函数来表示(习题5.4): fit.glm-glm(chd~.,data=heart,family=binomial()) summary(fit.glm) step(fit.glm) 逐步logistic回归之后，再用逐步回归进行变量选择 R程序 logistic回归是线性分类器的一种，我们现在需要挖掘该分类规则中非线性的一些成分如下准则的前一项度量平滑器与原数据的接近程度，而后一项确保平滑曲线不至于太曲则: smoothing parameter ?=0 : f 变成了插值 ?=infinity : 变成了最小二乘拟合的直线 Schoenbe