- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[数学]统计学习精要第五章
第五章 基展开与正则化 本章的核心思想用附加的变量(X的变换)替换输入向量X,在新的导出的输入特征空间上使用线性模型。 5.2 分段多项式和样条 三次样条 一个具有纽结(j=1,2,···k)的M次样条是一个M-1次分段多项式,并具有高达M-2阶连续导函数。三次样条有M=4。事实上,图5.1中的分段常数函数是1次样条。而连续的分段线性函数是2次样条,截尾幂基集的一般形式是: 5.2.1自然三次样条 5.2.2例南非心脏病 matrix-as.matrix(heart[1:8]) #matrix library(splines) matrix.spline-ns(matrix,df=32) heart.splne-data.frame(cbind(matrix.spline,heart$chd)) #head(heart.splne) fit.spline-glm(V37~.,data=heart.splne) summary(fit.spline) #step(fit.spline) pred.spline-predict(fit.spline) pred.spline.1-rep(0,length) for(i in 1:length) { if(pred.spline[i]0.5) {pred.spline.1[i]-1} } error.spline-sum(abs(pred.spline.1-heart$chd)) error.rate.spline-error.spline/length 5.4光滑样条 5.4.1自由度和光滑矩阵 特征向量不受 变化的影响,因而被 索引的整个光滑样条族(对于一个特定的序列x)具有相同的本征值。 从而光滑样条通过关于(整个)基 分解y,并使用微分的收缩贡献来进行操作。 序列,按 的递减排列,看来增加了复杂度。确实,它们具有递增次数多项式的零交叉行为。 前两个本征值总是1,并且它们对应于x上线性函数的二维本征空间(见习题5.11),永远不被收缩。 特征值 是罚矩阵K的本征值的逆函数,被 调节;控制递减到0的速率。 可以使用基向量 对光滑样条重新参数化 ,对于投影光滑,所有本征值为1,每个对应投影子空间的一个维。 5.5 光滑参数的自动选择 回归样条的光滑参数包括样条的次数、纽结个数和位置。对于光滑样条,我们只有罚参数需要选择,因为纽结在所有训练X上,并且在实践中总是使用三次样条。 5.5.1 固定自由度 由 并通过固定df来确定 S-PLUS(R)中,使用 指定光滑量。实验多个不同的df值,并根据近似的F-检验,残差图或其他更主观的标准选择一个。 5.5.2 偏倚-方差权衡 Leave-one-out(缺一)交叉验证 5.6 无参逻辑斯蒂回归 Thin-Plate Splines Thin-Plate Splines * 第一个图定义三个基函数: 第二个图添加三个基函数 第三个图分段连续线性 “knots” cubic spline Number of parameters = (3 regions) X (4 params per region) - (2 knots X 3 constraints per knot) = 6Knot discontinuity essentially invisible to the human eye 三次分段多项式,具有连续的一阶和二阶导数 增加一些约束条件1)在中间每个区间都是一个三次多项式(分段多项式)2)在节点处一、二阶导数连续,3)在2个边界分段处函数的一阶导数为0,这样三次样条就变成自然三次样条。 K个节点的自然三次样条,用K个基函数来表示(习题5.4): fit.glm-glm(chd~.,data=heart,family=binomial()) summary(fit.glm) step(fit.glm) 逐步logistic回归之后,再用逐步回归进行变量选择 R程序 logistic回归是线性分类器的一种,我们现在需要挖掘该分类规则中非线性的一些成分 如下准则的前一项度量平滑器与原数据的接近程度,而后一项确保平滑曲线不至于太曲则: smoothing parameter ?=0 : f 变成了插值 ?=infinity : 变成了最小二乘拟合的直线 Schoenbe
文档评论(0)