- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2 . 装袋法、随机森林和提升法 提升法(boosting) 提升方法有三个调整参数: (1)树的总数B:与装袋法和随机森林不同,如果B值过大,提升法可能出现过拟合,但即使出现过拟合,其发展也很慢。我们用交叉验证来选择B。 (2)取极小正值的压缩参数 :它控制着提升算法的学习速度 。 通常取0.01或0.001,合适的取值视具体情况而定。若 的值很小,则需要很大的B才能获得良好的预测效果。 (3)每棵树的分裂点d,它控制着整个提升模型的复杂性:用d=1构建模型通常能获得上好效果,此时每棵树都是 一个树桩,仅由一个分裂点构成。这种情况下的提升法整体与加法模型相符,因为每棵树只包含一个变量。更多情况下,d表示交互深度,它控制着提升模型的交互顺序,因为d分裂点最多包含d个变量。 2 . 装袋法、随机森林和提升法 提升法(boosting) 房东:我有个100平的房子要卖,多少钱合适? 中介:大概3万一平,300万吧。在哪? 房东:在北四环里。 中介:那得加50万,350万。朝向如何? 房东:东南朝向的。 中介:不是南北朝向啊? 那得减20万,330万吧。哪年的房子? 房东:2009年的,挺新的。 中介:嗯,是挺新的,那得再加30万,360万吧。。。。。 房东:。。。。。。 决策树复习 决策树和人的思维方式很类似 某位母亲给自己闺女物色了个男朋友,于有了下面这段对话: 女儿:多大年纪了? 母亲:26。 女儿:长得帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算特别高,中等情况吧。 女儿:是不是公务员? 母亲:是,在税务局上班。 女儿:那好,见个面吧。 * * * * 统计学习导论(一) 决策树 本章介绍基于树的回归和分类方法,这些方法主要根据分层和分割的方式将预测变量空间划分为一些简单的区域。对某个给定的待预测的观测值,用它所属的区域中训练集的平均值或众数对其进行预测。 * 1. 决策树的基本原理 2. 装袋法(bagging)、随机森林(random forest)和提升法(boosting) 1 .决策树的基本原理 回归树 用回归树来预测棒球运动员的薪水 预测变量X:效力年数、安打数(Hits) ?通过特征空间分层预测 (1)将预测变量空间(即X1,X2,…,Xp的可能取值构成的集合)分割成J个互不重叠的区域R1,R2,…,Rj。 (2)对落入区域Rj的每个观测值作同样的预测,预测值等于Rj上训练集响应值的简单算术平均。 1 .决策树的基本原理 回归树 举个例子 若R1上训练集平均值是10,R2上训练集的平均响应值是20,则对给定的观测值x,若 ,则给出预测值为10,若 ,则给出预测值为20 。 现在开始详细介绍如何构建区域 ,理论上,区域的形状是任意的,但出于模型简化和增强解释性的考虑,这里将预测变量空间划分成高维矩形,或称盒子(box)。划分区域的目标是找到使模型的残差平方和RSS最小的矩形区域 。 RSS 的定义为 式中: 是第j个矩形区域中的平均响应值。遗憾的是,要想考虑将特征空间划分为J个矩形区域的所有可能性,在计算上是不可行的。因此采用一种自上而下贪婪方法:递归二叉分裂。“(在此处所有观测值属于同一空间)依次分裂预测变量空间,每个分裂点都产生两个新的分支。“贪婪”自上而下”指的是它从树顶端开始意思是在建树的每一步中,最优分裂的确定仅限于某一步的进程,而不是针对全局的最优。 1 .决策树的基本原理 回归树 1 .决策树的基本原理 回归树 那么具体如何生成一棵决策树呢? 举个例子: RSS= 寻找j和s,使下式取最小值: j,s是什么意思? 上式的 是 中训练集的平均响应值, 是 中训练集的平均响应值。使上式最小的j和s很快就能找到。 重复上述步骤,寻找继续分割数据集的最优预测变量和最优分割点,使随之产生的区域中的RSS达到最小。此时被分割的不在是整个预测变量空间,而是之前确定的两个区域之一。 * 1 .决策树的基本原理 回归树 区域 产生后,就可以确定某一给定测试数据所属的区域,并用这一区域的训练集平均响应值进行预测。 下图 将预测变量空间划分为五个区域 1 .决策
您可能关注的文档
- CPD平衡重叉车参数表.docx
- CPD平衡重叉车参数表.pdf
- 白酒及黄酒生产项目工艺设计说明书.doc
- 白酒酿造工艺流程.docx
- 保温计算方法.xls
- 地基的要求及地基处理的方法介绍.pptx
- 飞机I发启动点火故障分析.ppt
- 航空大学毕业答辩.pptx
- 航空硕士毕业论文.doc
- 酒厂甑锅基础图纸.pdf
- 北师大版小学数学三年级上册《寄书》教学设计.docx
- 统编版(部编版)语文二年级上册《雪孩子》教学设计.docx
- 统编版(部编版)语文二年级上册《八角楼上》教学设计.docx
- 北师大版小学数学三年级上册《长方形周长》教学设计.docx
- 北师大版小学数学三年级上册《丰收了》教学设计.docx
- 统编版(部编版)语文二年级上册《夜宿山寺》教学设计.docx
- 统编版(部编版)语文二年级上册《风娃娃》教学设计.docx
- 统编版(部编版)语文二年级上册《朱德的扁担》教学设计.docx
- 统编版(部编版)语文二年级上册《难忘的泼水节》教学设计.docx
- 统编版(部编版)语文二年级上册《纸船和风筝》教学设计.docx
文档评论(0)