- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自变量筛选 全局择优法: 对自变量各种不同的组合建立的回归方程进行比较,从全部组合中确定最优回归方程: 残差均方最小或调整R2最大的回归方程,适用于自变量较少的情况。 缺点:自变量较多时,计算量大。如 自变量数= 6时,需考虑 26-1= 63个方程; 自变量数=10时,需考虑210-1=1024个方程. 自变量筛选 逐步选择法 是实际应用中普遍使用的方法 根据选入变量的顺序不同分为: 前进法 (forward selection) 后退法 (backward selection) 逐步回归法(stepwise regression) 共性:每一步只引入或剔除一个自变量Xj 假设检验方法:对偏回归平方和的F检验 前进法 自变量从无到有,从少到多,逐个引入回归方程 1.第一个入选自变量的确定:用因变量Y对每一自变量分别做直线回归,对回归平方和最大的自变量做F检验,有统计学意义则引入模型 2.对其它变量,在已选入第一个自变量的基础上,计算其它自变量的偏回归平方和,最大的偏回归平方和F检验有统计学意义,则引入 3.重复步骤2,直至没有自变量可以引入为止。 优点:可自动去掉高度相关的自变量(一个进入方程后,其它的进不来了) 局限性:后续变量的引入,可能会使在其之前进入方程的自变量 变得无统计学意义 后退法 1.因变量Y对所有自变量同时做线性回归 2.对方程中偏(净)回归平方和最小的变量做F检验,无统计学意义,则剔除 3.因变量Y对剩余的所有自变量同时做线性回归 4.重复第2步,直至方程中的自变量均不能剔除为止 优点:考虑了自变量的组合作用 局限性:当自变量数目较多,或某些自变量间高度相关时,可能得不出正确结果(有共线性时,模型参数估计不稳定) 逐步回归法(常用) 在前进和后退法的基础上,双向筛选变量的方法,本质是前进法。 1.引入第一个自变量进入方程:用因变量Y对每一自变量分别做直线回归,对回归平方和最大的自变量做F检验,有统计学意义则引入模型 2.对方程中的每一个自变量,做偏回归平方和的F检验,剔除“退化”为无统计学意义的自变量,确保每次引进新变量前,方程中的自变量均有统计学意义(按剔出标准) 3.重复1和2,直至既无自变量可以引入,也无自变量可以剔除为止 自变量筛选的检验水准 α值小:选取自变量的标准严,选入的自变量少 α值大:选取自变量的标准宽,选入的自变量多 在逐步选择中,α入 ≤ α出。 小样本时,一般定为α=0.10 或0.15 大样本时,一般定为α=0.05 多重回归的应用 影响因素分析(不追求最大R2值,根据专业知识和回归系数改变量确定变量) —可以用于疾病的影响因素分析(如遗传特征、感染途径、程度、自身免疫等) 估计与预测:(应选择有较高R2值的模型) 举例: 儿童的性别、年龄别、身高、体重评价生长发育 胎儿的孕周、头颈、胸径和腹径预测出生体重 统计控制(回归模型的R2值大,回归系数标准误小) 利用回归方程逆估计,通过控制自变量的值控制Y值 举例:射频治疗仪治疗脑肿瘤, 脑皮质毁损半径均数= ?0+ ?1射频温度+ ?2照射时间 按脑皮质毁损半径预定值,确定最佳射频温度和照射时间 共线性诊断 定义:一个或几个回归变量可以由其它的回归变量线性表示时,称回归变量间有共线性。 后果:自变量间共线性很高时,最小二乘估计参数不确定,无法取得参数的正确估计值。导致回归系数与专业知识相反,或重要变量不能纳入模型 多重共线性检验 多重共线性是多元回归分析中特有的问题,简单回归不存在此问题。 用于检验各个自变量之间是否是无关的。 共线性诊断 特征根:多个维度特征根约为0证明存在多重共线性。 条件指数(condition index)k(大于10提示存在) 0k10 无共线性 10K30 中等-较强共线性 K30 严重共线性 VIF:大于5,存在严重共线性 方差比例:同一特征值序号上两或几个系数方差比例较大时--存在共线性。方差比例越大,共线性越大 多重共线性的对策 增大样本量,可部分的解决共线性问题 采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。 从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。 进行主成分分析,用提取的因子代替原变量进行回归分析。 进行岭回归分析,它可以有效的解决多重共线性问题。 进行通径分析(Path Analysis) SPSS实现方法以及结果解释
您可能关注的文档
最近下载
- 专题02 宇宙中的地球-5年(2020-2024)高考1年模拟地理真题分类汇编(北京专用)(解析版).docx VIP
- 城市绿地分类标准 .pdf VIP
- 营养指导员题库.docx VIP
- 专题01 地球和地图-5年(2020-2024)高考1年模拟地理真题分类汇编(北京专用)(解析版).docx VIP
- 四年级【语文(统编版)】古诗三首(第一课时)课件 .pptx
- 质量管理体系工具统计技术.pptx VIP
- 2022年茅台考试真题及答案——计算机专业.pdf
- 发电机短路试验中转子接地保护误动作分析及关键问题探讨.pdf VIP
- Silvaco傻瓜教程—张林—长安大学—2018.06.pdf
- SpringBoot学习笔记(实用完整版).pdf VIP
文档评论(0)