人民大2024上海财大版《统计学》PPTChapter8 线性回归分析.pptx

人民大2024上海财大版《统计学》PPTChapter8 线性回归分析.pptx

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第八章线性回归分析;8.1简单线性回归

8.2多元线性回归

8.3回归模型的评估

8.4残差分析

8.5变量选择;《统计学》;《统计学》;《统计学》;《统计学》;8.1.1模型的建立

8.1.2最小二乘估计

8.1.3最小二乘估计的性质

8.1.4回归系数的统计推断

8.1.5置信与预测区间

;?;?;?;?;?;《统计学》;?;?;?;?;例8.1.在丰田汽车经销商二手车的价格预测案例中,该经销商收集了以前所有二手丰田卡罗拉的销售数据。该数据共包括1436个观测值,10个变量,其中销售价格为因变量,其它9个变量为汽车相关的其他信息,具体变量见下表。;例8.1.(续)为了便于说明问题,暂时不考虑行驶里程(KM)低于500公里的数据,最终共1425个观测值。下表展示了部分数据。请根据数据建立销售价格关于车龄的回归方程,并根据回归方程预测车龄为48个月的二手丰田卡罗拉的销售价格。;解.;解.;可以通过R软件中函数“lm()”完成模型估计。

;?;?;?;?;8.1.4.1回归系数的区间估计

8.1.4.2斜率的显著性检验

;?;?;?;?;?;?;?;例8.4.利用例8.1中的回归方程,计算车龄为48个月的二手车对数销售价格的置信水平为0.95的置信区间以及预测区间。

解.;置信区间与预测区间可以通过R函数“predict”得到;8.2.1多元线性回归模型

8.2.2回归系数的统计推断

8.2.3置信与预测区间

;?;?;?;?;?;?;?;例8.5.关于丰田汽车经销商二手车的价格预测,例8.1建立了对数销售价格(logPrice)与车龄(Age)的简单线性模型。在本例中,除去考虑车龄,还将考虑行驶里程数(KM)对二手车价格的影响。请根据数据建立对数销售价格关于车龄和行驶里程的回归方程并对每个变量进行显著性检验。

解.;解.(续)使用软件对模型进行估计,输出结果如下:;?;例8.6.例8.5中建立的对数销售价格关于车龄和行驶里程的回归方程。请根据此模型对车龄48个月、行驶里程5万公里的丰田卡罗拉的对数销售价格建立0.95置信区间和预测区间。

解.;8.3.1回归方程的显著性检验

8.3.2决定系数

;?;?;?;?;例8.7.关于丰田汽车经销商二手车的价格预测,例8.5建立了对数销售价格(logPrice)与车龄(Age)和行驶里程数(KM)的多元线性模型并对每个变量进行了显著性检验。在本例中,对整体的二元回???模型进行显著性检验。

解.使用软件对模型进行估计并输出方差分析表如下:

;?;以简单线性回归模型为例。;例8.8.利用例8.7中的计算结果,计算例8.5中二元线性回归方程的决定系数。

解.;?;?;?;?;?;正态性假设的判断:

残差图:标准化残差应随机对称地散布在零两侧-2到2之间。

正态QQ图

左图是符合正态性假设的残差QQ图,而右图显然不符合正态性假设,明显具有尖峰厚尾的特征,极值相对更多。;误差独立性检验:

右图可以看出,残差随着序号的增加出现先增后减的周期性表现,说明数据间很可能存在自相关性。;例8.10.对例8.5中的二元线性回归模型(对数价格与车龄和行驶里程)进行残差分析。

解.左图:残差与拟合值的散点图,残差值基本围绕0上下无规律波动,残差值与拟合值之间有轻微的曲率。

右图:残差正态QQ图,正态性假设基本得到保证,只有个别极端值。

从残差来看,售出价格明显低于预期的价格。;多元线性回归拟合:

欠拟合:模型中的自变量过少,有可能导致预测偏差高。

过拟合:模型中的自变量过多,预测的偏差降低但方差增大。

变量选择常用的方法:

(1)子集选择法:逐步选择、最优子集法;

(2)压缩方法(shrinkagemethod):损失函数中加入惩罚项。

根据惩罚项不同:岭回归(Ridgeregression)、LASSO回归。;?;?;?;?;例8.11.对例8.1中丰田二手车价格数据,因变量考虑对数价(log(Price))。在本例中假设有6个自变量的信息:车龄(Age)、行驶里程(KM)、排量(CC)、马力(HP)、车门数量(Doors)和车重(Weight)。通过逐步回归的方法建立最优的线性模型。

解.;解.(续);解.(续);谢谢!

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

知识共享

1亿VIP精品文档

相关文档