- 1、本文档共91页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10讲--回归分析概要
* 对Superbrands案例的诊断结论 在残差图可以看出,残差的波动幅度前后呈现出明显的差异,属于异方差情况(Heteroskedasticity),说明在回归模型中对误差项作的等方差假设是不合适的。 建议对因变量做变换,比如ln(y)、 或者 1/y 等等,再对变换后的因变量建立线性回归模型。 * 以取对数的销售额建立的回归 自变量 系数 系数标准误 T P 常量 1.6123 0.1300 12.40 0.000 AD 0.0149 0.0022 6.83 0.000 R-Sq = 85.4% * 新的模型的残差图 * 标准化的残差 残差的标准化 这里的标准化也称为学生化(Studentized)。 标准化残差图能对随机误差项?服从正态分布的假定提供一种直观的认识。如果这一假定被满足,那么标准化残差的分布也应服从标准正态分布。于是我们应期望看到,大约95%的标准化残差都落在-1.96到1.96之间,或约为-2到2之间。 Armand案例的标准化残差图 判断残差是否服从正态分布正态概率图 识别异常值 异常值(Outlier)是指残差异常大的观测。 识别方法:标准化残差落在[-3,3]之外的观测值被认为是异常值 识别异常值之后: 检查是否输入数据错误,如果是,则改正数据;否则,也应当保留该观测,而不是简单地删除。 具有异常值的数据 异常值: 观测值偏离了散点图中的趋势 * 识别影响点 影响点(Influential Observation)是指对回归结果具有很大影响的观测。 * 具有影响点的例子 影响点: 观测值相当大的偏离了散点图中的趋势,或远离自变量 x 的平均值,或两 者皆有。 * 保留和剔除影响点的差异 保留影响点时 的回归直线 剔除影响点时 的回归直线 影响点 异常值不一定是影响点,反之,影响点的残差也可以很小,不一定是异常值。 识别影响点的方法:杠杆率和Cook距离 识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。 Armand案例的杠杆率图 识别影响点的方法:杠杆率比较大(大于 3(p+1)/n) 杠杆率是更具自变量x 的值 与它们的平均值的远近来确定的。 但是高杠杆率的观测未必对估计的结果影响很大。 Armand案例的Cook距离图 识别影响点的方法:Cook距离D比较大(1). * 多重共线性问题 * HOT DOG 案例 Dubuque是一家热狗生产厂家,他们最近收到信息说,Ball Park,一家与他们竞争的品牌,将会降低他们两种热狗(常规热狗和全牛肉热狗)的价格。公司内部围绕这是否会给他们现在的市场份额带来负面影响展开了争论,有人认为应该采取相应的措施来保护已有的市场份额,也有人说Oscar Mayer才是他们的主要竞争对手,可以不必采取任何措施。你觉得应该如何处理这一问题? * 需要分析的问题 Dubuque的价格怎样影响到它的市场份额? Oscar Mayer的价格会影响到Dubuque的市场份额吗? Ball Park的价格影响到Dubuque的市场份额吗? Oscar Mayer和Ball Park谁是Dubuque主要的竞争对手? * 数据说明 Mktdub Dubuque热狗的市场份额; Pdub Dubuque热狗的市场价格; Poscar Oscar Mayer热狗的市场价格; Pbpreg Ball Park常规热狗的市场价格; Pbpbeef Ball Park全牛肉热狗的市场价格。 * 直接以市场份额为因变量的回归 自变量 系数 系数标准误 T P 常量 0.04030 0.01412 2.85 0.005 pdub -0 0 -9.39 0.000 poscar 0 0 3.11 0.002 pbpreg 0.0003473 0.0003316 1.05 0.297 pbpbeef 0.0001025 0.0002938 0.35 0.728 R-Sq = 52.6% * 对应的残差图 * 以市场份额的对数为因变量的回归 自变量 系数 系数标准误 T P 常量 -3
文档评论(0)