网站大量收购独家精品文档,联系QQ:2885784924

数模 第7讲:多元线性回归分析.pptx

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七讲:多元线性回归分析回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的 数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进 而达到通过X去预测Y的目的。常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归 和生存回归,其划分的依据是因变量Y的类型。本讲我们主要学习线性 回归。 2 / 67 回归的思想回归分析:研究X和Y之间相关性的分析。三个关键词相关性YX注:关于回归的很多观点,我引用了王汉生老师的《数据思维》,强烈推荐数据分析、统计等专业的同学阅读。 3 / 67 第一个关键词:相关性统计数据表明:游泳死亡人数越高,雪糕卖得越多(游泳死亡人数和雪糕售出量之间呈显著正相关)可以下结论:吃雪糕就会增加游泳死亡风险吗?(因为吃雪糕,所以游泳死亡风险增加了) 4 / 67 相关性 ≠ 因果性在绝大多数情况下,我们没有能力去探究严格的因果关 系,所以只好退而求其次,改成通过回归分析,研究相关关 系。听起来比较悲观?其实不是的。为什么?因为,这个退 而求其次的方案,比你瞎拍脑袋好多了去了。 5 / 67 第二个关键词是:YY是什么?俗称因变量。取义,因为别人的改变,而改变的变量。在实际应用中,Y常常是我们需要研究的那个核心变量。经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续 数值型变量)。P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变 量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示 一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就 是一个非负的整数。(计数变量)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的 观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁, 现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接 记他的年龄为60+,那这种数据就是截断的数据)(生存变量) 6 / 67 第三个关键词是:XY是因变量(因为别人的改变,而改变的变量)。 而X是用来解释Y的相关变量,所以X被称为自变量。当然,另一套定义方法是:X为解释变量,Y为被解释变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形 成机制,进而达到通过X去预测Y的目的。例题: 下表是1990‐2007年中国棉花单产与要素投入的表格,请用回归的 方法指出哪个要素投入是最重要的要素?年份单产kg/公顷种子费 元/公顷化肥费 元/公顷农药费 元/公顷机械费 元/公顷灌溉费 元/公0106.05495.15305.145.956.119911036.5113.55561.45343.868.55930104.55584.8541473.2104.55中间1993-2004年的数据20051122449.851703.25555.15402.3358.8200612765637.2480.75428.420071233565.52009.85715.65562.05456.9 7 / 67 0-1回归的例子 8 / 67 回归分析的使命使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用 的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关 关系是正的呢,还是负的?使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重, 也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。这就是回归分析要完成的三个使命: 第一、识别重要变量;第二、判断相关性的方向;第三、要估计权重(回归系数)。 9 / 67 回归分析的分类类型模型Y的特点例子线性回归OLS、GLS(最小二乘)连续数值型变量GDP、产量、收入0‐1回归logistic回归二值变量(0‐1)是否违约、是否得病定序回归probit定序回归定序变量等级评定(优良差)计数回归泊松回归(泊松分布)计数变量每分钟车流量生存回归Cox等比例风险回归生存变量(截断数据)企业、产品的寿命 10 / 67 数据的分类横截面数据:在某一时点收集的不同对象的数据。例如:我们自己发放问卷得到的数据全国各省份2018年GDP的数据大一新生今年体测的得到的数据 11 / 67 数据的分类时间序列数据:对同一对象在不同时间连续观察所取得的数据。例如:从出生到现在,你的体重的

文档评论(0)

好文档制作 + 关注
实名认证
服务提供商

医学PPT制作等, 文档批量转化等,其他各类高校PPT制作。

1亿VIP精品文档

相关文档