[常见的回归七种.docxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[常见的回归七种

常见的七种回归技术字数2478?阅读443?评论1?喜欢2介绍? ? ? 根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。内容1.什么是回归分析?2.我们为什么要使用回归分析?3.回归有哪些类型?4.线性回归5.逻辑回归6.多项式回归7.逐步回归8.岭回归9.Lasso回归10.ElasticNet回归什么是回归分析?? ? ? ?回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些技术应用于预测,时间序列模型和找到变量之间关系。例如可以通过回归去研究超速与交通事故发生次数的关系。我们为什么要用回归分析?? ? ?这里有一些使用回归分析的好处:它指示出自变量与因变量之间的显著关系;它指示出多个自变量对因变量的影响。回归分析允许我们比较不同尺度的变量,例如:价格改变的影响和宣传活动的次数。这些好处可以帮助市场研究者/数据分析师去除和评价用于建立预测模型里面的变量。回归有哪些类型?? ? ? 我们有很多种回归方法用预测。这些技术可通过三种方法分类:自变量的个数、因变量的类型和回归线的形状。1.线性回归? ? ? ?线性回归可谓是世界上最知名的建模方法之一,也是应该是我们第一个接触的模型。在模型中,因变量是连续型的,自变量可以使连续型或离散型的,回归线是线性的。线性回归用最适直线(回归线)去建立因变量Y和一个或多个自变量X之间的关系。可以用公式来表示:Y=a+b*X+ea为截距,b为回归线的斜率,e是误差项。? ? ? 简单线性回归与多元线性回归的差别在于:多元线性回归有多个(1)自变量,而简单线性回归只有一个自变量。到现在我们的问题就是:如何找到那条回归线?? ? ? 我们可以通过最小二乘法把这个问题解决。其实最小二乘法就是线性回归模型的损失函数,只要把损失函数做到最小时得出的参数,才是我们最需要的参数。我们一般用决定系数(R方)去评价模型的表现。重点:1.自变量与因变量之间必须要有线性关系。2.多重共线性、自相关和异方差对多元线性回归的影响很大。3.线性回归对异常值非常敏感,其能严重影响回归线,最终影响预测值。4.在多元的自变量中,我们可以通过前进法,后退法和逐步法去选择最显著的自变量。2.逻辑回归逻辑回归是用来找到事件成功或事件失败的概率。当我们的因变量是二分类(0/1,True/False,Yes/No)时我们应该使用逻辑回归。重点:1.在分类问题中使用的非常多。2.逻辑回归因其应用非线性log转换方法,使得其不需要自变量与因变量之间有线性关系。3.为防止过拟合和低拟合,我们应该确保每个变量是显著的。应该使用逐步回归方法去估计逻辑回归。4.逻辑回归需要大样本量,因为最大似然估计在低样本量的情况下表现不好。5.要求没有共线性。6.如果因变量是序数型的,则称为序数型逻辑回归。7.如果因变量有多个,则称为多项逻辑回归。3.多项式回归写在前面:多项式回归在回归问题中占特殊的地位,因为任何函数至少在一个比较小的邻域内可用多项式任意逼近,因此通常在比较复杂的实际问题中,可以不问与诸因素的确切关系如何,而用多项式回归(当然首先应试用最简单的一次多项式即线性回归)进行分析和计算如果一个回归,它的自变量指数超过1,则称为多项式回归。可以用公式表示:y = a + b * x^2在这个回归技术中,最适的线不是一条直线,而是一条曲线。重点:1.很多情况下,我们为了降低误差,经常会抵制不了使用多项式回归的诱惑,但事实是,我们经常会造成过拟合。所以要经常的把数据可视化,观察数据与模型的拟合程度。2.特别是要看曲线的结尾部分,看它的形状和趋势是否有意义。高的多项式往往会产生特别古怪的预测值。4.逐步回归? ? ? 当我们要处理多个自变量时,我们就需要这个回归方法。在这个方法中选择变量都是通过自动过程实现的,不需要人的干预。? ? ? 这个工程是通过观察统计值,比如判定系数,t值和最小信息准则等去筛选变量。逐步回归变量一般是基于特定的标准加入或移除变量来拟合回归模型。一些常用的逐步回归方法如下:1.标准逐步回归做两件事情。只要是需要每一步它都会添加或移除一些变量。2.前进法是开始于最显著的变量然后在模型中逐渐增加次显著变量。3.后退法是开始于所有变量,然后逐渐移除一些不显著变量。4.这个模型技术的目的是为了用最少的变量去最大化模型的预测能力。它也是一种降维技术。5.岭回归? ? ? 当碰到数据有多重共线性时,我们就会用到岭回归。所谓多重共线性,简单的说就是自变量之间有高度相关关系。在多重共线性中,即使是最小二乘法是无偏的,它们的方差也会很大。通过在回归中加入一些偏差,岭回归酒会减少标准误差。? ? ?‘

文档评论(0)

guojiahao8 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档