大数据分析方法与应用 课件 第3、4章 回归分析、 聚类算法.pptx

大数据分析方法与应用 课件 第3、4章 回归分析、 聚类算法.pptx

  1. 1、本文档共110页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据分析方法与应用第3章回归分析

3.1线性和非线性回归目录CONTENTS3.2多元回归3.3岭回归3.4LASSO回归第3章回归分析

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现“回归”一词的英文是Regression,统计学上的“相关”和“回归”的概念是高尔顿第一次使用。一些变量之间存在相关关系。如果能建立这些相关关系的数量表达式,就可以根据一个变量的值来预测另一个变量的变化。如果随机变量y与变量间具有统计关系,那么每当取定值之后,y便有相应的概率分布与之对应。其概率模型为:其中y称为因变量,x1,x2,x3,…,xn称为自变量。y由两部分组成,一部分是由x1,x2,x3,…,xn能够决定的部分,记为f(x1,x2,x3,…,xn);另一部分由众多未加考虑的因素(包括随机因素)所产生的影响,它被看成随机误差,记为ε。f(x1,x2,x3,…,xn)称为y对x1,x2,x3,…,xn的回归函数。

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现当模型中的回归函数为线性函数时,即:,为线性回归模型。当模型中的回归函数为非线性函数时,为非线性回归模型。常见的非线性回归模型包括:1)多项式回归;2)指数回归;3)对数回归;4)幂函数回归;5)Sigmoid函数回归;6)非线性混合效应模型。

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现当模型中只有一个自变量时,为简单的一元线性回归,其中X是自变量,Y是因变量。β0表示截距,是自变量X等于0时,因变量Y的值。??1表示斜率,表示自变量X每增加1,因变量Y增加的数值。ε表示误差。回归方程可以表示为:

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现如表所示为某市用电量指标统计,在Excel中绘制散点图,添加趋势线,显示回归方程和相关系数,具体操作步骤如下:

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现1)在数据中,选择“GDP”和“年用电量”。

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现2)插入“散点图”,操作如图所示。

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现3)单击菜单“设计”,选择“图表布局”,输入图表和坐标轴标题,如图所示。

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现4)右键单击散点图,选择“添加趋势线”,如图所示。

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现5)在“趋势线选项”中选择“线性”,“显示公式”和显示R平方值,单击“关闭”,操作如图所示。

3.1线性和非线性回归3.1.1线性回归及其Excel中的实现6)完成散点图添加趋势线的简单一元回归,结果如图所示。

3.1线性和非线性回归3.1.2最小二乘回归最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。对于回归直线,关键在于求解参数,常用的就是最小二乘法,它是使因变量的观察值与估计值之间的残差平方和达到最小来求解,残差平方和为:

3.1线性和非线性回归3.1.2最小二乘回归上述方程中对系数β0,β1偏导,并使导数等于0,可得

3.1线性和非线性回归3.1.2最小二乘回归因变量观察值yi和观察值的均值的差的平方和称为总平方和SST。总平方和可以分解为回归平方和、残差平方和:SST=SSR+SSE。判定系数R2=SSR/SST表示因变量总差异中可以由回归解释的比例,1-R2=SSE/SST表示残差平方和占总平方和的比例。R2越接近1,回归的相关性越好。

3.1线性和非线性回归3.1.3非线性回归及其Excel中的实现在实际问题中,很多情况下因变量与自变量之间的关系不是线性的,而是呈现出曲线、指数、对数等非线性形式。非线性回归是一种统计建模方法,用于建立自变量和因变量之间非线

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档