数据挖掘与分析期中课程论文——张翠详解.doc

数据挖掘与分析期中课程论文——张翠详解.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与分析期中课程论文——张翠详解

数据挖掘与分析期中课程论文 社会消费品零售总额与城镇居 民家庭人均可支配收入分析报告 学生姓名 张 翠 学生学号 13610501111799 专 业 经济统计学 班 级 统本统计1301班 提交日期 二〇一六年五月 社会消费品零售总额与城镇居民家庭人均可支配收入分析报告 摘要:本文运用了回归分析和因子分析对社会消费品零售总额与城镇居民家庭人均可支配收入进行了分析,通过回归分析得到社会消费品零售总额与城镇居民家庭人均可支配收入的回归方程,再利用因子分析对社会消费品零售总额与城镇居民家庭人均可支配收入检验变量间的关系。 关键词:社会消费品零售总额、城镇居民家庭人均可支配收入、回归分析、因子分析 数 据 年份 社会消费品零售总额(亿元) 城镇居民家庭人均可支配收入(元) 1995 23613.8 4283 1996 28360.2 4838.9 1997 31252.9 5160.3 1998 33378.1 5425.1 1999 35647.9 5854 2000 39105.7 6280 2001 43055.4 6859.6 2002 48135.9 7702.8 2003 52516.3 8472.2 2004 59501 9421.6 2005 68352.6 10493 2006 79145.2 11759.5 2007 93571.6 13785.8 2008 114830.1 15780.8 2009 132678.4 17174.7 2010 156998.4 19109.4 2011 183918.6 21809.8 2012 210307 24564.7 数据来源:国家统计年鉴 2.回归分析 2.1回归分析概述 2.1.1定义 回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。 方差齐性线性关系效应累加变量无测量误差变量服从多元正态分布观察独立 模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量) 误差项独立且服从(0,1)正态分布。 现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。 研究一个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法,又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ^2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,它有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由于自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。 回归分析的主要内容为: 从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。 对这些关系式的可信程度进行检验。 在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。 利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。 在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。 回归分析研究的主要问题是: (1)确定Y与X间的定量关系表达式,这种表达式称为回归方程; (2)对求得的回归方程的可信度进行检验; (3)判断自变量X对因变量Y有无影响; (4)利用所求得的回归方程进行预测和控制。 回归分析应用相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档