- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
回归分析03RegressionAnalysis
3.1回归分析概述回归分析是在众多的相关变量中根据实际问题考察其中一个或多个目标变量(因变量)与其影响因素(自变量)之间相互依赖的定量关系的一种方法。通常事物的特征可用多个变量进行描述。回归分析的公式可以表示为:例如,能源消费量受经济、人口和科技发展等因素影响,这些因素包括GDP指标、人口规模、科技投入指标等。当对这一问题进行回归分析时,将能源消费量称为因变量(或目标变量),称为自变量,为自变量的维度,回归分析的目标是利用历史数据找出函数表示它们之间的关系,以预测未来能源消费量的情况。在大数据分析中,习惯上将这些自变量称为特征(Feature),因变量则称为标签(Label)。如果只需考察一个变量与其余多个变量之间的相互依赖关系,则称为一元回归问题。若要同时考察多个因变量与多个自变量之间的相互依赖关系,则称为多因变量的多元回归问题。(3-1)
3.1回归分析概述回归分析的分类标准多样,按照不同的分类标准,可以分成不同的种类。按照涉及自变量的数量,回归分析可以分为一元回归分析和多元回归分析,只有一个自变量的称为一元回归分析(又称简单回归分析),有两个或两个以上自变量的称为多元回归分析(又称复回归分析)。按照涉及因变量的数量,回归分析可以分为简单回归分析和多重回归分析。按照自变量和因变量之间的关系类型,回归分析可以分为线性回归分析和非线性回归分析。基本过程
3.2线性回归线性回归(LinearRegression)是利用称为线性回归方程的最小平方函数对一个或多个因变量和自变量之间关系进行建模的一种回归分析方法,这种函数是一个或多个称为回归系数的模型参数的线性组合。只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示包括两个或两个以上的自变量,且因变量和自变量之间是线性关系线性回归分析是一种统计分析方法,用于了解两个变量之间的相关性,以及一个变量随另一个变量变化的趋势。
3.2线性回归线性模型(GeneralLinearModels,GLM)并不是一个具体的模型,而是多种统计模型的统称,其中包含线性回归模型、方差分析模型等。线性模型可以表示为:式中,是一个因变量的观测集合;是一个自变量的观测集合;是待估计的参数矩阵;是误差矩阵或随机扰动项,又叫噪声(Noise)。一元线性回归模型可以写为:多元线性回归模型又称多重线性回归模型。其数学模型可以写为:线性回归模型需要假设因变量关于自变量的条件期望存在线性关系,即:(3-2)(3-3)(3-4)(3-5)假设中的和是未知的,称为回归系数。为了检验这个假设,需要利用样本数据估计出和,将它们的估计值记为和,由此得出的相应因变量的估计值为,这样式(3-5)就变为:(3-6)
回归分析概述统计学中估计回归系数的一种方法是最小二乘法(LeastSquareMethod,LSE),为了与广义最小二乘法相区别,也称之为普通最小二乘法(OrdinaryLeastSquare,OLS)。如果回归方程对样本拟合得较好,能较好地反映客观规律,那么真实值和回归值的“距离”会较小。真实值和回归值的“距离”可以采用误差平方和表示。机器学习中使用线性回归模型进行预测时,需要使得理论值与观测值之差(误差,或者说残差)的平方和达到最小,这个误差称为均方误差(MeanSquareError,MSE),表示为:均方误差是反映估计量与被估计量之间差异程度的一种度量,在机器学习中称为损失函数(LossFunction)。机器学习中通过不断迭代使得均方误差不断降低,从而逼近最优解。式中,是因变量观测值的样本;是预测值;是均方误差。(3-7)
3.3非线性回归非线性回归指因变量与自变量的关系不是一次函数,而是更复杂的非线性函数,适用于描述非线性关联的数据。非线性回归类型广义非线性回归:可通过变量变换转换为线性回归,也称非纯非线性回归。狭义非线性回归:无论如何变换都无法转换为线性回归,即纯非线性回归。广义非线性回归可简化计算,而狭义非线性回归通常需更复杂的优化方法求解。
3.3非线性回归非线性回归问题大多数可以转变为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其转变为线性回归模型来求解。一般步骤为:例如,全球煤炭消费量随时间的变化并不是线性的,因此若选取日期作为自变量,则不适合使用线性回归模型,非线性回归模型更为适用。全球煤炭消费量随时间的变化曲线拟合如图3-1所示。图3-1全球煤炭消费量随时间的变化曲线拟合
3.3非线性回归1多项式模型多
文档评论(0)