网站大量收购闲置独家精品文档,联系QQ:2885784924

Python 线性回归完整指南.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python线性回归完整指南

线性回归是一种我们可以用来理解一个或多个预测变量与响应变量之间关系的方法。

本教程介绍如何在Python中执行线性回归。

示例:Python中的线性回归

假设我们想知道学习时间和准备考试的次数是否会影响学生在某项考试中获得的分数。

为了探索这种关系,我们可以在Python中执行以下步骤来进行多元线性回归。

第1步:输入数据。

首先,我们将创建一个pandasDataFrame来保存我们的数据集:

将pandas导入为pd#创建数据

df=pd.DataFrame({小时:[1,2,2,4,2,1,5,4,2,4,4,3,6,5,3,4,6,2,1,2],

考试:[1,3,3,5,2,2,1,1,0,3,4,3,2,4,4,4,5,1,0,1],

分数:[76,78,85,88,72,69,94,94,88,92,90,75,96,90,82,85,99,83,62,76]})

#查看数据

df

小时考试成绩

01176

12378

22385

34588

42272

51269

65194

74194

82088

94392

104490

113375

126296

135490

143482

154485

166599

172183

181062

192176

步骤2:执行线性回归。

接下来,我们将使用statsmodels库中的OLS()函数来执行普通最小二乘回归,使用“小时”和“考试”作为预测变量,“分数”作为响应变量:

将statsmodels.api导入为sm#定义响应变量y=df[score]#定义预测变量x=df[[小时,考试]]#将常量添加到预测变量x=sm.add_constant(x)#拟合线性回归模型model=sm.OLS(y,x).fit()#查看模型摘要print(model.summary())

OLS回归结果

==============================================================================

部门。变量:得分R平方:0.734

型号:OLS调整型R平方:0.703

方法:最小二乘法F统计量:23.46

日期:2020年7月24日星期五概率(F统计):1.29e-05

时间:13:20:31对数似然:-60.354

观察次数:20AIC:126.7

Df残差:17BIC:129.7

DF型号:2

协方差类型:非鲁棒

==============================================================================

coefstderrtP|t|[0.0250.975]

------------------------------------------------------------------------------

常量67.67352.81624.0330.00061.73373.614

小时5.55570.8996.1790.0003.6597.453

考试-0.60170.914-0.6580.519-2.5311.327

==============================================================================

综合:0.341杜宾-沃森:1.506

概率(综合):0.843雅尔克-贝拉(JB):0.196

偏差:-0.216概率(JB):0.907

峰度:2.782条件10.8号

==============================================================================

第3步:解释结果。

以下是如何解释输出中最相关的数字:

R平方:??0.734。这称为决定系数。它是响应变量中可以由预测变量解释的方差的比例。在此示例中,73.4%的考试成绩差异可以通过学习时数和参加的准

文档评论(0)

晶方科技 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档