(1.1.7)--kaggle房价预测数据挖掘数据挖掘.ppt

(1.1.7)--kaggle房价预测数据挖掘数据挖掘.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

HousePrices:AdvancedRegressionTechniques房价预测Kaggle

目录Addyourtitl题介绍求解思路实验过程实验结果

01赛题介绍

题目来源——Kaggle赛题介绍——题目来源

预测结果评估方法:RMSE值[均方根误差]采用对数使得错误预测昂贵房价和错误预测便宜房价对最终结果产生等同的影响已知:训练集的房屋价格未知:测试集的房屋价格预测房屋价格赛题介绍——题目内容

train.csv训练集:1460条数据,81个字段测试集:1459条数据,80个字段test.csv提交数据样例:1459条数据,2个字段sample_submission.csv赛题介绍——题目数据

train.csv字段IdMSSubClassMSZoningLotArea......SaleConditionSalePrice含义编号建筑类别常规分区类别平方英尺大小......销售条件销售价格(美元)共81个字段,其中“SalePrice”为”房屋价格“赛题介绍——题目数据

02求解思路

求解思路

03详细过程

导入相关包读入训练集、测试集数据3.1准备工作删除id特征

3.2数据可视化a.日期越新,价格稍高;b.存在个别房屋越久越贵;c.日期与房屋价格没有特别显著关系(1)例:YearBuilt-SalePrice建成日期-房价

3.2数据可视化(2)离群点(GrLivArea-SalePrice地面上居住面积-房价)离群点处理:删除离群点

3.2数据可视化(3)SalePrice分布情况SalePrice的分布呈右倾斜,需转化转化:用log(1+x)对SalePrice进行转化

缺失值统计统计各字段缺失值情况3.3缺失值处理共35个字段存在缺失值,缺失值个数从1至2908不等。

缺失值填充3.3缺失值处理字段填充值LotFrontageLotAreaCutNeighbor下的中值MasVnrArea0BsmtUnfSF0TotalBsmtSF0GarageCars0BsmtFinSF20BsmtFinSF10GarageArea0

缺失值填充3.3缺失值处理字段填充值PoolQCNoneMiscFeatureNoneAlleyNoneFenceNoneFireplaceQuNoneGarageQualNoneGarageCondNoneGarageFinishNoneGarageYrBltNoneGarageTypeNoneBsmtExposureNoneBsmtCondNone

缺失值填充3.3缺失值处理字段填充值BsmtQualNoneBsmtFinType2NoneBsmtFinType1NoneMasVnrTypeNoneMSZoningmode众数BsmtFullBathmode众数BsmtHalfBathmode众数Utilitiesmode众数Functionalmode众数Electricalmode众数KitchenQualmode众数SaleTypemode众数Exterior1stmode众数Exterior2ndmode众数

构造类别特征3.4特征工程MSSubClassOverallCondYrSoldMoSold转换为str型,便于编码处理标签编码LabelEncoder

one-hot编码3.4特征工程所有特征转化为one-hot编码得到预处理后的训练集、测试集

随机生成训练集、测试集3.5建模及预测定义模型评价函数拟合模型模型评分用expm1反转,因为之前做过正态处理log(1+x)

备选模型1)DecisionTreeRegressor2)LinearRegression3)RidgeCV4)LassoCV5)ElasticNetCV6)SVR7)KNeighborsRegressor8)RandomForestRegressor9)AdaBoostRegressor10)GradientBoostingRegressor11)BaggingRegressor12)ExtraTreeRegressor3.5建模及预测

模型表现3.5建模及预测模型RMSEScoreDecisionTreeRegressor16412218947382206480818471LinearRegression5864652818932192423482557RidgeCV4364143429202598635428362LassoCV15274082767660689682041761ElasticNetCV15

文档评论(0)

奉献教育1688 + 关注
实名认证
内容提供者

心有凌云志,无高不可攀!

1亿VIP精品文档

相关文档