网站大量收购独家精品文档,联系QQ:2885784924

基于集成学习的二手车保值率分析.pdf

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于集成学习的二手车保值率分析 摘 要 近年来,我国经济发展迅速,人民生活水平也随之提高,汽车行业在此基础上 逐步壮大。汽车保有量的增加和现代人消费观念的转变,使得二手车市场不断发展 扩大,“互联网+ ”的浪潮更是进一步打响了二手车交易的热度。本文通过爬取人人 二手车网站10847 条数据来对二手车保值率进行下面两个方面的研究:第一,对二 手车保值率进行预估,进而可对二手车进行估价使买卖双方以公平合理的价格交易, 稳定市场秩序;第二,通过探究影响二手车保值率的因素,为二手车买卖双方提供 一些建议。 本文基于集成学习技术和Python 软件建立和改进二手车保值率回归预测模型。 首先对爬取的10847 条数据进行预处理,然后使用matplotlib 和seaborn 的绘图功能 以二手车保值率为因变量,以二手车使用状况因素、外部环境因素、汽车自身因素、 专业检测情况因素为自变量对二手车数据做描述性分析,探究四个自变量所包含的 各指标与保值率之间的关系并了解其数据分布规律。 其次,将全部样本按3 :1 划分为训练集和测试集,使用训练集建立RF 、GBDT、 XGBoost 三种集成学习模型,并使用测试集的2 、均方误差 MSE 、平均绝对误差 MAE 作为指标评价模型性能。通过对其进行优化调参,使各算法建立的模型达到最 优,对三种集成学习模型的原始效果和调参优化后的效果进行对比,发现调参能有 效提升模型的预测效果,且三种集成学习模型的预测效果都有不错的表现。另外, 使用 Stacking 模型融合的方式将上述三种集成学习模型作为基模型, LinearRegression 作为元模型进行 Stacking,进一步提升了模型预测效果,体现了 Stacking 的优势。 最后,为探究二手车保值率的影响因素,将上述三种集成学习模型输出的特征 重要性程度及排名从以2为权重和以均方误差 MSE 为权重两个方面来分别输出最 终的影响因素排名,并将两种排名结果进行对比分析,探索出行驶里程、车龄、轴 距、整备质量、总异常数等与二手车保值率息息相关。 通过上述研究表明,利用集成学习技术建立的二手车保值率回归模型来探究二 手车保值率有较好的效果。 关键词:二手车保值率;集成学习;RF;GBDT ;XGBoost 目 录 摘 要 I Abstract II 第1 章绪论 1 1.1 研究背景与研究意义 1 1.1.1 研究背景 1 1.1.2 研究意义 2 1.2 国内外研究现状 3 1.2.1 关于二手车的研究现状 3 1.2.2 关于集成学习的研究现状 5 1.3 研究内容及方法 7 1.3.1 研究内容 7 1.3.2 研究方法 8 1.3.3 本文主要创新点 8 第2 章 相关理论方法概述 10 2.1 集成学习综述 10 2.2 Bagging 方法介绍 11 2.2.1 Bagging 扩展变体-随机森林 12 2.3 Boosting 方法介绍 13 2.3.1 GBDT 14 2.3.2 XGBoost 16 2.4 Bagging 与Boosting 的区别 17 2.5 Stacking 18 第3 章 指标体系建立及描述性分析 21 3.1 指标体系的建立 21 3.1.1 数据来源 21 3.1.2 指标构成 21 3.1.3 数据预处理 23 3.2 二手车数据的描述性统计分析 26 3.2.1 二手车保值率分析 26

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档