网站大量收购独家精品文档,联系QQ:2885784924

基于数据挖掘算法的天津市二手房价格预测研究.pdf

基于数据挖掘算法的天津市二手房价格预测研究.pdf

  1. 1、本文档共103页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

长期以来,保障性住房一直是人们关注的重大民生问题,国家坚持房住不炒

政策来保障房产市场健康平稳发展。本文基于天津市二手房市场调研,发现各房

产中介系统信息参差不齐,容易在交易过程中产生信息差,对购房者造成经济损

失。为了避免此类问题发生,本文通过统计学的方法论结合实际市场情况,对二

手房价格构成因素进行统计分析,最终通过集成模型的方式,实现天津市二手房

成交价格的预测,使二手房价格评估更加科学、规范、合理,对购房者科学选购

更有实际指导意义。

首先,数据来源。通过线下对房产中介公司的走访和调研,发现贝壳和链家

两家公司的服务和专业程度较好,被业内认可度高,业务覆盖广泛。线上通过对

比安居客,幸福里,房天下,链家等大型中介系统平台,发现链家网信息最全最

完整,因此本文选择天津链家二手房网上数据,作为分析建模的基础数据来源。

其次,指标数据处理和分析。因爬取的数据格式多种多样,先是使用SparkSql

的技术手段对爬取的数据进行数据清洗工作,使其符合指标的标准化格式。接着

是对指标数据进行系统化分析,分析中发现,房屋成交价格和建筑面积,挂牌价

格,房屋户型,地理位置,教育情况等有显著的线性关系。

再次,特征选取和算法建模。先是通过特征重要程度比较,选取相关度大的

指标作为数据建模的特征变量。然后使用多元线性回归,XGBoost,LightGBM,

随机森林算法建模,得到训练结果和预测结果,根据MAE等评价标准,发现独

立模型qbLightGBM效果较好,但不够稳定。经过调研,最终本文使用集成模型

将所有独立模型统一集成,实践证明集成模型预测效果较好,表现稳定性更好。

最后,对研究结论进行总结。经过模型预测比较验证,集成模型泛化能力强,

对新数据解释效果较好,对购房者科学选购有指导意义。同时根据分析发现房产

市场的平稳发展有市场因素也有政策因素。需要政府机构对发展不均衡的区域进

行资源倾斜,使各区均衡发展;需要房产中介推动系统信息标准化,引导售房者

合理定价。需要消费者充分调研合理选择,避免造成经济损失。

关键词:数据爬取;数据挖掘;房产价格预测

ABSTRACT

Forahasbeenalivelihoodissueof

longtime,indemnificatoryhousingmajor

concerntostateadherestotheofinto

people.Thepolicynon-speculationhousing

ensuretheandstableoftherealestatemarket.Basedonthe

healthydevelopment

inthesisfindsthatthe

ofthesecond—handmarket

surveyhousingTianjin,this

informationofvariousrealestateisisto

uneven,which

intermediarysystemseasy

thelossesto

causeinformationdifferenceintransactioneconomic

process,causing

theordertoavoidtheoccurrenceofsuchthesisusesthe

buye

文档评论(0)

dongbuzhihui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档