- 1、本文档共103页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
长期以来,保障性住房一直是人们关注的重大民生问题,国家坚持房住不炒
政策来保障房产市场健康平稳发展。本文基于天津市二手房市场调研,发现各房
产中介系统信息参差不齐,容易在交易过程中产生信息差,对购房者造成经济损
失。为了避免此类问题发生,本文通过统计学的方法论结合实际市场情况,对二
手房价格构成因素进行统计分析,最终通过集成模型的方式,实现天津市二手房
成交价格的预测,使二手房价格评估更加科学、规范、合理,对购房者科学选购
更有实际指导意义。
首先,数据来源。通过线下对房产中介公司的走访和调研,发现贝壳和链家
两家公司的服务和专业程度较好,被业内认可度高,业务覆盖广泛。线上通过对
比安居客,幸福里,房天下,链家等大型中介系统平台,发现链家网信息最全最
完整,因此本文选择天津链家二手房网上数据,作为分析建模的基础数据来源。
其次,指标数据处理和分析。因爬取的数据格式多种多样,先是使用SparkSql
的技术手段对爬取的数据进行数据清洗工作,使其符合指标的标准化格式。接着
是对指标数据进行系统化分析,分析中发现,房屋成交价格和建筑面积,挂牌价
格,房屋户型,地理位置,教育情况等有显著的线性关系。
再次,特征选取和算法建模。先是通过特征重要程度比较,选取相关度大的
指标作为数据建模的特征变量。然后使用多元线性回归,XGBoost,LightGBM,
随机森林算法建模,得到训练结果和预测结果,根据MAE等评价标准,发现独
立模型qbLightGBM效果较好,但不够稳定。经过调研,最终本文使用集成模型
将所有独立模型统一集成,实践证明集成模型预测效果较好,表现稳定性更好。
最后,对研究结论进行总结。经过模型预测比较验证,集成模型泛化能力强,
对新数据解释效果较好,对购房者科学选购有指导意义。同时根据分析发现房产
市场的平稳发展有市场因素也有政策因素。需要政府机构对发展不均衡的区域进
行资源倾斜,使各区均衡发展;需要房产中介推动系统信息标准化,引导售房者
合理定价。需要消费者充分调研合理选择,避免造成经济损失。
关键词:数据爬取;数据挖掘;房产价格预测
ABSTRACT
Forahasbeenalivelihoodissueof
longtime,indemnificatoryhousingmajor
concerntostateadherestotheofinto
people.Thepolicynon-speculationhousing
ensuretheandstableoftherealestatemarket.Basedonthe
healthydevelopment
inthesisfindsthatthe
ofthesecond—handmarket
surveyhousingTianjin,this
informationofvariousrealestateisisto
uneven,which
intermediarysystemseasy
thelossesto
causeinformationdifferenceintransactioneconomic
process,causing
theordertoavoidtheoccurrenceofsuchthesisusesthe
buye
文档评论(0)