- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于大数据Hadoop平台的出租车载客热点区域挖掘研究北京交通大学硕士论文2016
数据挖掘的过程及主要功能关联分析自动预测趋势和行为聚类分析概念描述偏差检测分类时间序列分析
关键词:出租车;大数据;Hadoop;载客热点;并行K-Means聚类主要工作:搭建Hadoop实验平台出租车数据预处理基于Hadoop平台的K-Means聚类算法并行化实现利用ArcGIS实现载客热点的可视化
出租车大数据的预处理采集时长:1年采集地点:北京市数据源格式:.txt数据大小:500G出租车数量:1.4万采集间隔:1min
出租车原始数据清洗过程将数据上传到HDFS中存储后,就可以设计基于Hadoop集群的MapReduce程序完成数据的清洗工作。1)重复数据利用MapReduce默认的Map端key值整合功能到达去重的目的。
2〕出租车无关属性出租车原始数据清洗过程去除触发事件、速度、方向角以及运营状态为0的对挖掘结果没有影响的属性。
3〕GPS状态异常及错误出租车原始数据清洗过程GPS状态:0〔异常〕;1〔正常〕
4〕出租车坐标处于非北京的记录出租车原始数据清洗过程整个北京市的经纬度坐标范围为东经115.25~117.30,北纬39.26~41.03。
4〕记录中重要属性项缺失出租车原始数据清洗过程该条记录中所有重要属性项均为0;有车牌号、时间等次要的属性项;重要属性经纬度值坐标为零。
总结:出租车原始数据清洗过程MapReduce框架进行清洗时主要集中在Map端,首先将出租车记录作为Map阶段的输出的key值,然后利用判断语句选择出这些异常出租车数据记录或者记录中不相关的属性进行删除,最后在Reduce端将Map阶段处理后的数据原样输出到HDFS即可得到所需清洗的结果。
出租车数据二次排序处理二次排序处理框图
出租车数据二次排序处理车辆编号标志位时间经度纬度001140020120101002929116.455085839.8942146001140120120101002947116.455032339.8925667001140120120101003042116.447883639.8921928……001141020120102025026116.291534439.9258461001141020120101025121116.291549739.9258461001141120120101025215116.291549739.9258385
聚类算法 聚类是将数据分类到不同的类或者簇这样的一个过程,同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
K-Means聚类算法根本思想算法首先随机选择K个对象,每个对象初始代表一个簇的平均值或者中心。对于剩余的每个对象,根据其到各个簇中心的距离,把他们分给距离最小的簇中心,然后重新计算每个簇的平均值即簇的中心值。重复这个过程,直到簇的中心收敛为止。
基于Hadoop平台的热点区域挖掘并行化的K-Means聚类算法
颜色热度热度状态0.02000-0.02741高热度0.01000-0.01999中热度0.00009-0.00999低热度利用ArcGIS软件实现载客热点的区域可视化
文档评论(0)