基于大数据hadoop平台的出租车载客热点区域挖掘研究详解.ppt

基于大数据hadoop平台的出租车载客热点区域挖掘研究详解.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于大数据hadoop平台的出租车载客热点区域挖掘研究详解

基于大数据Hadoop平台的出租车载客热点区域挖掘研究 北京交通大学 硕士论文 2016 数据挖掘的过程及主要功能 关联分析 自动预测趋势和行为 聚类分析 概念描述 偏差检测 分类 时间序列分析 关键词: 出租车;大数据;Hadoop;载客热点;并行K-Means聚类 主要工作: 搭建Hadoop实验平台 出租车数据预处理 基于Hadoop平台的K-Means聚类算法并行化实现 利用ArcGIS实现载客热点的可视化 出租车大数据的预处理 采集时长:1年 采集地点:北京市 数据源格式:.txt 数据大小:500G 出租车数量:1.4万采集间隔:1min 出租车原始数据清洗过程 将数据上传到HDFS中存储后,就可以设计基于Hadoop集群的MapReduce程序完成数据的清洗工作。 1)重复数据 利用MapReduce默认的Map端key值整合功能达到去重的目的。 2)出租车无关属性 出租车原始数据清洗过程 去除触发事件、速度、方向角以及运营状态为0的对挖掘结果没有影响的属性。 3)GPS状态异常及错误 出租车原始数据清洗过程 GPS状态:0(异常);1(正常) 4)出租车坐标处于非北京的记录 出租车原始数据清洗过程 整个北京市的经纬度坐标范围为东经115.25~117.30,北纬39.26~41.03。 4)记录中重要属性项缺失 出租车原始数据清洗过程 该条记录中所有重要属性项均为0; 有车牌号、时间等次要的属性项; 重要属性经纬度值坐标为零。 总结: 出租车原始数据清洗过程 MapReduce框架进行清洗时主要集中在Map端,首先将出租车记录作为Map阶段的输出的key值,然后利用判断语句选择出这些异常出租车数据记录或者记录中不相关的属性进行删除,最后在Reduce端将Map阶段处理后的数据原样输出到HDFS即可得到所需清洗的结果。 出租车数据二次排序处理 二次排序处理框图 出租车数据二次排序处理 车辆编号 标志位 时间 经度 纬度 001140 0 20120101002929 116.4550858 39.8942146 001140 1 20120101002947 116.4550323 39.8925667 001140 1 20120101003042 116.4478836 39.8921928 …… 001141 0 20120102025026 116.2915344 39.9258461 001141 0 20120101025121 116.2915497 39.9258461 001141 1 20120101025215 116.2915497 39.9258385 聚类算法 聚类是将数据分类到不同的类或者簇这样的一个过程,同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 K-Means聚类算法基本思想 算法首先随机选择K个对象,每个对象初始代表一个簇的平均值或者中心。对于剩余的每个对象,根据其到各个簇中心的距离,把他们分给距离最小的簇中心,然后重新计算每个簇的平均值即簇的中心值。重复这个过程,直到簇的中心收敛为止。 基于Hadoop平台的热点区域挖掘 并行化的 K-Means聚类算法 颜色 热度 热度状态 0.02000-0.02741 高热度 0.01000-0.01999 中热度 0.00009-0.00999 低热度 利用ArcGIS软件实现载客热点的区域可视化 数据挖掘的的整个过程粗略的可以分为数据的选择和集成、数据的清洗和预处理、数据的转换、挖掘算法的选择、模式评估及知识表示。 通过数据挖掘过程,我们就可以从数据库中发现隐藏的、有意义的知识,它的主要功能有: * 1)在实验条件下搭建Hadoop集群实验平台; 2)设计基于Hadoop的MapReduce计算框架处理程序对出租车数据进行预处理(清洗、二次排序、经纬度提取等); 3)设计基于MapReduce计算框架,适合大量出租车载客热进行聚类挖掘的并行K-Means聚类算法 * 因为要在hadoop集群上处理这些出租车数据,就要必须先将出租车数据长传到Hadoop集群上的HDFS上去,然后利用hadoop平台对异常数据进行清洗处理,最后为了获取出租车载客时的经纬度坐标,就对清洗之后的数据按时间和车牌号进行排序 。 * 利用基于Hadoop平台的MapReduce计算框架设计的能在集群平台上并行化的K-Means聚类算法,对出租车的载客点进行聚类挖掘载客热点区域。 * 为方便有效的观察出租车载客热点区域的位置信息及分布情况,利用了ArcGIS软件实现了载客热点区域的可视化。 * 数据挖掘的的整个过程粗略的可以分为数据的选择和集成、数据的清洗

您可能关注的文档

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档