- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基干出租车GPS大数据城市交通状况实时探析
基于出租车GPS大数据的城市交通状况实时分析 摘 要:基于电子地图的路况实时预测在交通管理中起着非常重要的作用。本文提出了一种基于出租车大数据和生成式学习算法使用历史出租车GPS数据预测事实车速并与真实事实车速进行比较,从而实现城市交通状况实时分析的思路,并探讨其在MapReduce模型下的实现
关键词:大数据;生成式学习算法;MapReduce
一、引言
智能交通系统是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。智能交通可以有效地利用现有交通设施、减少交通负荷和环境污染、保证交通安全、提高运输效率,因而,日益受到各国的重视
本文提出了一种基于出租车大数据和生成式学习算法使用历史出租车GPS数据进行城市交通状况实时分析的思路,并简略的讨论了用MapReduce编程模型实现模型的方法
本文首先对提出方法的大体思路进行简单介绍,其次对算法的详细设计进行探讨,再次探讨本文提出的方法在MapReduce编程模型下的实现。最后对本文的工作做出总结
二、基本思路
针对出租车GPS数据集的特点设计生成式学习算法,并使用历史数据对算法进行训练。使用训练得到的生成式学习算法,根据实时数据中除去车速以外的部分对车速进行预测,并将预测值与实际车速进行对比,依此对交通拥堵状况做出判断(如果某区域大部分出租汽车的实际车速明显低于生成式学习算法基于历史数据得出的预测车速,则认为这个区域此时刻的交通状况比较拥堵)。整体设计流程如图1
二、算法详细设计
(一)原始数据集
本文所用数据均来自数据堂的独家数据,包括北京市12000辆出租车在2012年11月所产生的所有GPS数据。完整全面地记录了该市出租车的移动轨迹。数据格式如下:
数据以ASCII文本表示,以逗号为分隔符,以回车换行符(0x0D 0x0A)结尾。数据项及顺序:车辆标识、触发事件、运营状态、GPS时间、GPS经度、GPS纬度、GPS速度、GPS方向、GPS状态。数据示例:
164577,4,0,20121101095638,116.4711838,39.7105064,10,328,1
127415,4,0,20121101095638,116.4567719,40.0033951,28,204,1
(二)数据预处理
以样本数据集为例。样本数据集中共有20200条记录:
key的选择:
在所有记录中GPS状态的值均为1(有效),对速度预测没有帮助。综合考虑GPS经度和GPS纬度,将二者映射到一个新的属性(GPS位置)。所以算法考虑的作为输入的属性有车辆标识、触发事件、运营状态、GPS时间、GPS位置、GPS方向。算法将GPS速度作为输出
其中,GPS速度,GPS位置的取值为连续变化的量,而GPS时间、GPS方向的取值虽然是离散的,但是取值可能过多。所以对以上四个属性进行分箱
综上所述,作为算法输入的所有属性及其取值分别是:
(五)基于MapReduce的程序设计
原始出租车GPS数据集大小压缩后为15.1G,压缩前50G左右。虽然历史数据的分析阶段没有实时性的要求,然而考虑到数据量的庞大,这对单台计算机来说依然是十分艰巨的任务。而采用MapReduce思想对算法进行实现可以分布式处理的优势较快、较轻松的完成历史数据的分析工作。而历史数据分析完成后,利用该阶段学习得到的参数进行实时分析时,由于计算量较小,采用分布式计算带来的调度和通信上的开销甚至可能会使它的优势显得微不足道。所以此阶段可以采用集中式处理的方法
历史数据分析阶段的计算特点十分适合使用MapReduce的思想进行程序设计。以p(Y)为例:
Map:假设完整数据集中共有N条记录,共有j个map处理器。则可将完整数据集分成j个子集。每个子集包含N/j条记录。所有map处理器对数据进行并行处理。map阶段结束后,共输出N条(Y,1)记录。其中Y∈{Y1,Y2,…,Yn}
Shuffle:将map步得到的N条(Y,1)记录依照Y的值分配给n个Reduce处理器(假设Y共有n个取值)
Reduce:每个Reduce处理器进行并行处理。最终输出n条(Y,C)记录。其中C代表每个Y取值在数据集中出现的次数
其他属性的计算可以使用同样的方法进行处理
(作者单位:山东科技大学)
参考文献:
[1] 李小菁.基于GPS系统的城市交通状况实时检测与预测研究[D].中国海洋大学,2004.
[2] 王夷.城市路网实时状态研究[D]
文档评论(0)