基于城市共享单车流动大数据下停放点设置与投放数量研究.docx

基于城市共享单车流动大数据下停放点设置与投放数量研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于城市共享单车流动大数据下停放点设置与投放数量研究

?

?

刘江涛

摘要:针对共享单车风靡各大城市,给人们带来了出行方便,但也带来乱停放、废弃车辆占道堆积的城市治理难题。因此,我们组决定以共享单车为基础,借助云计算和大数据平台,进一步对大数据经济模式下共享单车使用情况进行分析,利用Python软件,运用K-Means聚类算法和建立PERT网络图计算安置单车数量。让共享单车成为我们生活出行便利工具,达到实时路况分析,出行道路最优化设计。

关键词:数据挖掘;K-means聚类算法;PERT网络图

0.???引言

近年来,我国的共享经济行业蓬勃发展,正成为推动国民经济快速和可持续增长的巨大引擎。其中,共享单车更是风靡各大城市,但也带来乱停放、废弃车辆占道堆积的城市治理难题,且安置十分不规律在管理上浪费大量资金[1]。但是,共享单车的用户数量却年年上升,必将面临更加严重的管理问题,如何安置共享单车流动大数据下停放点设置与投放数量成为目前迫在眉睫的问题[2][3]。因此,K-Means聚类算法和建立PERT网络图应用研究共享单车流动大数据下停放点设置与投放数量是十分具有意义的[4]。

1.???数据的获取与处理

1.1?数据的获取

本文的数据来源于天池平台数据实验室,由3月12日到6月18日的共享单车在线运行数据中抽取的用户使用数据构成。原始的数据集共10231条共享单车用户操作记录,包括起始位置,骑行时间、路线,终止位置等信息,涉及到5432个用户和8916个行驶路线,用户数据经过脱敏且真实可靠。

1.2?数据的处理

在对数据的清洗过程中,发现存在只有点击行为且点击次数很多的用户,推测为爬虫用户,属于噪声数据,予以剔除,具体为点击次数大于200且无移动,支付行为。清洗后的数据集包括9843个用户的操作记录。

2.???基于K-means聚类算法构建共享单车区块

2.1?研究思路

基于哈啰单车在线运行数据中抽取的用户行为数据样本,结合业务逻辑从海量样本数据集中提取量化指标,运用Python数据挖掘软件、K-Means聚类分析数据挖掘方法进行多次聚类分析,采用wss方法得出各个方面最佳的聚类数K,实现哈啰单车的区间划分。

2.2?哈啰用户位置特征提取

基于大量数据提取所有用户的经度(CLi)和纬度(PAi)的位置数据。

2.3?模型原理

对于多维数据集,K-means聚类算法确定K个中心点,将每个数据点分配到离它最近的中心点,将数据集划分为K个类簇,分配原则为使数据点到其指定的聚类中心的的平方的总和即

最小,然后重新计算每类中的点到该类中心点距离的平均值,继续分配每个数据到它最近的中心点直到所有数据点不再被分配或是达到最大的迭代次数。

2.4?采用wss方法获取K值图

以和作为聚类指标,基于K-means聚类分析过程,采用wss方法获取最佳K值,运用R软件作出组内平方误差和——拐点图。

从图1看出,当K值大于等于4时,随着K值的增大,类中总的平方值对聚类数量的曲线趋于平缓,说明K值越大,其簇内差异(Inertia)指标是越来越小的。即当K值为样本量时,Inertia指标是可以取到0,这并不代表模型的效果越来越好了。

2.5?轮廓系数获取最佳值K

样本与其自身所在的簇中的其他样本的相似度a,等于样本与同一簇中所有其他点之间的平均离;样本与其他簇中的样本的相似度b,等于样本与下一个最近的簇中的所有点之间的平均距离。根据聚类的要求”簇内差异小,簇外差异大“,我们希望b永远大于a,并且大得越多越好。

样本的轮廓系数计算为:

很容易理解轮廓系数范围是(-1,1),其中值越接近1表示样本与自己所在的簇中的样本很相似,并且与其他簇中的样本不相似,当样本点与簇外的样本更相似的时候,轮廓系数就为负。当轮廓系数为0时,则代表两个簇中的样本相似度一致,两个簇本应该是一个簇。可以总结为轮廓系数越接近于1越好,负数则表示聚类效果非常差。如果一个簇中的大多数样本具有比较高的轮廓系数,则簇会有较高的总轮廓系数,则整个数据集的平均轮廓系数越高,则聚类是合适的。如果许多样本点具有低轮廓系数甚至负值,则聚类是不合适的,聚类的超参数K可能设定得太大或者太小。运用Python软件进行K-means聚类分析,得出聚类结果表1运用Python软件進行K-means聚类分析,得出聚类结果表1。

从表1可以看出,随着K的增大,指标一直在不断的变小,总组内平方误差和在一直减小,但是轮廓系数也在一直减小,即在增加K值时,通过总组内平方误差和是无法判断K的取值。在通过轮廓系数的下降率与总组内平方误差和的下降率的比较,选择K=4时,是聚类质心的最佳值。

2.5?K取值分析

从图2可以看出,数据集被分为4簇,即全体用户被分为4类

文档评论(0)

周澈 + 关注
实名认证
内容提供者

天堂湖

1亿VIP精品文档

相关文档