大数据挖掘导论与案例课件-第9章 案例分析.pptx

大数据挖掘导论与案例课件-第9章 案例分析.pptx

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章绪论第2章数据分析与可视化技术第3章认识数据第4章数据预处理第5章分类概念与方法第6章关联分析概念与方法第7章聚类分析概念与方法第8章大数据挖掘关键技术第9章案例分析

第9章案例分析大数据挖掘导论与案例

学习目标/Target通过购物篮分析实例,掌握通过机票航班延误预测实例、购物篮分析实例、航空公司客户价值分析实例的学习,掌握数据挖掘标准过程模型的流程,掌握分析问题的角度和方法,掌握数据预处理方法,掌握分类模型、关联分析模型、聚类模型的训练和评估方法,领会具体问题具体分析的重要性。

目录/Contents010203机票航班延误预测零售行业购物篮分析航空公司客户价值分析

机票航班延误预测9.1

9.1.1应用背景与目标航空业持续遭受航班延误带来的经济损失,根据美国运输统计局(BTS)的数据显示,2018年美国航班延误20%以上,这些航班延误对美国造成了相当于每年407亿美元的经济影响。欧美及ICAO/CANSO等地区/国际组织认定航班实际起飞时间晚于计划起飞时间15分钟以上为延误航班。航班延误在很多情况下由不可抗力所致(如恶劣天气),航班的延误还会出现连锁反映,影响航班的后续运行,所以针对航班延误不仅要从源头上减少延误的可能,更需要实施航班延误预测,实现在发生大面积延误前,完成对航班未来延误情况的有效评估。对航班延误情况进行预测和分析,对于旅客、航空公司、机场和机票预定平台都具有十分重要的意义,而且能够提前收到航班延误通知,进而合理计划自己的行程对于旅客而言也很重要。

9.1.2数据探索与理解importpandasaspd

frompandas_profilingimportProfileReport

importglob

importos

defgetdata():

fordirname,_,filenamesinos.walk(.\input):

forfilenameinfilenames:

print(os.path.join(dirname,filename))图9.1数据集中的文件从/网站下载historical-flight-and-weather-data数据集,包含了2019年5月至2019年12月的历史航班延误数据和美国气象数据,数据集中每个月的数据为一个文件,共有8个文件。定义ExploratoryAnalysis.py文件,加载数据,并对数据进行探索和理解。

9.1.2数据探索与理解df=pd.concat([pd.read_csv(f)forfinglob.glob(.\input\*.csv)])

print(df.head())print(df.shape)图9.2数据集示例在getdata()方法中使用glob读取8个文件,因文件中的数据格式全部相同,每个文件中都有35列,使用concat将文件合并为一个DataFrame,作为原始样本,共有5512903个样本,每个样本有35个特征。

9.1.2数据探索与理解profile=ProfileReport(df)

profile.to_file(.\output\Report.html’)returndf图9.3数据集概述数据集中共有36个特征,比原始数据集中的35特征多出的是索引index,共计5512903条记录,数据集的缺失率较低,只有0.1%,且缺失数据在计划起飞时间和计划到达时间特征中,23个特征为数值类型,10个特征为类别,3个特征被定义为拒绝使用的特征,这3个特征分别是day、year和arrival_delay,其中day与索引index的相关性达到0.99839,而到达延误arrival_delay与出发延误departure_delay的相关性达到0.92068,所以day或index、arrival_delay或departure_delay两组特征可以分别选择其一来训练模型,出发年份year全部为2019年,没有实际价值。

9.1.2数据探索与理解(a)HourlyDryBulbTemperature_x图(a)是对温度HourlyDryBulbTemperature_x的分位数和描述性统计,分位数统计中最大值为125、最小值为0,中位数为71,Q1值为35,Q3为值81,从分位数统计中可以看出特征值分布较均匀,也没有异常值,从描述性统计中可以看出,特征H

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档