- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第五章数据处理和可视化表达
粤教版普通高中教科书信息技术必修1复习课件
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
章节知识图谱
数据处理与
可视化表达
认识大数据
概念
特征
互联网产生大数据的角度:大量、多样、低值密度、高速
互联网思维角度:样本渐趋于总体,精确让位于模糊,相关性重于因果
大数据存储与计算角度:分布式存储,分布式并行计算
影响:双面性
数据的采集
采集方法
系统日志采集法、网络数据采集法(网络爬虫)、其它数据采集法
存储方法
本地存储,云存储
保护措施
数据安全保护技术、数据的隐私保护方法
数据的分析
特征探索
数据预处理:发现并处理缺失值、异常数据...
关联分析
分析相关性,事物同时出现的规律和模式
聚类分析
K-means算法,物以类聚、人以群分
数据分类
分类器、贝叶斯分类技术
数据的可视化表达
1.趋势分析:柱形图、折线图
2.比例分析:圆环图、饼图、圈图
3.逻辑关系:散点图、词云图
4.空间关系:数据地图、动态热力图
Seaborn:关注统计模型的可视化,高度依赖Matplotlib
Bokeh:实现交互式可视化,可通过浏览器呈现
认识大数据
01
核心考点解析——大数据的概念
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合。
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
核心考点解析——大数据的特征
角度
特征
“4V”特征
互联网产生大数据
大量(Volume)
多样(Variety)
低价值密度(Value)
高速(Velocity)
互联网思维
样本渐趋于总体
精确让位于模糊
相关性重于因果
大数据存储与计算
分布式存储
分布式并行计算
巩固练习
案例1:某地智慧交通系统刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出租车运营数据每天产生100万条。
案例2:在抖音、小红书等APP上,用户产生的数据包括文字、图像、视频、声音、位置等
案例3:网约车为人们的出行带来极大的便利。我们只需在网约车APP上输入或者说出目的地,强大的智能系统就立刻分配订单,即时通知附近司机;借助定时定位系统,我们可以看到司机的大致位置以及预计到达时间。
案例4:城市的智慧交通大数据,需要数以万计的摄像头连续不间断的监控,大量的视频数据被保存下来,但交通事故的视频画面,有用的部分可能仅仅只有一两秒。
数据体量巨大
数据类型多种多样
数据变化速度快
数据价值密度低
核心考点解析——大数据对日常生活的影响
1.大数据使人们日常生活更为便捷:
2.大数据对人们日常生活产生的负面影响:
方便支付
方便出行
方便购物与产品推荐
方便看病与诊病。
个人信息泄露
信息伤害与诈骗
典型例题
1、从互联网产生大数据的角度来看,大数据具有的特征是(
)。
A.“4V”特征:大量(Volume)、多样(Varirty)、低价值密度(Value)、高速(Velocity)
B、样本渐趋于总体、精确让位于模糊,相关性重于因果
C、分布式存储,分布式并行计算
D、没有特征
2、项目小组在调查时,通过网络问卷收集到数据。这个步骤属于数据处理的哪个环节(
)。
A.数据收集
B.数据处理
C.数据分析
D.数据可视化
3、下列关于大数据的特征,说法正确的是(
)。
A.数据价值密度高
B.数据类型少
C.数据基本无变化
D.数据体量巨大
4、手机导航能实时提示前方路况,主要体现了大数据的()特征。
A.数据体量巨大
B.变化速度快
C.数据类型多
D.价值密度低
5、监控不间断地录制视频产生了大量的视频数据,而有用的数据可能仅有十几秒,这体现了大数据的(
)特征。
A.数据类型繁多
B.资源可共享
C.价值密度低
D.变化速度快
A
A
D
B
C
数据的采集
02
核心考点解析——数据采集的方法与工具
系统日志采集法
网络数据采集法
其他数据采集法
数据采集的基本方法:
系统日志是记录系统中硬件、软件和系统问题的信息文件。
指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息
科学研究的数据是通过科学实验的各种传感器采集
核心考点解析——网络爬虫
1.网络爬虫获取数据的流程是怎样的?
获取网页的URL(统一资源定位符)
爬取网页的内容
分析网页的内容
提取有用的数据
获取其他的URL,重复前面的步骤,直到满足停止条件
注意:网络爬虫的合法性
若采集的数据是个人使用,不违法
若采集的数据使用时涉及商
您可能关注的文档
- 第3課 ここはデパートです 语法 课件新版标准日本语初级上册.pptx
- 第4课 部屋に机といすがあります 课件-高中日语新版标准日本语初级上册.pptx
- 第5课 鳥の巣箱 単語文法と会話課文课件初中日语九年级人教版第三册.pptx
- 第5课 森さんは 7時に 起きます 课件高中日语新版标准日本语初级上册.pptx
- 第6课 吉田さんは来月中国へ行きます 课件高中日语新版标准日本语初级上册.pptx
- 第6课 折り紙 课件 人教版日语七年级第一册.pptx
- 第7课时 浊音半浊音拗音拨音长音促音 课件高中日语新版标准日本语初级上册.pptx
- 第8课 公園 文法 课件初中日语人教版第一册.pptx
- 第9課 餃子 语法课件-高中日语人教版必修第三册.pptx
- 第10課 京都の紅葉は 有名です 语法 课件-高中新版标准日语初级上册.pptx
文档评论(0)