- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
粤教版2019高中信息技术必修1
第五章数据处理和可视化表达
知识清单
第一部分:考试内容分析
1、大数据的定义和特征。
2、大数据对日常生活的影响。
3、数据采集的方法。
4、数据的存储和保护方法。
5、数据的分析和可视化表达的方法。
6、数据可视化表达的工具。
7、能够利用软件工具或平台对数据进行整理、组织和计算与呈现,并能通过技术方法对数据进行保护。
第二部分:知识点梳理
(一)认识大数据
1.大数据的概念:
是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据的特征:
(1)从互联网产生大数据的角度来看(“4V”特征):
①大量(Volume):数据体量巨大
②多样(Variety):数据类型繁多
③低价值密度(Value):价值密度低
④高速(Velocity):变化速度快
(2)从互联网思维的角度来看:
①样本渐趋于总体
②精确让位于模糊
③相关性重于因果
(3)从大数据存储与计算的角度来看:
①分布式存储
②分布式并行计算3.传统数据与大数据的区别:
传统数据
大数据
数据量小
数据体量巨大
数据类型少
数据类型繁多
价值密度高
价值密度低
更新速度慢
更新速度快
追求数据精准性
追求数据模糊性
本地存储
分布式存储
4、大数据带来的影响:
(1)积极影响:
①方便支付
②方便出行
③方便购物与产品推介
④方便看病与诊断病情
(2)负面影响:
①个人隐私泄露
②信息伤害与诈骗
(二)数据的采集
1、数据采集的三种基本方法:
(1)系统日志采集法
①系统日志采集方法:在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
②系统日志采集法的作用:
?监视系统中发生的事件
?检查错误发生的原因
?寻找受到攻击时攻击者留下的痕迹
(2)网络数据采集法
①网络数据采集方法:通过网络爬虫或者网站公开API等方式从网站上获取数据信息。
②网络爬虫:从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
(3)其他数据采集法2、Python网络数据采集第三方库:
(1)numpy
(2)scipy
(3)pandas
(4)matplotlib
3、python导入第三方库的方式:
(1)importmodele
关键字模块名
frommoduleimportname
关键字模块名关键字方法名
4、数据的存储方式:
(1)把数据存在本地内部
(2)把数据放在第三方公共或私有的“云端”存储
5、数据的保护:
(1)数据安全保护技术:
①数据安全保护:数据不被破坏、更改、泄露或丢失。
②方式1:安装杀毒软件和防火墙。此种方法只能防备数据安全隐患。
③方式2:拷贝、备份、复制、镜像、持续备份等技术。此种方法更彻底更有效。
数据的隐私保护:
隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐
私泄露的问题。
?方法1:技术手段
①数据收集时进行数据精度处理
②数据共享时进行访问控制
③数据发布时进行人工加扰
④数据分析时进行数据匿名处理
?方法2:提高自身的保护意识
?方法3:对数据使用者进行道德和法律上的约束
(三)数据的分析
1、数据分析的定义:是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过
去、预测未来发挥作用。
2、数据分析的步骤:
(1)特征探索①数据特征探索的主要任务:对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分部特征,求最大值、最小值、极差等描述性统计量。
(2)关联分析
①关联分析的概念:分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
②常见案例:超市某些商品捆绑促销,新高考选修学科的选择。
(3)聚类与分类
①聚类与分类的概念:一种探索性分析,不必事先给出分类标准,从样本数据出发,自动进行分类,进而达到“物以类聚,人以群分”的效果。
②常见的算法:K-Means算法,自下而上的聚类分析方法。
(4)建立模型
(5)模型评价
3、数据分类:
(1)数据分类的概念:是数据分析处理中最基本的方法,基于样本数据先训练构建分类函数或者分类模型,该分类器具有将待分类数据项映射到某一特点类别的功能。
(2)常见的数据分类技术:贝叶斯分类技术
(四)数据的可视化表达
1、数据可视化的定义:以图形、图像
您可能关注的文档
- 第五单元【速记清单】六年级语文上册单元速记•巧练(统编版五四制2024).docx
- 第五章 平面向量与复数(测试)(含答案解析).docx
- 第一次月考复习 Units 1-3 语法(并列连词、宾语从句)进阶练100题九年级英语上册重难点讲练全攻略(牛津译林版).docx
- 第一次月考复习之短文首字母填空10篇(江苏名校真题)九年级英语上册单元单词词汇语法题型练习(牛津译林版).docx
- 第一次月考复习之书面表达15篇(江苏名校真题)九年级英语上册单元单词词汇语法题型练习(牛津译林版).docx
- 第一次月考复习之完形填空12篇(15空题)(江苏名校真题)九年级英语上册单元单词词汇语法题型练习(牛津译林版).docx
- 第二章 地图(考点清单)七年级地理上学期期中考点大串讲(人教版2024).docx
- 第二章 信息系统的支撑技术(1)知识点梳理-高中信息技术必修2 信息系统与社会浙教版(2019).docx
- 第二章 信息系统的支撑技术(2)知识点梳理-高中信息技术必修2 信息系统与社会 浙教版(2019).docx
- 第二章 信息系统的支撑技术(3)知识点梳理-高中信息技术必修2 信息系统与社会浙教版(2019)).docx
最近下载
- 小学三年级上册书法练习指导全册教案.doc
- 《中国慢性肾脏病患者血钾管理实践专家共识(2020)》解读.pptx VIP
- 东风雷诺dCi11发动机构造、气门调整讲解.pdf VIP
- 18G901-1图集—混凝土结构施工钢筋排布规则与构造详图(现浇混凝土框架、剪力墙、梁、板).pdf
- 2024年(新高考I卷)英语试题说明+全文译文+解析-学生版.pdf VIP
- 部编版语文四年级下册第七单元、第八单元复习课教案和过关检测题(共2套).doc
- 2021新版食品安全法培训.ppt课件【完整版】.pdf VIP
- 《符号调节工具(-1)的n次方》.pptx
- 传帮带活动心得体会PPT.pptx
- 新人教版五年级数学上册《等式的性质》部级优课李晓蕙老师—省级公开课课件.pptx
文档评论(0)