第五章 数据处理和可视化表达(知识清单+练习题)-高一信息技术必修1粤教版(2019).docx

第五章 数据处理和可视化表达(知识清单+练习题)-高一信息技术必修1粤教版(2019).docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

粤教版2019高中信息技术必修1

第五章数据处理和可视化表达

知识清单

第一部分:考试内容分析

1、大数据的定义和特征。

2、大数据对日常生活的影响。

3、数据采集的方法。

4、数据的存储和保护方法。

5、数据的分析和可视化表达的方法。

6、数据可视化表达的工具。

7、能够利用软件工具或平台对数据进行整理、组织和计算与呈现,并能通过技术方法对数据进行保护。

第二部分:知识点梳理

(一)认识大数据

1.大数据的概念:

是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.大数据的特征:

(1)从互联网产生大数据的角度来看(“4V”特征):

①大量(Volume):数据体量巨大

②多样(Variety):数据类型繁多

③低价值密度(Value):价值密度低

④高速(Velocity):变化速度快

(2)从互联网思维的角度来看:

①样本渐趋于总体

②精确让位于模糊

③相关性重于因果

(3)从大数据存储与计算的角度来看:

①分布式存储

②分布式并行计算3.传统数据与大数据的区别:

传统数据

大数据

数据量小

数据体量巨大

数据类型少

数据类型繁多

价值密度高

价值密度低

更新速度慢

更新速度快

追求数据精准性

追求数据模糊性

本地存储

分布式存储

4、大数据带来的影响:

(1)积极影响:

①方便支付

②方便出行

③方便购物与产品推介

④方便看病与诊断病情

(2)负面影响:

①个人隐私泄露

②信息伤害与诈骗

(二)数据的采集

1、数据采集的三种基本方法:

(1)系统日志采集法

①系统日志采集方法:在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。

②系统日志采集法的作用:

?监视系统中发生的事件

?检查错误发生的原因

?寻找受到攻击时攻击者留下的痕迹

(2)网络数据采集法

①网络数据采集方法:通过网络爬虫或者网站公开API等方式从网站上获取数据信息。

②网络爬虫:从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

(3)其他数据采集法2、Python网络数据采集第三方库:

(1)numpy

(2)scipy

(3)pandas

(4)matplotlib

3、python导入第三方库的方式:

(1)importmodele

关键字模块名

frommoduleimportname

关键字模块名关键字方法名

4、数据的存储方式:

(1)把数据存在本地内部

(2)把数据放在第三方公共或私有的“云端”存储

5、数据的保护:

(1)数据安全保护技术:

①数据安全保护:数据不被破坏、更改、泄露或丢失。

②方式1:安装杀毒软件和防火墙。此种方法只能防备数据安全隐患。

③方式2:拷贝、备份、复制、镜像、持续备份等技术。此种方法更彻底更有效。

数据的隐私保护:

隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐

私泄露的问题。

?方法1:技术手段

①数据收集时进行数据精度处理

②数据共享时进行访问控制

③数据发布时进行人工加扰

④数据分析时进行数据匿名处理

?方法2:提高自身的保护意识

?方法3:对数据使用者进行道德和法律上的约束

(三)数据的分析

1、数据分析的定义:是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过

去、预测未来发挥作用。

2、数据分析的步骤:

(1)特征探索①数据特征探索的主要任务:对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分部特征,求最大值、最小值、极差等描述性统计量。

(2)关联分析

①关联分析的概念:分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。

②常见案例:超市某些商品捆绑促销,新高考选修学科的选择。

(3)聚类与分类

①聚类与分类的概念:一种探索性分析,不必事先给出分类标准,从样本数据出发,自动进行分类,进而达到“物以类聚,人以群分”的效果。

②常见的算法:K-Means算法,自下而上的聚类分析方法。

(4)建立模型

(5)模型评价

3、数据分类:

(1)数据分类的概念:是数据分析处理中最基本的方法,基于样本数据先训练构建分类函数或者分类模型,该分类器具有将待分类数据项映射到某一特点类别的功能。

(2)常见的数据分类技术:贝叶斯分类技术

(四)数据的可视化表达

1、数据可视化的定义:以图形、图像

您可能关注的文档

文档评论(0)

+ 关注
实名认证
内容提供者

教师资格证持证人

中小学一线教师,熟知考情与学情,致力于提供优质文档资源,服务更多教师与学生。

领域认证该用户于2023年03月21日上传了教师资格证

1亿VIP精品文档

相关文档