大数据技术基础中科普开课后答案.pdfVIP

大数据技术基础中科普开课后答案.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据技术基础中科普开课后答案

1.新摩尔定律的含义是?

JimGray提著名的“新摩尔定律”,即人类有史以来的数据总量,每过18

个月翻一番。

2.大数据现象是怎么形成的?

随着存储成本的下降,云计算、硬件性价比以及软件技术的进步,智能设备、

传感器的普及,物联网、人工智能的发展,数据规模急剧膨胀,各行业积累的数

据量越来越大,数据类型也越来越多,越来越复杂,于是“大数据”应运而生。

3.大数据有哪些特征?

(1)Volume,体量大。从2013至2020年,人类的数据规模将扩大50

倍,每年产生的数据将增长到44万亿GB,相当于美国国家图书馆数量的数百

万倍,且每18个月翻一番。

(2)Variety,种类多。大数据与传统数据相比,数据来源广、维度多、类

型杂。

(3)Velocity,速度快。随着现代感测、互联网、计算机技术的发展,数

据生成、存储、分析、处理的速度远远超过人类的想象力,这也是大数据区别于

传统数据或小数据的显著特征。

(4)Value,价值高但价值密度低。大数据有巨大的潜在的价值,但同其

呈几何指数爆发的增长相比,某一对象或模块数据的价值密度较低,这无疑给我

们开发海量数据增加了难度和成本。

4.如何对大数据的来源进行分类?

我们可以从产生数据的主体、数据来源的行业、数据存储的形式三个方面对

大数据的来源进行分类。

(1)按产生数据的主体划分

1)少量企业应用产生的数据。

2)大量人产生的数据。

3)巨量机器产生的数据。

(2)按数据来源的行业划分

1)以BAT为代表的互联网公司。

2)电信、金融、保险、电力、石化系统

3)公共安全、医疗、交通领域

4)气象、地理、政务等领域

5)制造业和其他传统行业

(3)按数据存储的形式划分

1)结构化数据

2)非结构化数据

5.常用大数据获取的途径

(1)系统日志采集

(2)互联网数据采集

(3)APP移动端数据采集

(4)与数据服务机构进行合作

6.大数据处理方法有哪些?

(1)大数据采集。大数据的采集通常采用多个数据库来接收终端,并且可

以使用数据库进行简单的处理工作。常用方法主要有数据抓取、数据导入、物联

网传感设备自动采集。

(2)导入与预处理。主要包括数据清洗、数据集成、数据变换、数据归约。

(3)统计与分析。统计与分析主要是利用分布式数据库,或分布式计算集

群来对存储于其内的海量数据进行普通的分析和分析汇总,以满足大多数常见的

分析需求。

(4)大数据挖掘。数据挖掘是创建数据挖掘模型的一组试探法和计算方法,

通过对提供的的数据进行分析,查找特定类型的模式和趋势,最终形成创建模型。

方法主要有分类、聚类、关联规则和预测模型。

6.大数据预处理的方法有哪些?

(1)数据清洗。主要是达到数据格式标准化、异常数据清除、数据错误纠

正、重复数据的清除等目标。

(2)数据集成。是将多个数据源中的数据结合起来并统一存储,建立数据

仓库。

(3)数据变换。过平滑聚集、数据概化、规范化等方式将数据转换成适合

数据挖掘的形式。

(4)数据归约。寻找依赖于发现目标的数据的有用特征,缩减数据规模,

最大限度地精简数据集。

7.大数据的挖掘方法有哪些?

(1)分类。一种重要的数据分析形式,根据重要数据类的特征向量及其他

的约束条件,构造分类函数或分类模型,目的是根据数据集的特点把未知类别的

样本映射到给定类别中。典型算法:朴素贝叶斯算法、KNN、SVM、AdaBoot

算法、C4.5算法、CART算法。

(2)聚类。目的在于将数据集内具有相似特征属性的数据聚集在一起,同

一个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征要有明显区

别。典型算法:BIRCH算法、K-means算法、期望最大化算法(EM算法),

(3)关联规则。指有哪些信誉好的足球投注网站系统中的所有数据,找出所有能把一组事件或数据

项与另一组事件或数据项

文档评论(0)

137****1682 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档