继续教育公需科目大数据技术及应用试题答案.docxVIP

下载本文档

1
0
约4.05千字
约 13页
2025-03-28 发布于四川
举报
版权申诉

继续教育公需科目大数据技术及应用试题答案.docx

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

继续教育公需科目大数据技术及应用试题答案

一、选择题

1.以下哪个不是大数据的特征（）

A.大量（Volume）

B.高速（Velocity）

C.高价（Value）

D.多样（Variety）

答案：C

解析：大数据具有大量（Volume）、高速（Velocity）、多样（Variety）、价值（Value）等特征，这里是“价值”而非“高价”，所以选C。

2.以下哪种数据库适合存储大数据（）

A.MySQL

B.Oracle

C.MongoDB

D.SQLServer

答案：C

解析：MongoDB是一种非关系型数据库，适合处理海量、高并发、多样化的数据，常用于大数据存储。而MySQL、Oracle、SQLServer主要是关系型数据库，在处理大数据时会有一定局限性，所以选C。

3.Hadoop中负责资源管理和任务调度的组件是（）

A.HDFS

B.MapReduce

C.YARN

D.HBase

答案：C

解析：HDFS是Hadoop分布式文件系统，用于存储数据；MapReduce是一种编程模型，用于并行处理大规模数据集；YARN负责资源管理和任务调度；HBase是一个分布式、面向列的开源数据库。所以选C。

4.以下哪个工具可以用于实时流处理（）

A.Hive

B.SparkStreaming

C.Pig

D.Sqoop

答案：B

解析：Hive是一个基于Hadoop的数据仓库工具，主要用于数据的查询和分析；SparkStreaming是Spark提供的用于实时流处理的组件；Pig是一个用于并行计算的高级数据流语言和执行框架；Sqoop主要用于在Hadoop和关系型数据库之间传输数据。所以选B。

5.数据挖掘中的关联规则挖掘常用的算法是（）

A.KMeans算法

B.Apriori算法

C.DBSCAN算法

D.决策树算法

答案：B

解析：KMeans算法是一种聚类算法；Apriori算法是经典的关联规则挖掘算法；DBSCAN算法是一种基于密度的聚类算法；决策树算法用于分类和回归。所以选B。

二、填空题

1.大数据的价值密度具有________的特点。

答案：低

解析：由于大数据的数据量巨大，而其中有价值的信息相对较少，所以价值密度低。

2.Hadoop的核心组件包括HDFS、MapReduce和________。

答案：YARN

解析：Hadoop主要由HDFS（分布式文件系统）、MapReduce（计算模型）和YARN（资源管理和任务调度）三个核心组件构成。

3.数据仓库的四个基本特征是面向主题、集成性、________和时变性。

答案：稳定性

解析：数据仓库是面向主题的、集成的、稳定的和随时间变化的数据集合，稳定性指数据仓库中的数据主要是供分析和决策使用，一般不进行实时更新。

4.常见的聚类算法除了KMeans算法，还有________算法。

答案：DBSCAN（答案不唯一，也可填层次聚类算法等）

解析：DBSCAN是一种基于密度的聚类算法，和KMeans一样是常见的聚类算法，此外层次聚类算法等也较为常见。

5.数据清洗的主要任务包括填充缺失值、________和去除重复数据等。

答案：纠正错误数据

解析：数据清洗是对数据进行预处理的过程，填充缺失值、纠正错误数据、去除重复数据都是其主要任务。

三、判断题

1.大数据就是指数据量非常大。（）

答案：错误

解析：大数据不仅指数据量巨大，还包括高速、多样、价值等多个特征，数据量只是其中一个方面。

2.Hadoop是一个开源的分布式计算平台。（）

答案：正确

解析：Hadoop是Apache基金会开发的一个开源的分布式计算平台，广泛应用于大数据处理领域。

3.数据挖掘和数据分析是同一个概念。（）

答案：错误

解析：数据分析侧重于对已有数据进行分析，以发现其中的规律和信息，辅助决策；而数据挖掘更侧重于从大量数据中发现潜在的、有价值的模式和知识，二者概念不同。

4.实时流处理只能处理结构化数据。（）

答案：错误

解析：实时流处理可以处理结构化、半结构化和非结构化数据，例如SparkStreaming等工具可以对多种类型的数据进行实时处理。

5.数据仓库中的数据可以直接用于业务操作。（）

答案：错误

解析：数据仓库主要用于支持决策分析，而不是直接用于业务操作，业务操作数据一般存储在业务数据库中。

四、解答题

1.简述大数据的应用场景。

答案：大数据在多个领域都有广泛的应用场景：

金融领域：用于风险评估，通过分析客户的信用记录、交易数据等多源数据，评估客户的信用风险；进行欺诈检测，实时监测交易数据，识别异常交易行为。

医疗领域：辅助疾病诊断，分析

您可能关注的文档

文档评论（0）

152****0358 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

继续教育公需科目大数据技术及应用试题答案.docxVIP