网站大量收购独家精品文档,联系QQ:2885784924

大数据技术原理与应用林子雨版课后习题答案.pdfVIP

大数据技术原理与应用林子雨版课后习题答案.pdf

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第二章

1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系

答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系

统GFS的开源现,MapReduces是针对谷歌MapReduce的开源现。

2.试述Hadoop具有哪些特性。

答:高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux平台,

支持多种编程语言

3.试述Hadoop在各个领域的应用情况。

答:2007年,雅虎在Sunnvale总部建立了M45个包含了4000个处理器

和1.5PB容量的Hadooop集群系统;

Facebook主要将Hadoop平台用于日志处理.,推荐系统和数据仓库等方面;

百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、

在线数据反馈、网页聚类等。

4.试述Hadoop的项目结构以及每个部分的具体功能。

答:

PigChukwaHiveHBase

MapReduceHDFSZookeeper

CommonAvro

Commeon是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC

和串行化库

Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类

型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能

和简单的动态语言集成功能。

HDFS是lladoop项目的两个核心之一,它是针对谷歌文件系统的开源现。

HBase是一个提高可靠性、高性能、可伸缩、时读写、分布式的列式数据库,

一般采用HDFS作为其底层数据存储。

MapReduce是针对谷歌MapReduce的开源现,月于大规模数据集的并行运算。

Zoookepper是针对谷歌Chubby的一个开源现,是高效和可靠的协同匚作系统,

提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承

担的协调任务。

Hive是一,个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集

进行数据整理、特殊查询和分布存储。

Pig是一种数据流语言和运行环境,适合于使用Eadoop和MapReducce平台上查

询大型半结构化数据集。

Sqoop可以改进数据的互操作性,主要用来在II大哦哦哦配合关系数据库之间交

换数据。

Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种

类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各

种MapReduce操作。

第三章

1.试述分布式文件系统设计的需求。

设计需求含义HDFS的实现情况

透明性具备访问透明性、位置透只提供一定程度的访

明性、性、和伸缩透明问透明性,完全支持位置

性透明性、性和伸缩透明

并发控制

您可能关注的文档

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档