大数据处理基本思想与架构-作业 高中信息技术必修1.pdfVIP

大数据处理基本思想与架构-作业 高中信息技术必修1.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第四章作业:《大数据处理的基本思想架构》

班级:学号:姓名:

1.大数据处理的分治思想

分治就是把一个复杂的问题分成两个或更多相同或相似的,找到求这几个子问题的解法后,再

找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个

更小的子问题,以此类推,直至可以直接求出解为止。

2.大数据处理类型

(1)静态数据:在处理时已收集完成、在计算时的数据,一般采用进行处理。

(2):不间断地、持续地到达的实时数据,随着时间的流逝,数据的价值也随之降低,可采用

________进行实时分析。

(3)图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用进行处理。

3.批处理计算

Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于的批处理计算。

Hadoop计算平台主要包括Common公共库、、、

______________________等多个模块。

(1)HDFS将大规模海量数据以________的形式、用多个副本保存在不同的存储节点中,并用分布式系统进

行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。

(2)HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储和

___________________,可管理PB级的大数据。

(3)MapReduce:MapReduce能够处理大规模数据集的并行运算,主要由和2个函数

构成。其核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。

4.流计算

流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语

言等整合后可开发出功能强大的实时计算与分析应用。

5.图计算

现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,

如社交网络、网络浏览与购买行为、传染病的传播路径等。

基础训练

1.下列关于流数据的描述,不正确的是()

A.数据必须采集完成后处理

B.数据价值随着时间的流逝降低

C.可以采用流计算进行实时分析

D.实时分析流数据可以得到更有价值的结果

2.下列应用中涉及流数据处理的是()

A.统计店铺的月交易量

B.实时更新导航线路

C.查询历史话费账单

D.分析上年的地铁客流数据

3.下列选项中,属于分布式文件系统的是()

A.HDFSB.FAT32

C.NTFSD.Ext4

4.下列关于分布式数据库HBase的理解,不正确的是()

A.HBase是谷歌BigTable数据库的开源实现

B.建立在HDFS提供的底层存储基础上

C.采用基于行的存储方式,可管理PB级的大数据

D.主要用于存储非结构化数据和半结构化数据

5.下列属于图数据处理软件的是()

A.MapReduceB.TwitterStorm

C.Yahoo!S4D.GooglePregel

6.实时处理与批处理整合的优势有()

①增加了系统开销

②有利于降低使用成本

③可以在同一个平台做批处理计算和流计算

④缩短了批处理计算和流计算之间的切换延时

A.①②③B.①②④

C.①③④D.②③④

7.下列关于数据和信息的说法,正确的是(

文档评论(0)

181****2641 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档