- 1、本文档共57页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop面试,要点总结
1请列出你所知道的hadoop调度器并简要说明其工作方法 随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为: 第10章“Hadoop多用户作业调度器分析”,分析了当前比较流行的FIFO、Capacity个Fair三种调度器的配置方法、实现机制和优缺点对比,当然,也介绍了其他类型的几种调度器。) 默认的调度器FIFO Hadoop中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。 计算能力调度器CapacityScheduler 支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。调度时,首先按以下策略选择一个合适队列:计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值,选择一个该比值最小的队列;然后按以下策略选择该队列中一个作业:按照作业优先级和提交时间顺序选择,同时考虑用户资源量限制和内存限制。 公平调度器FairScheduler 同计算能力调度器类似,支持多队列多用户,每个队列中的资源量可以配置,同一队列中的作业公平共享队列中所有资源,具体算法参见我的博文《Hadoop公平调度器算法解析》 实际上,Hadoop的调度器远不止以上三种,最近,出现了很多针对新型应用的Hadoop调度器。 2HDFS的存储机制 1.HDFS开创性地设计出一套文件存储方式,即对文件分割后分别存放; 2.HDFS将要存储的大文件进行分割,分割后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求; 3.一个HDFS集群包括两大部分,即NameNode与DataNode。一般来说,一个集群中会有一个NameNode和多个DataNode共同工作; 4.NameNode是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中DataNode主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储; 5.DataNode在HDFS集群中担任任务具体执行角色,是集群的工作节点。文件被分成若干个相同大小的数据块,分别存储在若干个DataNode上,DataNode会定期向集群内NameNode发送自己的运行状态与存储内容,并根据NameNode发送的指令进行工作; 6.NameNode负责接受客户端发送过来的信息,然后将文件存储位置信息发送给提交请求的客户端,由客户端直接与DataNode进行联系,从而进行部分文件的运算与操作。 7.Block是HDFS的基本存储单元,默认大小是64M; 8.HDFS还可以对已经存储的Block进行多副本备份,将每个Block至少复制到3个相互独立的硬件上,这样可以快速恢复损坏的数据; 9.用户可以使用既定的API接口对HDFS中的文件进行操作; 10.当客户端的读取操作发生错误的时候,客户端会向NameNode报告错误,并请求NameNode排除错误的DataNode后后重新根据距离排序,从而获得一个新的DataNode的读取路径。如果所有的DataNode都报告读取失败,那么整个任务就读取失败; 11.对于写出操作过程中出现的问题,FSDataOutputStream并不会立即关闭。客户端向NameNode报告错误信息,并直接向提供备份的DataNode中写入数据。备份DataNode被升级为首选DataNode,并在其余2个DataNode中备份复制数据。NameNode对错误的DataNode进行标记以便后续对其进行处理 3MapReduce中的两表join几种方案 1.概述 在传统数据库中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。 2.常见的join方法介绍 假设要进行join的数据分别来自File1和File2. reducesidejoin reducesidejoin是一种最简单的join方式,其主要思想如下: 在map阶段,map函数同时读取
您可能关注的文档
- 4s店续保团购会总结.docx
- 4s店装潢部工作总结.docx
- 4s店销售顾问工作心得3篇.docx
- 4s汽车店售后服务信息员年终总结.docx
- 500字团结心得.docx
- 4岁宝宝育儿心得3篇.docx
- 500字左右的工作总结(共10篇).docx
- 500字心得体会范文.docx
- 4年级上册的语文期末考试心得.docx
- 50个字心得小故事.docx
- 数学建模基础知到智慧树期末考试答案题库2024年秋吉林财经大学.docx
- 数字电子技术(山东联盟-中国石油大学(华东))知到智慧树期末考试答案题库2024年秋中国石油大学(华东).docx
- 数字信号处理(英文)知到智慧树期末考试答案题库2024年秋西北工业大学.docx
- 数学文化知到智慧树期末考试答案题库2024年秋中国石油大学(华东).docx
- 数字素养知到智慧树期末考试答案题库2024年秋青岛港湾职业技术学院.docx
- 数字电子技术知到智慧树期末考试答案题库2024年秋哈尔滨工程大学.docx
- 数学物理方法知到智慧树期末考试答案题库2024年秋西北工业大学.docx
- 冷库安全管理规定.pdf
- 关于网球比赛的方案(通用7篇).pdf
- 初步设计文件编制深度规定.pdf
文档评论(0)