多用户mapreduce集群的作业调度教程.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多用户mapreduce集群的作业调度教程

多用户mapreduce集群的作业调度 一、简介 Hadoop MapReduce和它的开源实现最初优化大型批作业如web索引结构。然而,另一个用例近期显现:在多个用户之间共享一个MapReduce集群,它运行的长批处理作业、短交互式查询共享一个公共数据集。使统计复用,相比于为每组构建私有集群成本更低。分享一个集群也会导致数据整合(主机托管不同的数据集)。这避免了昂贵的跨私有集群复制的数据,并允许一个组织在不相交的查询数据集高效地运行。 我们的工作最初是出于MapReduce工作负载在Facebook,主要的网络目的地运行Hadoop数据仓库。事件日志从Facebook的网站被导入到Hadoop集群每小时,在那里他们被用于各种各样的应用程序,包括分析使用模式来改进网站设计、检测垃圾邮件,数据挖掘和广告优化。仓库600台机器上运行,存储500 TB的压缩数据,这是每天2 TB速度增长。除了“生产”工作,必须定期运行,有很多实验工作,从几个小时机器学习几天计算到1 - 2分钟即席查询提交通过SQL接口Hadoop称为蜂房[3]。 当Facebook开始建造数据仓库,它发现提供数据整合共享集群大有益处。例如,一位工程师在垃圾邮件检测时可以在任意数据源寻找规律,比如朋友列表和广告点击,来识别垃圾邮件发送者。然而,当足够的组织开始使用Hadoop,工作响应时间开始遭受Hadoop的FIFO调度程序影响。这对生产工作来说不可接受而且使交互式查询成为可能,大大减少了系统的效率。一些组织在Facebook考虑建造私有集群为自己的工作负载,但为许多应用程序调整太昂贵。 为了解决这个问题,我们设计和实现了一个Hadoop公平调度器。我们的调度器给每个用户拥有一个私人的Hadoop集群的假象,让用户在几秒内开始工作和运行交互式查询,同时利用底层共享集群效率。在开发过程中,我们发现了几个在MapReduce设置调度挑战我们的地址。我们发现,现有的调度算法可以在MapReduce表现很差,有辱人格的吞吐量和响应时间的因素2 - 10,由于设置的两个方面:数据本地化(附近的需要运行计算数据)和map和reduce任务之间相互依存。我们开发了两个简单的、健壮的算法来克服这些问题:延迟调度和copy-compute分裂。提高我们的技术提供2-10x的吞吐量和响应时间在一个多用户的工作量,但也可以在单用户增加吞吐量,FIFO工作负载的2倍。虽然我们现在我们的结果在MapReduce设置,他们推广到任何基于数据流的集群计算系统,像dryad[20]。我们地址的位置和相互依存关系问题是大规模的方式来表述数据并行处理的计算。 有两个方面,区分调度在MapReduce从传统的集群调度[12]。第一个方面是需要数据本地化,即。,将任务节点包含输入数据。本地网络对分带宽性能是至关重要的,因为在一个大集群远低于总带宽的磁盘机[16]。传统的集群调度程序,给每个用户一组固定的机器,如扭矩[12],显著降低性能,因为在Hadoop文件分布在所有节点在GFS[19]。电网调度程序像秃鹫[22]支持位置约束,但只有在地理网站,不是机器,因为他们像MapReduce运行cpu密集型应用程序,而不是数据密集型工作负载。即使有粒状公平调度器,我们发现位置在两种情况:并发工作和小的工作。我们通过一种称为延迟调度的技术解决这一问题,可以双吞吐量。 MapReduce导致问题的第二个方面是map和reduce任务之间的依赖:减少任务不能完成,直到所有地图任务在完成他们的工作。这种相互依存,没有出现在传统的集群调度模型,可导致未充分利用和饥饿:长期工作,获得减少槽在许多机器不会释放他们,直到其映射阶段完成,饥饿的其他工作,而未充分使用预留槽。我们提出一个简单的称为copycompute分割的技术为解决这一问题,主要在2-10x增加吞吐量和响应时间。减少/地图的依赖还创建了其他动力学没有出现在其他设置:例如,即使行为端正的工作,公平分享MapReduce,它需要更长的时间比FIFO完成一批工作;这不是真正的环境中,比如包调度,公平共享保护工作。另一个问题是,不能删除映射阶段产生的中间结果,直到工作结束,消耗磁盘空间。我们在第七节探索这些问题。 虽然我们激励我们的工作与Facebook的案例研究,我们解决的问题绝不是限制到一个数据仓库的工作量。我们接触的另一个主要网络公司使用Hadoop确认关于研究集群的最大抱怨用户有漫长的排队延迟。我们的工作也是相关的几个学术Hadoop集群已经宣布。这样一个集群已经使用我们的公平调度器2000节点上。一般来说,有效的调度是更重要的比其他设置,因为在集群数据密集型计算资源共享(集群)是非常昂贵的,因为数据是很难(所以数据整合提供了重要的价值)。 本文的其余部分组

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档