Apache Hadoop 3.0.0-alpha1正式发布及其更新.PDF

下载文档

28
0
约3.46千字
约 3页
2018-11-18 发布于天津
举报
版权申诉
保障服务

Apache Hadoop 3.0.0-alpha1正式发布及其更新.PDF

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍 Spark大数据博客 - Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍 Apache Hadoop 3.0.0-alpha1相对于hadoop-2.x来说包含了许多重要的改进。这里介绍的是Hadoop 3.0.0的alpha 版本，主要是便于检测和收集应用开发人员和其他用户的使用反馈。因为是alpha版本，所以本版本的API稳定性和质量没有保证，如果需要在正式开发中使用，请耐心等待稳定版的发布吧。本文将对Hadoop 3.0.0重要的改进进行介绍。 Java最低版本要求从Java7 更改成Java8 所有的Hadoop JARs都是针对Java 8 编译的。仍在使用Java 7 或更低版本的用户必须升级至Java 8。 HDFS支持纠删码(Erasure Coding) 与副本相比纠删码是一种更节省空间的数据持久化存储方法。标准编码(比如Reed- Solomon(10,4))会有 1.4 倍的空间开销；然而HDFS副本则会有3倍的空间开销。因为纠删码额外开销主要是在重建和执行远程读，它传统用于存储冷数据，即不经常访问的数据。当部署这个新特性时用户应该考虑纠删码的网络和CPU 开销。更多关于HDFS的纠删码可以参见/docs/r3.0.0-alpha1/hadoop- project-dist/hadoop-hdfs/HDFSErasureCoding.html或者直接阅读本博客《Hadoop 3.0纠删码(Erasure Coding)：节省一半存储空间》的相关介绍。 YARN Timeline Service v.2 本版本引入了Yarn时间抽服务v.2，主要用于解决2大挑战：改善时间轴服务的可伸缩性和可靠性，通过引入流和聚合增强可用性。 YARN Timeline Service v.2 alpha 1可以让用户和开发者测试以及反馈，以便使得它可以替换现在的Timeline Service v.1.x。请在测试环境中使用。更多关于YARN Timeline Service v.2的知识请参见/docs/r3.0.0-alpha1/hadoop-yarn/hadoop-yarn- site/TimelineServiceV2.html Shell脚本重写 Hadoop的Shell脚本被重写解决了之前很多长期存在的bug，并且引入了一些新的特性。绝大部分都保持兼容性，不过仍有些变化可能使得现有的安装不能正常运行。不兼容的改变可以参见 HADOOP-9902。更多内容请参见Unix Shell Guide 文档。即使你是资深用户，也建议看下这个文档，因为其描述了许多新的功能，特别是与可扩展 1 / 3 Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍 Spark大数据博客 - 性有关的功能。 MapReduce任务级本地优化 MapReduce添加了Map输出collector的本地实现。对于shuffle密集型的作业来说，这将会有30% 以上的性能提升。更多内容请参见MAPREDUCE-2841 如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop 支持多于2个的NameNodes 最初的HDFS NameNode high-availability实现仅仅提供了一个active NameNode和一个Standby NameNode；并且通过将编辑日志复制到三个JournalNodes上，这种架构能够容忍系统中的任何一个节点的失败。然而，一些部署需要更高的容错度。我们可以通过这个新特性来实现，其允许用户运行多个Standby NameNode。比如通过配置三个NameNode和五个JournalNodes，这个系统可以容忍2个节点的故障，而不是仅仅一个节点。HDFS high- availability 文档已经对这些信息进行了更新，我们可以阅读这篇文档了解如何配置多于2个NameNodes。多个服务的默认端口被改变在此之前，多个Hadoop服务的默认