网站大量收购闲置独家精品文档,联系QQ:2885784924

Hadoop介绍快速入门—光环大数据培训.pdfVIP

Hadoop介绍快速入门—光环大数据培训.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop介绍快速入门—光环大数据培训

Hadoop 介绍快速入门 Apache Hadoop 是用于开发在分布式计算环境中执行的数据处理应用程序的框 架。类似于在个人计算机系统的本地文件系统的数据,在 Hadoop 数据保存在被 称为作为Hadoop 分布式文件系统的分布式文件系统。处理模型是基于“数据局部 性”的概念,其中的计算逻辑被发送到包含数据的集群节点(服务器)。这个计算逻辑 不过是写在编译的高级语言程序,例如Java. 这样的程序来处理Hadoop 存储 的 HDFS 数据。 Hadoop 是一个开源软件框架。使用Hadoop 构建的应用程序都分布在集群计算机 商业大型数据集上运行。商业电脑便宜并广泛使用。这些主要是在低成本计算上实 现更大的计算能力非常有用。你造吗? 计算机集群由一组多个处理单元(存储磁盘 +处理器),其被连接到彼此,并作为一个单一的系统。 Hadoop 的组件 下图显示了 Hadoop 生态系统的各种组件 Apache Hadoop 由两个子项目组成 - 想拿高薪,选对行业很重要!学大数据开发,工资高,前景好,发展空间大! 1. Hadoop MapReduce : MapReduce 是一种计算模型及软件架构,编写在 Hadoop 上运行的应用程序。这些MapReduce 程序能够对大型集群计算节 点并行处理大量的数据。 2. HDFS (Hadoop Distributed File System): HDFS 处理 Hadoop 应用程序的 存储部分。 MapReduce 应用使用来自HDFS 的数据。 HDFS 创建数据块 的多个副本,并集群分发它们到计算节点。这种分配使得应用可靠和极其迅 速的计算。 虽然 Hadoop 是因为 MapReduce 和分布式文件系统 - HDFS 而最出名的, 该 术语也是在分布式计算和大规模数据处理的框架下的相关项目。 Apache Hadoop 的其他相关的项目包括有: Hive, HBase, Mahout, Sqoop , Flume 和ZooKeeper. Hadoop 功能 • 适用于大数据分析 作为大数据在自然界中趋于分布和非结构化,Hadoop 集群最适合于大数据的分 析。因为,它处理逻辑(未实际数据)流向计算节点,更少的网络带宽消耗。这个概 念被称为数据区域性概念,它可以帮助提高基于 Hadoop 应用程序的效率。 • 可扩展性 HADOOP 集群通过增加附加群集节点可以容易地扩展到任何程度,并允许大数据 的增长。 另外,标度不要求修改到应用程序逻辑。 • 容错 HADOOP 生态系统有一个规定,来复制输入数据到其他群集节点。这样一来,在 集群某一节点有故障的情况下,数据处理仍然可以继续,通过使用存储另一个群集 节点上的数据。 网络拓扑中的Hadoop 网络拓扑结构(布局),当 Hadoop 集群的大小增长会影响到 Hadoop 集群的性 能。除了性能,人们还需要关心故障的高可用性和处理。为了实现这个Hadoop 集 群构造,利用了网络拓扑。 想拿高薪,选对行业很重要!学大数据开发,工资高,前景好,发展空间大! 通常情况下,网络带宽是任何网络要考虑的一个重要因素。然而,测量带宽可能是 比较困难的,在 Hadoop 中,网络被表示为树,在 Hadoop 集群节点之间树(跳 数)的距离是一个重要因素。在这里,两个节点之间的距离等于自己最近的公共祖 先总距离。 Hadoop 集群包括数据中心,机架和其实际执行作业的节点。这里,数据中心包括 机架,机架是由节点组成。可用网络带宽进程的变化取决于进程的位置。 也就是 说,可用带宽变得更小,因为 -  在同一个节点上的进程  同一机架上的不同节点  在相同的数据中心的不同的机架节点  在不同的数据中心节点 【报名信息】 必威体育精装版开班时间:2017.6.26 电脑报名地址:/ 手机报名地址:/mobile/ 了解必威体育精装版课程及报名优惠信息,请访问光环java 官方网站: 学大数据,就选光环大数据!16 年老品牌,上市机构有保障! 想拿高薪,选对行业很重要!学大数据开发,工资高,前景好,发展空间大!

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档