- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop介绍快速入门—光环大数据培训
Hadoop 介绍快速入门
Apache Hadoop 是用于开发在分布式计算环境中执行的数据处理应用程序的框
架。类似于在个人计算机系统的本地文件系统的数据,在 Hadoop 数据保存在被
称为作为Hadoop 分布式文件系统的分布式文件系统。处理模型是基于“数据局部
性”的概念,其中的计算逻辑被发送到包含数据的集群节点(服务器)。这个计算逻辑
不过是写在编译的高级语言程序,例如Java. 这样的程序来处理Hadoop 存储 的
HDFS 数据。
Hadoop 是一个开源软件框架。使用Hadoop 构建的应用程序都分布在集群计算机
商业大型数据集上运行。商业电脑便宜并广泛使用。这些主要是在低成本计算上实
现更大的计算能力非常有用。你造吗? 计算机集群由一组多个处理单元(存储磁盘
+处理器),其被连接到彼此,并作为一个单一的系统。
Hadoop 的组件
下图显示了 Hadoop 生态系统的各种组件
Apache Hadoop 由两个子项目组成 -
想拿高薪,选对行业很重要!学大数据开发,工资高,前景好,发展空间大!
1. Hadoop MapReduce : MapReduce 是一种计算模型及软件架构,编写在
Hadoop 上运行的应用程序。这些MapReduce 程序能够对大型集群计算节
点并行处理大量的数据。
2. HDFS (Hadoop Distributed File System): HDFS 处理 Hadoop 应用程序的
存储部分。 MapReduce 应用使用来自HDFS 的数据。 HDFS 创建数据块
的多个副本,并集群分发它们到计算节点。这种分配使得应用可靠和极其迅
速的计算。
虽然 Hadoop 是因为 MapReduce 和分布式文件系统 - HDFS 而最出名的, 该
术语也是在分布式计算和大规模数据处理的框架下的相关项目。 Apache
Hadoop 的其他相关的项目包括有:
Hive, HBase, Mahout, Sqoop , Flume 和ZooKeeper.
Hadoop 功能
• 适用于大数据分析
作为大数据在自然界中趋于分布和非结构化,Hadoop 集群最适合于大数据的分
析。因为,它处理逻辑(未实际数据)流向计算节点,更少的网络带宽消耗。这个概
念被称为数据区域性概念,它可以帮助提高基于 Hadoop 应用程序的效率。
• 可扩展性
HADOOP 集群通过增加附加群集节点可以容易地扩展到任何程度,并允许大数据
的增长。 另外,标度不要求修改到应用程序逻辑。
• 容错
HADOOP 生态系统有一个规定,来复制输入数据到其他群集节点。这样一来,在
集群某一节点有故障的情况下,数据处理仍然可以继续,通过使用存储另一个群集
节点上的数据。
网络拓扑中的Hadoop
网络拓扑结构(布局),当 Hadoop 集群的大小增长会影响到 Hadoop 集群的性
能。除了性能,人们还需要关心故障的高可用性和处理。为了实现这个Hadoop 集
群构造,利用了网络拓扑。
想拿高薪,选对行业很重要!学大数据开发,工资高,前景好,发展空间大!
通常情况下,网络带宽是任何网络要考虑的一个重要因素。然而,测量带宽可能是
比较困难的,在 Hadoop 中,网络被表示为树,在 Hadoop 集群节点之间树(跳
数)的距离是一个重要因素。在这里,两个节点之间的距离等于自己最近的公共祖
先总距离。
Hadoop 集群包括数据中心,机架和其实际执行作业的节点。这里,数据中心包括
机架,机架是由节点组成。可用网络带宽进程的变化取决于进程的位置。 也就是
说,可用带宽变得更小,因为 -
在同一个节点上的进程
同一机架上的不同节点
在相同的数据中心的不同的机架节点
在不同的数据中心节点
【报名信息】
必威体育精装版开班时间:2017.6.26
电脑报名地址:/
手机报名地址:/mobile/
了解必威体育精装版课程及报名优惠信息,请访问光环java 官方网站:
学大数据,就选光环大数据!16 年老品牌,上市机构有保障!
想拿高薪,选对行业很重要!学大数据开发,工资高,前景好,发展空间大!
文档评论(0)