Hadoop系统介绍.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop系统介绍

Hadoop生态系统 分布式协调 ZooKeeper ZooKeeper 是应用程序用于维护配置、健康程度和节点之间的其他状态元素的集中式服务。 它维护了在大型集群环境中需要的一些常见对象,包括配置信息、分层命名空间,等等。 应用程序可以使用这些服务来协调在Hadoop集群中的分布式处理。 ZooKeeper 还提供应用程序的可靠性。如果某个应用程序主控程序出故障了, ZooKeeper 就会产生新的应用程序主控程序来恢复此任务。 Hadoop生态系统 机器学习 Mabout Mabout是一个可扩展的机器学习库 Mabout实现了许多不同的机器学习的方法。 Hadoop生态系统 工作流自动化 Oozie Oozie 是一个管理多级Hadoop 作业的工作流/协调系统。 Oozie使工作流决策基于作业的依赖关系。 对于设计工作执行图形, Oozie 是最好的工具。 Falcon Falcon 使得插入、管道和复制操作的数据移动和处理自动化。 当数据更改或变得可用时, Falcon 可以触发作业启动。 Hadoop生态系统 管理 Ambari Ambari 是一个基于Web 的Apache Hadoop 集群资源调配、管理和监控工具。 Hadoop 发展历史 Nutch GFS分布式存储系统论文 MapReduce分布式处理技术论文 2004 2003 Hadoop发展历史 Hadoop发展历史 Hadoop作为数据湖 大数据的功能之一,是用于所有数据的中央存储库。 一些数据存储在关系数据库中 大部分数据不适于存储在关系数据库中,需要按照原始形式存储。 数据湖的概念 数据湖为所有的原始数据创建一个巨大的存储库,并根据需要使用这些数据。 数据湖的三个优势 全部数据都保持可用:无须对未来的数据使用做出任何假设。 全部数据都是共享的:数据是集中存储而不是分布不同的系统上 全部访问方法都是可用的:可以使用任何处理引擎来处理数据 Hadoop作为数据湖 传统的数据仓库方法 采用写时模式( schema on write) 加载数据时对照设计好数据模式进行检查 查询性能好! 数据的ETL过程会丢弃一些数据!因为数据不能放入到固定的模式或被认为不需要 Hadop数据湖 采用读时模式( schema on read) 按照数据的原始格式存储 使用数据时检查数据模式 数据加载速度快! 不会丢失数据! 使用Hadoop的技术人员 传统的系统管理员负责安装、监控/管理和调整Hadoop 软件。 传统的用户负责开发Hadoop 应用程序、处理数据,并使用各种Hadoop 工具。 如今,管理员和用户之间的界限变得模糊,混合为一个新的角色——开发运维人员( devops) 使用Hadoop的技术人员 管理员 安装Hadoop 和管理软件包 集群基本管理 监控/管理Hadoop 服务 调整Hadoop 服务(和己安装的工具软件包) 最终用户 利用现有的Hadoop 工具检查工作流和存储 使用MapReduce 工具 创建Hadoop 应用程序 编写直接使用YARN 工作的非MapReduce 应用程序 手工向/从HDFS 导入/导出数据 利用Hadoop 工具自动将数据导入/导出HDFS Hadoop 的设计原则 移动计算比移动数据更廉价 把数据存储在计算节点的本地磁盘中,而不是将数据块移动到计算节点上 Hadoop HDFS文件系统实现对被处理数据的自动分片 Hadoop MapReduce 范式能够以可扩展和透明的方式实现将计算移动到数据节点上。 CPU和I/O都不再是问题了! 构建集群采用大量的廉价PC服务器,而不是采用昂贵的RISC服务器。 容忍集群节点发生故障(集群节点故障是家常便饭!) Hadoop v1 MapReduce被设计为容忍硬件故障 Hadoop v2 YARN资源管理器提供动态运行时管理能力,应用程序可以选择内置某个级别的容错能力。 Hadoop 的设计原则 MapReduce 范式是高度可扩展的 在单机或者集群环境运行的MapReduce应用程序,从用户的角度看,这两者不存在语义上的差异 MapReduce 的执行细节是对用户隐藏的 HDFS文件系统针对大数据集、大文件的访问进行特别优化 顺序访问而不是随机访问 一次写多次读 作为数据湖概念的一部分,所有的原始数据都应保持不变,MapReduce 过程不会改变原始数据 Hadoop MapReduce编程模型介绍 MapReduce 是一个两步骤的过程 Map Reduce Hadoop MapReduce编程模型介绍 执行Hadoop MapReduce 查询的第一步是将数据放在HDFS 分布式的文件系统中。请注意,对于MapReduce ,

您可能关注的文档

文档评论(0)

ranfand + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档