Hadoop基础 -01简介及架构陆小马功钟浩.ppt

Hadoop基础 -01简介及架构陆小马功钟浩.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce的本质 Cassandra是一套开源分布式NoSQL数据库系统。 Nutch 是一个开源Java 实现的有哪些信誉好的足球投注网站引擎。它提供了我们运行自己的有哪些信誉好的足球投注网站引擎所需的全部工具。包括全文有哪些信誉好的足球投注网站和Web爬虫。 thrift是一个软件框架,用来进行可扩展且跨语言服务的开发。thrift允许定义一个简单的定义文件中的数据类型和服务接口,以作为输入文件。thrift结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Cocoa、JavaScript、Node.js、Smalltalk、and?OCaml这些编程语言间无缝结合的、高效的服务。 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎 Solr(读作“solar”)是Apache?Lucene项目的开源企业有哪些信誉好的足球投注网站(英语:Enterprise search)平台 Hadoop MapReduce原理 针对文本进行词频统计 Hadoop MapReduce本质 1 Hadoop核心组件 目录 Hadoop简介 2 Hadoop生态圈 3 Hadoop应用场景 4 Hadoop生态系统 Hadoop生态系统--HBase HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 Hadoop生态系统—数据访问 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 共同点: 都是把代码转换为MapReduce任务; 不同点: Hive使用SQL、Pig使用 pig Latin; Hadoop生态系统—数据传输 ? Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Hadoop生态系统—管理 oozie是基于hadoop的调度器,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar任务等等。 主要的功能有 Workflow: 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个) Coordinator,定时触发workflow Bundle Job,绑定多个coordinator chukwa 是一个开源的用于监控大型分布式系统 的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和鲁棒性。Chukwa 还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。 Hadoop生态系统—管理 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 Hadoop生态系统—序列化 Avro是一个数据序列化的系统。 它可以提供: 丰富的数据结构类型 快速可压缩的二进制数据形式 存储持久数据的文件容器 远程过程调用RPC Hadoop生态系统—机器学习 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推

文档评论(0)

陆小马公主号 + 关注
实名认证
内容提供者

陆小马 功钟浩 分享资源

1亿VIP精品文档

相关文档