闲聊大数据.pptx

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
闲聊大数据

闲聊大数据2016-031目录Hadoop与Spark生态圈的介绍数据采集数据处理与数据存储数据分析与数据挖掘、展示实时处理应用案例大数据集群环境部署与监控1spark生态体系BDAS (伯克利数据分析栈)1Sqoop简介Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。通过map-reduce任务来传输数据,从而提供并发特性和容错。Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS.1Flume简介Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。SourceC1Kafka简介Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 1以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也 能保证常数时间复杂度的访问性能。 2高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以 上消息的传输。 3支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内 的消息顺序传输。 4同时支持离线数据处理和实时数据处理。1Hbase简介HBase是基于列存储、构建在HDFS上的分布式存储系统,其主要功能是存储海量结构化数据。实时数据平台介绍特点: 1、大表:一个表可以有数十亿行,上百万列; 2、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列; 3、面向列:面向列(族)的存储和权限控制,列(族)独立检索; 4、稀疏:对于空(null)的列,并不占用存储空间,表可以设计的非常稀疏; 5、数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳; 6、数据类型单一:Hbase中的数据都是字符串,没有类型。1?Phoenix(sql on hbase) 简介Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。1数据处理流程数据处理流程1原始架构图1数据采集1数据处理与数据存储SparkKafka ClusterSparkKafka ClusterHADOOpHADOOpFLUMEFLUMEbroker1broker2broker3broker1broker2broker3HB1数据消费Kafka ClusterHadoopbroker1broker2broker3实时计算其它实时消费业务离线计算1实时处理应用案例架构图1实时处理应用案例统计各运营商各频道的在线收看人数 日志上报特点:切台立即上报,持续播放每隔五分钟上报技术方案:SparkStreaming+kafka+redis+HBaseKafka消费:低阶API与高阶APISparkStreaming window函数1实时处理应用案例1实时处理应用案例1实时处理应用案例1实时处理应用案例1大数据集群环境部署与监控Puppet:开源的软件自动化配置和部署工具GangliaZenoss Zabbix NagiosZ1大数据平台介绍实时计算应用案例实时数据平台介绍关键环节详解平台的意义谢谢!Thank you!1

文档评论(0)

000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档