网站大量收购闲置独家精品文档,联系QQ:2885784924

《Hadoop技术原理》课件——11.Flume.pptx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Hadoop技术原理

Flume

Flume简介

01Flume简介

·对于海量实时产生的日志,我们看出它需要经过一个“桥梁”或中介,这就是这章要学的Flume(Flume翻译成中文是水槽)。

·Flume把采集后的实时日志保存到HDFS或HBase中,可以进行离线计算。比如,要统计出最近一周的用户异常的数据,按地区划分,展示到一张地图上。

·另一种方式,则是Flume可以把采集到的实时日志,发送给消息中间件,比如Kafka,然后送到实时计算引擎进行计算,实时分析出当前存在的异常情况

离线计算

HDFS/HBa

se

8kafka

Flume(水槽)

实时计算

CLOUDCOMPUTING

海量实时日志

Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的

系统

(Flume由Cloudera提供)

Flume支持在日志系统中定制各类数据发送方,用于收集数据。

Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。

Flume简介

02

03Flume简介

·Flume在Hadoop生态圈中的地位

Ambari

(安装部署工具)

HivePigMahout

数据分析引擎机器学习算法库

MapReduce

(离线计算)

YARN

(资源调度框架)

HDFS

(分布式存储系统)

Hadoop生态圈

(数据库E几工具)(日志采集)

数据采医翠

(分布式协调服务)

(分布式数据库)

Zookeeper

doobs

HBase

Flume

04Flume架构

·生活中的Flume(水槽)

源传输的介质目的地

Flume架构

·Flume的核心(Agent)

数据目的地有多种

HDFS

Hive

Kafka

数据源有多种

SpoolingDirectory

NetCatTCP

AvroSource

Kafka

Source

组件

采集数据

Channel组件

Logger

缓存数据

(常用MemoryChannel)

05

Sink

组件

保存日志

Agent

06Flume架构

·Flume的核心(Agent)

Source组件:从数据源接收数据(即采集数据);Channel组件:连接Source和Sink的管道,缓存数据。Sink组件:传递数据给目的地(即保存数据);

SourceSink

ServerChannel

Agent

HDFS

07Flume架构

·Flume传递的数据:Event(事件)

Event:Flume将数据表示为Event。

Event是Flume的处理数据元,它可能是一条日志、一个Avro对象等,通常约4KB大小

events

Sink

events

Channel

Agent

HDFS

events

Source

Web

Server

02

Flume安装与应用

01Flume安装

·Flume安装步骤

下载安装包apache-flume-1.8.0-bin.tar.gz

解压到指定目录下

tar-zxvfapache-flume-1.8.0-bin.tar.gz-C/usr/local/src/修改环境变量,在~/.bashrc文件增加

exportFLUME_HOME=/usr/local/src/flume

exportPATH=$FLUME_HOME/bin:$PATH

执行source~/.bashrc,使配置生效。

描述

Event数据存储在内存中

Event数据存储在持久化存储中

Event数据存储在磁盘文件中

Event数据存储在内存中和磁盘上,当内存队列已满,将持久化到磁盘文件(不建议生产环境使用)

测试用途

Event存储在Kafka

自定义

Channel类型

MemoryChannel

JDBCChannel

FileChannel

SpillableMemoryChannel

PseudoTransactionChannel

KafkaChannel

CustomChannel

02Flume应用

·Flume组件类型Channel类型

·更多属性请参考官方文档

描述

支持Av

文档评论(0)

乐毅淘文斋 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8121131046000040

1亿VIP精品文档

相关文档