- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop数据收集与入库系统Flume与Sqoop
小象科技
让你的数据产生价值
Hadoop数据收集与入库系统
Flume与Sqoop
讲师:董西成
小象科技
让你的数据产生价值
主要内容
1. 背景介绍
2. Hadoop数据收集系统
3. 传统数据库与Hadoop间数据同步
4. 总结
小象科技
让你的数据产生价值
主要内容
1. 背景介绍
2. Hadoop数据收集系统
3. 传统数据库与Hadoop间数据同步
4. 总结
小象科技
让你的数据产生价值
背景介绍
? Hadoop提供了一个中央化的存储系统:
?有利于进行集中式的数据分析与数据共享
? Hadoop对存储格式没有要求:
?用户访问日志;
?产品信息
?网页数据等
?如何将数据存入Hadoop:
?数据分散在各个离散的设备上
?数据保存在传统的存储设备和系统中
小象科技
让你的数据产生价值
常见的两种数据来源
?分散的数据源:
?机器产生的数据;
?用户访问日志;
?用户购买日志;
?传统系统中的数据:
?传统关系型数据库:MySQL、Oracle等;
?磁盘阵列;
?磁带.
小象科技
让你的数据产生价值
Hadoop收集和入库基本要求
?分布式
? 数据源多样化
? 数据源分散
?可靠性
?保证不丢数据
?允许丢部分数据
? 可扩展
?数据源可能会不断增加
? 通过并行提高性能
小象科技
让你的数据产生价值
常见的Hadoop收集与入库系统
?数据收集
? Flume
? Kafka
? Scribe
?传统数据库与Hadoop同步
?Sqoop
小象科技
让你的数据产生价值
主要内容
1. 背景介绍
2. Hadoop数据收集系统
3. 传统数据库与Hadoop间数据同步
4. 总结
小象科技
让你的数据产生价值
Hadoop数据收集系统—Flume
? Flume OG
? OG:“Original Generation”
? 0.9.x或cdh3以及更早版本
? 由agent、collector、master等组件构成
? Flume NG
? NG:“Next/New Generation”
? 1.x或cdh4以及之后的版本
? 由Agent、Client等组件构成
? 为什么要推出NG版本
? 精简代码
? 架构简化
小象科技
让你的数据产生价值
Flume OG基本架构
小象科技
让你的数据产生价值
Flume OG基本架构
小象科技
让你的数据产生价值
Agent
? 用于采集数据
? 数据流产生的地方
? 通常由source和sink两部分组成
? Source用于获取数据,可从文本文件,syslog,HTTP等获
取数据;
? Sink将Source获得的数据进一步传输给后面的Collector。
? Flume自带了很多source和sink实现
? syslogTcp(5140) | agentSink(localhost,35853)
? tail(/etc/services) | agentSink(localhost,35853)
小象科技
让你的数据产生价值
Collector
? 汇总多个Agent结果
? 将汇总结果导入后端存储系统,比如HDFS,HBase
? Flume自带了很多collector实现
?collectorSource(35853) | console
?CollectorSource(35853) |
collectorSink(file:///tmp/flume/collected, syslog);
?collectorSource(35853) |
collectorSink(hdfs://namenode/user/flume/ ,syslog);
小象科技
让你的数据产生价值
Agent与Collector对应关系
小象科技
让你的数据产生价值
Agent与Collector对应关系
? 可手动指定,也可自动匹配
? 自动匹配的情况下,master会平衡collector之间的负载。
小象科技
让你的数据产生价值
问题:为什么引入Collector?
? 对Agent数据进行汇总,避免产生过多小文件;
? 避免多个agent连接对Hadoop造成过大压力 ;
? 中
您可能关注的文档
- EPTD DISCUSSION PAPER NO. 102 PRODUCTIVITY AND LAND ENHANCING TECHNOLOGIES IN NORTHERN ETHI.pdf
- ESET NOD32 for Mac OS X 安装手册和用户指南.pdf
- ESET NOD32企业版产品介绍V3.0.pdf
- Ergonomics in the application and research of iron.pdf
- Escaping Path-Dependence Essays on Foresight and Environmental Management.pdf
- ERNATIVE EDUCATION.ppt
- ESLC English manual.pdf
- ESM6802双屏显示(LVDS+HDMI)设置.pdf
- Essendoubi_et_al-2016-Skin_Research_and_Technology.pdf
- EST560-mini6智能后视镜智能远光灯控制CANBUS产品白皮书.pdf
最近下载
- 肾动态显像dynamicrenalimaging.PPT
- 人教版(2024新版)英语七年级上册Unit 7 Happy Birthday!大单元整体教学设计.docx
- 《高等职业学校专业教学标准(试行)》存在的问题及改进建议--以财经大类、文化教育大类和旅游大类为例.pdf VIP
- 《小班美工区中幼儿教师指导问题及策略研究报告》9700字.docx
- 三级烟草专卖管理师岗位技能鉴定试卷答案.docx VIP
- 国家开放大学,地域文化,人文武隆形考一 (2).docx
- 2024年秋季新北师大版七年级上册数学全册教案.DOCX
- 手术讲解模板:睾丸扭转复位固定术.ppt
- 壹号土猪市场营销分析.doc VIP
- DELI得力 M201CR用户手册 说明书.pdf
文档评论(0)