- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据Hadoop平台的Flume数据采集框架;大数据Hadoop平台的Flume数据采集框架——日志数据采集应用案例-01;本章学习目标
了解基于Hadoop的大数据平台下的数据采集所要解决的问题
了解Hadoop下分布式文件系统HDFS的基本使用
了解Flume的作用、安装
掌握如何配置Flume实现对不同任务环境下的数据采集;本章将首先简要介绍开源大数据Hadoop平台,演示其分布式文件系统HDFS的基本使用。然后讲解Flume的安装,并且通过两个案例讲解Flume的配置要点。最后通过习题来强化对知识点的掌握和应用。;9.1任务描述;9.2Hadoop介绍;Hadoop生态圈;9.2.1Hadoop核心组件和工作原理;HDFS;MapReduce;Yarn;9.2.2Hadoop生态圈简介;Hadoop生态圈架构可以分为多个层级,具体如下:
(1)数据来源层能够涵盖结构化数据(数据库)、半结构化数据(文件日志)和非结构化数据(视频、音频和PPT等)。
(2)数据传输层能够充分发挥集群网络优势,高效地并发和并行传输数据。
(3)数据存储层不仅能够充分发挥集群强大的整体存储能力,还能通过数据冗余的方式有效提高数据安全性以及数据读写效率。
(4)资源管理层能够根据集群各节点资源(计算资源、存储资源和网络资源)使用情况合理、平衡地分配和安排各节点在整个数据处理过程中的任务。
(5)数据计算层能够根据具体的业务计算需求,提供离线计算和实时计算。一般对于规模和体量较大的历史业务数据采用离线计算,对于不断修改和新增的流式数据采用实时计算。离线计算适合利用非业务处理高峰时间等对实时性要求不高的业务,实时计算机适合对时间和效率较高的业务需求。
(6)任务调度层能够根据Hadoop大数据平台系统的当前的任务数量和状态,按照一定的调度算法对任务进行合理调度,从而优化和平衡系统整体的运行效率。
(7)业务模型层能够提供直观、简介、精准的数据可视化呈现和应用效果,帮助用户提升业务的分析和处理能力。;9.3Flume介绍;9.3Flume介绍;9.4Flume的安装;主要包含以下环节:
1. Hadoop服务的确认和HDFS基本操作
2. Flume的安装
;1. Hadoop服务的确认和HDFS基本操作
;1. Hadoop服务的确认和HDFS基本操作
;1. Hadoop服务的确认和HDFS基本操作
;1. Hadoop服务的确认和HDFS基本操作
;2. Flume的安装
;课堂练习;谢谢;大数据Hadoop平台的Flume数据采集框架——日志数据采集应用案例-02;本章学习目标
了解基于Hadoop的大数据平台下的数据采集所要解决的问题
了解Hadoop下分布式文件系统HDFS的基本使用
了解Flume的作用、安装
掌握如何配置Flume实现对不同任务环境下的数据采集;本章将首先简要介绍开源大数据Hadoop平台,演示其分布式文件系统HDFS的基本使用。然后讲解Flume的安装,并且通过两个案例讲解Flume的配置要点。最后通过习题来强化对知识点的掌握和应用。;9.4Flume的配置;Flume的设计理念和工作原理;Flume的设计理念和工作原理;Flume的设计理念和工作原理;Flume的设计理念和工作原理;整个数据采集系统的设计;配置的基础--基础案例引入;配置的基础--基础案例引入;小技巧:virtualbox的端口映射;9.5Flume的应用;web系统的日志一般都是采用滚动日志方式:即日志文件大小一旦增长到指定大小就在日志目录下新开日志文件,对旧日志文件进行编号命名。因此,我们的数据采集系统的设计为:;agentClient.conf;agentServer.conf;执行要点:;9.5Flume的应用;要求如下:Source为TCP,Channel为Memory,Sink简便起见,我们使用logger,打印到控制台。则其对应的tcp.conf文件内容如下:;9.6小结;9.7习题;谢谢
文档评论(0)