基于Flume海量日志统一分析平台计算机信息管理自学考试.doc

下载文档 降价啦

3
0
约1.28万字
约 30页
2018-06-15 发布于福建
举报
版权申诉
保障服务

基于Flume海量日志统一分析平台计算机信息管理自学考试.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共30页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Flume海量日志统一分析平台计算机信息管理自学考试

中南大学高等教育自学考试毕业论文论文题目：基于Flume的海量日志统一分析平台报考专业：计算机信息管理（本）考生姓名：考籍号：工作单位：通讯地址及邮政编码：联系电话：手机：电子邮箱（Email）： 2017年3月8日目录 1 引言 1 1．1 课题背景及意义 1 1．2 研究现状 2 1．3日志收集系统的发展趋势 2 1．4课题研究内容 4 1．5论文组织结构 4 2 Flume等技术介绍 4 2．1 Flume框架介绍 4 2．2 Kafka架构介绍 8 2．3 Storm架构介绍 9 2．4 ElasticSearch架构介绍 10 3 日志分析平台需求分析 11 3．1 日志分析平台设计目标 11 3．2日志分析平台需求 11 3．2．1日志采集模块Flume Agent的功能需求 12 3．2．2日志收集模块Flume Server的功能需求 12 3．2．3 日志统计模块Storm的功能需求 12 3．3日志分析平台运行环境需求 12 3．4本章小结 12 4 统一日志平台总体架构设计 13 4．1本章小结 13 5 统一日志平台具体实现 13 5．1 日志采集模块Flume Client的实现 14 5．1.1日志采集模块Flume Agent的具体实现 14 5．1.2日志采集模块Flume Agent的目录监控具体实现 14 5．1.3日志采集模块Flume Agent的数据保护机制 15 5．1.4日志采集模块Flume Agent与Flume Server的数据交互 16 5．1.5日志采集模块Flume Client配置项 17 5．1.6日志采集模块Flume Agent的读取Kafka内容具体实现 18 5．2 日志采集模块Flume Server的实现 20 5．2.1日志采集模块Flume Server日志归集实现 20 5．2.2日志采集模块Flume Server配置项 21 6 统一日志平台集成测试 22 结论 26 致谢 27 参考文献 28 摘要近年来，随着互联网信息技术的迅速发展，互联网上的日志信息资源已经达到海量级别，日志中包含了用户所有的规律信息，能够更加了解用户需求，为企业带来价值，以及包含业务链路数据，运维人员通过日志进行故障定位，以及故障分析，以及性能调优等工作，以及可以通过日志收集到KPI数据进行应用考核等。随着云计算、PaaS平台的普及，虚拟化、容器化等技术的应用，例如Docker等技术，越来越多的服务会部署在云端。通常，我们需要需要获取日志，来进行监控、分析、预测、统计等工作，但是云端的服务不是物理的固定资源，日志获取的难度增加了，但这又是工程师迫切需要的。，因此，如何应对海量并且分散的日志进行收集统计并且分析，已经成为目前大部分企业都特别关注的一个课题。本文针对分布式环境下，通过Flume收集海量日志，进行ElasticSearch存储，Kibana可视化展示，Storm进行数据分析。关键词海量日志;Flume;ElasticSearch;kibana;Storm 引言 1．1 课题背景及意义近年来，随着互联网信息技术的迅速发展，互联网上的信息资源已经达到海量级别，每天需要处理的日志信息巨大，日志中包含了用户所有的规律信息，能够更加了解用户需求，为企业带来价值，以及包含业务链路数据，运维人员通过日志进行故障定位，以及故障分析，以及性能调优等工作，以及可以通过日志收集到KPI数据进行应用考核等。随着云计算、PaaS平台的普及，虚拟化、容器化等技术的应用，例如Docker等技术，越来越多的服务会部署在云端。通常，我们需要需要获取日志，来进行监控、分析、预测、统计等工作，但是云端的服务不是物理的固定资源，日志获取的难度增加了，以往可以SSH登陆的或者FTP获取的，现在可不那么容易获得，但这又是工程师迫切需要的，最典型的场景便是：上线过程中，一切都在GUI化的PaaS平台点点鼠标完成，但是我们需要结合tail -F、grep等命令来观察日志，判断是否上线成功。当然这是一种情况，完善的PaaS平台会为我们完成这个工作，但是还有非常多的ad-hoc的需求，PaaS平台无法满足我们，我们需要日志，因此，如何应对海量并且分散的日志进行收集统计并且分析，已经成为目前大部分企业都特别关注的一个课题。一般的数据挖掘是针对关系型数据库中结构化数据进行的分析。而如今日志数据杂乱无章，务结构，有中间件日志，有应用日志，有组件日志，应用日志因项目架构标准化不一而没有标准化，而且数据量还非常大，呈指数级不断增长，分布在非常多的服务器或者节点上，这就导致了数据挖掘需要用到新的挖掘技术，以及模型算法等，从需