- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代里,运维工程师的自我修养教程
大数据时代里,运维工程师的自我修养i
2015-12-19 16:44:48
标签: HYPERLINK /tag-数据分析.html \t _blank 数据分析 HYPERLINK /tag-Python.html \t _blank Python HYPERLINK /tag-ELK.html \t _blank ELK HYPERLINK /tag-pandas.html \t _blank pandas HYPERLINK /tag-seaborn.html \t _blank seaborn HYPERLINK /tag-elasticsearch-py.html \t _blank elasticsearch-py
原创作品,允许转载,转载时请务必以超链接形式标明文章 HYPERLINK 1726349 \t _blank 原始出处 、作者信息和本声明。否则将追究法律责任。 HYPERLINK 1726349 1726349
? “凡是过去,皆为序曲”
? ? ????????????????????????---莎士比亚
? 前言:本文其实是给公司写的一篇文章,不过因为时间仓促,当时文章并没有关于代码的分析,只是关于数据的展示,不过觉得很有价值,所以再做分享。
? 了解我的人,当然知道,本宝宝要大家跟我做的第一件事是什么~
? 首先,大家跟我念,Python大fa好。
??本文皆是一家之言,如有偏颇还望指正。
??在笔者的看来,如果数据不能可视化话,那么很大程度来说就是在扯淡,当然数据可视化也仅仅是万里长征第一步。数据就像一堆堆的石子,也许不能就这一篇文章带领大家观其全貌,但至少管中窥豹,可见一斑。
??那么数据到底长什么样呢?
??它可能长这样。
又或者是这样
?
如果你Excel足够牛逼我想你是能够用excel做出足够厉害的图的,但也只是足够而已。
?
在笔者看来数据至少是长这样。
再或者是这样的。
?
注:上面使用的是ELK套件
ELK安装文档,参考: HYPERLINK 1726338 \t _blank 1726338
但这只是冰山一角,还远远不够,工具谁能用,怎么用是一个层次,在这基础上再次利用则是另一个层次,为了文章篇幅,本文主要着重于后者并将视线锁定在日志数据,其他数据暂不考虑。
????????
日志的数据至少得有三个作用
? 一:数据应该能说明问题或者现象。
? 二:数据应该能解决问题。
? 三:数据应该能预测与预防问题。
????????
?第一点很好理解那就是,数据在可视化的过程能够很直观的说明问题或者现象,即使通过最基本的提取过滤,我们能够知道在一段时间内多大的访问量,客户端的设备是什么,响应时间多少,在往下细化,应该是每个ip的访问次数,并且访问了什么内容,常访问什么内容,在知道响应时间的前提上,了解哪个访问链接耗时最长等等,以及一些可能职责之外的事,具体细节请自行脑洞。
?下面是简单的全球访问IP热点图:
?注:不要问我为什么不用ELK自带的热点图,两个字,任性~
????????
第二点,既然日志能说明问题当然能解决问题,日志文件除了最基本的info记录,当然还有debug信息,通过debug信息我们知道程序运行到什么地方抛出了这个bug,为什么抛出这个bug,为了第一时间响应,我们还得快速定位到抛出bug的主机。
通过简单的查询我们可以快速定位到404状态发生的主机,及其发生时间,以及客户端的使用设备为什么,以及在访问什么的时候抛出404。
????????
?第三点,问题在一定程度上并不可怕,可怕的是不能及时处理以及反复出现却束手无策,所以怎样有效的利用数据的基础上再配合可靠并实时监控报警机制就显得至关重要了。而关于预测,可以通过的一定的算法数据都量化,然后评估以及模拟。
?
?谈完了基础,我们着重谈谈日志数据的再次利用。
?也主要分为三个部分:
?一:简单统计,无论通过rrdtool或者Excel,或者Python,只要有数据,通过预选及数据清洗,就能得到自己想要的数据,在拥有数据的情况下,可视化也就显得自然而然了。
?二:统计细化,数据的可视化可能只是数据分析的一部分,因为可视化只能展示很简单的结果,并不能听见数据内心中呐喊的声音,所以一定程度的统计技术以及编程基础相当重要,庆幸的是Python有足够的支持库。
?三:统计分析,这一方面可能较于大多数人并无用处,并且并不关心,所以在此略过。
?
?一:简单统计
?单日的Top IP,Top URL,Top City开始吧。? ??
?Top? IP
?
文档评论(0)