阿里巴巴运维体系迁史.docVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阿里巴巴运维体系迁史

阿里巴巴运维体系变迁史 作者丨毕玄 编辑|谢然 每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点,回顾了阿里巴巴从工具化到自动化的过程,接着分享了阿里巴巴在智能化领域的探索路线,最后总结了未来运维团队所面临的巨大挑战,特别是运维智能化落地,有效性提升,以及最终效率提升及成本节约上带来的挑战。 注:本文首发自 InfoQ 运维公众号,高效开发运维,ID:DevOpsGeek,推荐关注。随着大数据、机器学习和 AI 技术的飞速发展,智能化运维成为运维的热点领域。Gartner 的报告宣称,到 2020 年,将近 50% 的企业将会在他们的业务和 IT 运维方面采用 AIOps,远远高于今天的 10%。尽管 AIOps 还是一个新名词,但它无疑代表了运维未来的一种趋势。智能化运维的终极目标,就是将运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,实现业务系统的高可用性。运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。 大约两年前,智能化运维开始被大家广泛关注,随着大数据分析、APM、智能异常检测、机器学习等技术的兴起和逐渐成熟,运维需求也逐渐向自动化和智能化过渡。从最初级运维发展到现在智能化运维,大致经历了四个阶段:脚本时代——工具时代——自动化时代——智能化时代。目前业界真正的智能化运维的落地实践其实并不多,大多还是停留在自动化甚至人工化阶段,然而智能化运维是大势所趋,对于大公司来说,更是尤为重要。以下整理自 2017 上海 CNUTCon 全球运维技术大会上,阿里巴巴研发效能团队负责人,阿里研究员毕玄的演讲《智能时代的新运维》。 1 阿里的运维体系承载着怎样的责任? 阿里的运维体系介绍 阿里的运维团队,主要覆盖五个层面。 一.资源的规划与支付是运维的基石 整个运维团队需要负责资源的规划、资源的交付。Quota 管理: 比如我们会跟业务团队做一些预算的管理,对于每个业务团队首先需要有预算。只要你有预算,运维团队一定会把资源交给你,没有预算一切免谈。规划: 比如阿里每年的双十一交易,业务团队要给出下一年的交易额将做到多少,至于背后需要增加多少的机器量,业务团队根本不关心。所以需要运维团队来做从业务需求到资源的转化和规划,这对于公司来讲非常重要,因为意味着最终我在基础设施上要投多少钱,还有节奏的控制。采购: 当规模大了以后,怎么样合理规划资源的数量和交付节奏是非常重要的,比如 5 月份采购这批机器和 6 月份采购这批机器,是完全不同的概念。还需要资源的采购,比如 SSD 采购紧张,供应量不够。通常大公司会有更多的渠道获得更好的供应量,小公司就会很困难。怎么做好供应链控制是非常重要的。资源调度: 对于资源团队来讲,调度也很重要,我们交出去的机器是怎么样的交法,怎么保证可用性、稳定性, Bootstrap 等,每个业务都有自己的规划,按照业务需求怎么把整个业务环境全部交给业务方。阿里目前就遇到了很大的挑战,比如在国际化的扩张上,我们可能这个月需要在这里建个点,下个月需要在另一个地方建个点,怎么快速的完成整个资源,不仅仅是机器资源的交付,还有软件资源的交付,是非常重要的。我们现在在扩展东南亚的业务,怎么样在东南亚快速的完成整个软件资源的交付,对于我们的竞争是非常重要的。 二.变更 是运维不可避开的坑 对于运维团队来讲,变更也是经常要做的部分,变更信息的收拢,做应用层面的变更,基础网络的 IDC 等等。 三.监控 预测潜在的故障 监控对于阿里来讲主要分为基础、业务、链路,在监控的基础上要去做一些报警等。 四.稳定性 是不少企业追求的目标 稳定性这个概念我们以前认为针对的是大公司,因为它可能会影响到大众的生活,会比较敏感。但是现在新型的互联网公司,如外卖,ofo、摩拜等,它的稳定性要求比以前很多创业型公司更高,因为它有在那个点必须能用,如果不能用,对用户会有直接的影响。所以稳定性可能在整个运维行业会得到越来越高的重视,但是对于很多中小型公司,稳定性的投入相当大的。 五.一键建站 让规模化有力保障 像阿里在稳定性上主要会去做多活体系的建设,然后故障的修复、故障定位,然后还有一套全链路的压测。规模化是很多运维团队很痛苦的事情,可能今年机器在这个机房,明年你的基础设施团队可能告诉你,这个机房不够用了,我们要换个机房。反正在阿里巴巴,很多的运维人员都说了,我们每年的工作中有一项不用写的工作就是搬迁。虽然基础设施团队会承诺说三年内不会再搬,可是到了明年他会跟你说,由于某些原因我们还是再搬一下,搬完之后三年不会让你再搬。但是从我们过去发展的三年,每年都在搬。未来我们确实相信阿里巴巴,可能在未来搬迁会相对更少一点,我们认为不能

文档评论(0)

181****9125 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档