罗晶 - ITIL先锋论坛.PDF

下载文档 降价啦

24
0
约5.61千字
约 44页
2017-08-15 发布于天津
举报
版权申诉
保障服务

罗晶 - ITIL先锋论坛.PDF

1、本文档共44页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

罗晶 - ITIL先锋论坛

罗晶  介绍DevOps  别人家的DevOps  生产环境  如何进行DevOps ◦ 评估管理 ◦ 服务质量和目标 ◦ 减少琐事  沟通失真与业务响应时间  “DevOps思维”不就是“互联网思维”  DevOps不一定需要用微服务和容器支撑  DevOps云平台功能架构  DevOps打通工具链  上云后DevOps自动化运维现状需求 ◦ 混合云多云是多数企业的选择，企业基础设施形态为混合云多云混合IT形态 ◦ 应用分布物理机，虚拟化平台，公有云，私有云，容器云 ◦ 多数企业上云后应用直接运行在IaaS，而不是PaaS，容器云  介绍DevOps  别人家的DevOps  生产环境  如何进行DevOps ◦ 评估管理 ◦ 服务质量和目标 ◦ 减少琐事  云DevOps自动化运维现状，需求和目标  现状： ◦ 混合云多云是多数企业的选择，企业基础设施形态为混合云混合IT ◦ 上云后应用分布运行在物理机，虚拟化，IaaS以及容器云 ◦ 上云后多数应用直接运行在IaaS上，而不是PaaS上 ◦ 云提供了可编程的基础设施和全栈自动化基础 ◦ 云平台本身及传统现有工具离实际的需求有一段距离  需求目标：实现混合云混合IT环境下DevOps高效自动化运维 ◦ 充分基于云可编程特性提升自动化程序，实现全栈自动化 ◦ 现境上实现混合IT混合云多云环境下的DevOps自动化运维 ◦ 应用上支持各种类型的应用，平台，中间件，操作系统运行环境 ◦ 实现上能够落地，能够以小代价无风险方式支持已有主机环境应用自动化  SRE site Reliability Engineering  系统管理员模式：系统管理员的日常工作和研发工程师相差甚远，通常分属两个不同的部门：开发部（Dev）和运维部（Ops）  Dev/Ops分离的团队模型存在些问题：  1 直接成本系统管理员团队大部分依赖人工处理系统维护事件以及变更实施。  2 间接成本研发团队和系统运维团队分属两个部门所带来的间接成本就没那么容易度量了，但是间接成本往往大的多  SRE团队里基本上有两类工程师  第一类标准软件工程师，具体来说就是那些能够正常通过软件工程招聘的人  第二类基本满足软件工程师标准，同时具有一定程度其他技术能力的工程师  DevOps这个名词是2008年年末流行起来，目的是想将IT相关技术与产品设计和开发过程结合起来，着重强调自动化而不是人工操作，以及利用软件工程手段执行运维任务等。SER是DevOps模型在 google具体实践。  SER团队要几类职责：可用性改进，延迟做强化，性能优化，效率优化，变更优化，效率优化，变更管理，监控，紧急事务处理以及容量规划与管理  SRE团队的运维工作限制在50%以内，SRE团队应该将剩余时间在研发项目上。  将生产环境中发现Bug和产生的工单转给研发管理人员去分配，或者将开发团队成员加入on-call体系中共同承担轮值压力等。  产品事故都应该对应的事后总结，无论有没有触发警报。  监控系统：  SRE团队监控服务质量和可用性的一个主要手段。所以监控系统的设计策略是针对某个特定的情况或者监控值，一旦出现情况或者监控值超过阈值就触发E-mail警报。但是这样的报警并不是很有效果。  如何提高报警效率  1 紧急警报  意味着收到警报用户需要立即执行某种操作，目标是解决某种已经发生的问题，或者是避免即将发生的问题  2 工单  意味着接受工作单的用户应该执行某种操作，但非立即执行。系统羡慕不能自动解决目前情况，但是如果一个用户几天内执行这项操作，系统也不会受到任何影响  3 日志  平时没有人去关注日志信息，但是日志信息依然被收集起来以备调试和事后分析时使用。正确的做法是平时没人会去主动阅读日志，除非有特殊需要。  应急事件处理  MTTF (Mean Time To Failure，平均无故障时间)，指系统无故障运行的平均时间，取所有从系统开始