- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
............. 伏羲 Master 负责整个集群资源资源管理和调度,处理 Job/Service 启动、停止、failover 等生命周期的 维护。同时伏羲 Master 支持多用户额度配置、Job/Service 的多优先级设 置和动态资源抢占逻辑,可以说是飞天平台的“大脑”。伏羲对资源调度是 多维度的,可以根据 CPU、内存等系统资源,以及应用自定义的虚拟资源 对整个机群进行资源分配和调度。 Tubo 是部署在每台由伏羲管理的机器上后台进程,负责收集并向伏 羲 Master 报告本机的状态,包括系统资源的消耗、Master 或 Worker 进 程的运行、等待、完成和失败事件,并根据伏羲 Master 或者 Job/Service Master 的指令,启动或杀死指定的 Master 或 Worker 进程。同时 Tubo 还 负责对机器健康状况的监控,对异常 Worker(比如内存超用) 进行及时的清 理和汇报。 对于在线服务(Service),由伏羲 Master 负责 Service Master 的启动 与状态监控,处理相应 Service Master 的资源申请请求。Service Master 负 责管理 Service Worker 的任务分配、生命周期管理以及 failover 的管理。 对于离线任务(Job),伏羲 Master 负责 Job Master 的启动与状态监 控,处理相应 Job Master 的资源申请请求。Job Master 根据用户输入的 Job 描述文件,将任务分解成一个或以上的 Task,每个 Task 的资源申请、 Task Worker 的调度和生命周期维护由 Task Master 负责。 * * 飞天总体架构 * * 目录 飞天体系结构 分布式基础架构 分布式文件系统--盘古 任务调度--伏羲 集群监控--神农 飞天应用 什么是飞天? 飞天操作系统(项目代号“Apsara”)是阿里云公司自主研发的分布式计算平台。 它的主要设计目标是通过构建一套综合性的软硬件系统,使得用户(或应用系统)可以像使用一台计算机一样,便捷地使用数以千计的服务器的存储资源和计算资源。 飞天通过对软件系统的合理分层,使得“强调响应速度的在线服务(Online Service)”和“强调处理数据吞吐量的离线任务(Batch Processing Job)”可以共享一个物理集群的计算、存储和网络资源,以期大幅提示大规模集群的使用效率。 * 飞天体系结构 * 飞天体系结构-1 分布式系统底层服务:主要提供分布式环境下所需要的协调服务(女娲)、远程过程调用(夸父)、以及提供系统安全的钟馗模块。 分布式文件系统:主要提供一个海量的、可靠的、可扩展的数据存储服务,将集群中各个节点的存储能力聚集起来,并能够自动屏蔽软硬件故障,为用户提供不间断的数据访问服务。 * 飞天体系结构-2 任务调度:为集群系统中的任务提供调度服务,同时支持强调响应速度的在线服务(Online Service)和强调处理数据吞吐量的离线任务(Batch Processing Job) 集群监控和部署:对集群的状态和事件进行监控,对异常事件产生警报和记录;为运维人员提供整个飞天系统以及上层应用的部署和配置管理,支持在线集群扩容和应用服务的在线升级。 * * 目录 飞天体系结构 分布式基础架构 分布式文件系统--盘古 任务调度--伏羲 集群监控--神农 飞天应用 分布式基础架构 命名服务——女娲 女娲(Nuwa)系统为飞天平台提供高可用的协调服务(Coordination Service),是整个飞天系统的一个核心服务,它的作用采用类似文件系统的树形命名空间来让分布式进程互相协同工作。女娲系统与 Google 的 Chubby 和 Hadoop 的 ZooKeeper系统的功能与实现相似。 女娲服务存储了大量的键值对(Key-Value Pair) 女娲支持 Publish/Subscribe 模式 女娲还可以用来实现负载均衡 * 分布式基础架构 远程过程调用(RPC)——夸父 夸父(Kuafu)是飞天平台中负责网络通信的组件,它提供了一个RPC 的接口,简化编写基于网络的分布式应用。 异步调用:RPC 函数调用时不等接收到结果会立即返回;用户必须通过显式调用接收函数取得请求结果。 同步调用:RPC 函数调用时会等待,直到接收到结果才返回。在实现中,同步调用是通过封装异步调用来实现的。 * 分布式基础架构 安全管理——钟馗 飞天操作系统中安全管理的机制提供了以用户为单位的身份认证和授权,以及对集群数据
文档评论(0)