天数智芯算力中心建设解决方案.pptx

天数智芯算力中心建设解决方案.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目录

一、项目建设背景.............................................................3

二、集群部署方案............................................................4

三、算力运营维护............................................................6

四、核心运营内容............................................................7

五、应用场景推广............................................................8

六、市场营销策略..........................................................19

七、方案配置参考..........................................................23

2

一、项目建设背景

党的二十大报告指出,推动战略性新兴产业融合集群发展,构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎,人工智能是新一轮科技革命和产业变革的重要驱动力量。在城市数字化转型的进程中,智慧程度越高、算力越强的城市,其综合资源更节省,城市安全更有保障,运行效率更高,企业发展更顺畅,居民生活更便利。

天数智芯是中国第一家通用GPU商用芯片及超级算力系统提供商,也是国内唯一同时拥有GPU架构下云端训练+推理完整解决方案的硬科技公司,目前推出的训练芯片—天垓100和推理芯片—智铠100基于自主研发的芯片架构及软件栈,具备高算力、通用性、灵活性、自主可控等明显优势,真正自主可控,实现国产替代,支持和国际主流产品混合部署,无缝迁移。天数智芯集中赋能企业算力平台及生态建设,加快核心关键环节补链强链,为国产人工智能算力产业贡献中坚力量。

以天数智芯的通用算力芯片为基础,打造国产通用算力集群,同时结合算力应用孵化信息化创新项目,将全面提升城市数字化转型能力,带动数字政府和新型智慧城市建设更便捷、更智慧。

3

二、集群部署方案

结合应用需求,可基于国内外各主流CPU和天数智芯全系列通用GPU灵活组成集群服务器,每台最大可支持8张天垓100加速卡,服务器间可通过以太交换机或IB交换机互通搭建基于超融合架构或者存算分离的底层硬件平台,从而为上层应用提供计算和存储服务,集群整体硬件架构图如图1所示。

图1GPU高可用集群硬件架构图

完整的算力中心网络分为数据交互网络、业务交互网络

4

图2网络和系统部署

天数智芯算力集群管理平台提供基于GPU虚拟化的存储管理、容器管理、系统监控和授权管理等服务,此平台具有易迁移、高可用、可伸缩等特性。集群管理平台按服务层次分为IaaS,PaaS和SaaS三层,本方案中IaaS层(基础设施服务)兼容国内外主流生态,兼容主流GPU通用计算模型,提供支持主流GPU通用计算模型的等效组件、特性、API和算法,可助力用户便捷地实现系统或应用的无痛迁移;PaaS层(平台即服务)提供GPU虚拟化、算力调度、异构纳管、运维监控和存储管理等能力;SaaS层(软件即服务)支持可视化训练和开发,支持当下主流模型,有效提高AI训练效率,三层整体架构如图3所示。

以及管理交互网络,示意图如下所示:

5

图3:GPU集群管理平台

天数在集群部署上可以提供多样化、异构化的基础设施架构方案,可以根据需求在服务器、操作系统、算法框架等层面灵活部署。并借助交换机按需组网部署,提供各种算力服务,可以满足各种场景下的业务需求,满足各算力客户的应用需求。

三、算力运营维护

运营公司设立专业运营团队负责公司算力中心维护、产品项目推广、产业生态合作等工作。团队由本地运营人员和天数智芯外派工程师共同组成,明确职责分工,实现智算中心的市场化运营和专业化运维。

主要的运营目标如下:

(一)人工智能计算中心运维服务。运营公司负责人工

6

智能计算中心的运维服务工作,确保人工智能计算平台稳定

高效的运行。

(二)人工智能计算中心运营和市场推广。依托该平台,面向地区提供多种类型的算力服务,服务本地人工智能企业大力发展,服务传统产业转型升级,服务科研团队创新创业,提升算力平台资源利用率。此外,基于智算中心,公司可联合本地龙头企业、科研院校承接国家、

您可能关注的文档

文档评论(0)

随风飘落 + 关注
实名认证
内容提供者

人力资源管理师持证人

一个写作爱好者,与大家分享

领域认证该用户于2023年07月07日上传了人力资源管理师

1亿VIP精品文档

相关文档