计算机行业专题报告:大模型进展2.0-240507-国信证券-21页_2mb.pptxVIP

计算机行业专题报告:大模型进展2.0-240507-国信证券-21页_2mb.pptx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;AI大模型市场表现与竞争格局发生变化,Kimi成为国产大模型曙光。市场上的大模型层出不穷,以Kimi为代表的产品凭借其在长文本处理领域的卓越能力,迅速成为用户访问量最高的产品,打破了现有竞争格局。Kimi在中文领域对GPT-4、Claude等国际大模型展现出明显优势,并通过不断的技术迭代和用户体验优化,实现了用户流量的激增和市场的快速扩张。公司认为,Kimi的AI-Native产品核心价值在于提供个性化交互,其长文本上下文处理能力(LongContext)能大幅减少模型定制成本,解决90%的模型定制问题。2024年3月下旬,Kimi进一步将上下文处理能力提升至200万汉字,随着用户流量的激增,服务连续进行了5次扩容。公司在C端致力于将Kimi打造成超级应用,成为AI原生交互的入口;在B端,通过MoonshotAI开放平台提供与OpenAI兼容的API,内测期间已有法律、游戏阅读等领域应用进行测试,反馈良好。随着Kimi应用访问量的持续增长,预计将再次拉动算力需求的快速增长,推动AI行业的算力基础设施发展。。;大模型群雄并起,Kimi打破竞争格局;月之暗面发布Kimi,长文本成为破局关键;联合技术及服务壁垒,Kimi有望重塑竞争格局;Kimi打破竞争格局,带动产业链发展;Sora开创AI视频生成新纪元;Sora核心优势:强大的语言理解能力和一致性;OpenAI新一代模型能力有望大幅提升;PixVerse定位全球视频多模态应用,引领AI创新潮流;大模型群雄并起,Kimi打破竞争格局;Kimi火爆拉动算力需求增长;Meta算力需求超预期,算力卡采购数量大幅增长;多模态大模型拉动AI训练、推理算力需求增长;图像模态拉动AI算力需求增长;;Image-to-Video模块需要视频数据进行训练。根据ZeLiu等著《VideoSwinTransformer(2021)》,输入一个尺寸为T×H×W×3的视频

(此处T选取32,代表从视频中采样得到32帧,采样方法可自行选择,通常为等间隔采样,视频长度通常约10s;每帧包含H×W×3个像素),通过3DPatchPartition可以得到(T/2)*(H/4)*(W/4)个3DPatch(尺寸为2*4*4*3),即为Tokens,之后再经过VideoSwinTransformer和PatchMerging获得多帧数据的高维特征,完成视频数据训练。根据《Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning(Pablo??著,2022年)》披露数据,Youtube每分钟大约上传500小时视频,则我们可以得到Youtube一年增量视频数据为500×3600×24×365=157.68亿秒。通常分类任务视频为10s左右,对应采样帧数为32,假设每帧图片分辨率为1024×768,则10s视频对应的Token数量为(32/2)*(1024/4)*(768/4)=78.64万个Tokens,则Youtube一年增量视频数据为1.24?15个Tokens,假设使用Youtube一年增量视频数据对5000亿大模型完成一遍训练对应的算力需求为500B×1.24e15×6=3.72?27FLOPs。以英伟达H100为例,在FP16精度下算力为1979TFLOPS,仍假设芯片利用率为46.2%,则3.72?27FLOPs/(1979TFLOPs×46.2%×3600s×24h/天×30天/月)=156.98万张H100/月,即完成对视频数据的训练需使用156.98万张H100训练一个月(针对单一模型,仅计算Youtube一年增量视频数据);且后续Video-to-

Video模块(视频到视频)、VideoFrameInterpolation(VFI,帧插值)模块仍需要算力支撑。

图:对视频素材划分3DPatchPartition;;风险提示;免责声明;请务必阅读正文之后的免责声明及其项下所有内容

您可能关注的文档

文档评论(0)

李新杰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档