- 1、本文档共80页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型推理的显存优化探索
演讲人:赵军平
蚂蚁集团/异构计算与推理负责人
.
.显存需求与挑战
优化
优化1:virtualTensor优化KVcache和attnkernel
目
目录
.
.优化2:LayerKV优化TTFT
.
.围绕显存的更多优化探索
总结
05
自我介绍
?赵军平,蚂蚁异构计算与推理负责人
?中国计算机协会CCFHPC、存储专委委员,~200中/美技术专利
?异构加速,虚拟化,K8S,推理优化,文件系统,企业级存储-保护等
?“数据密集型应用系统设计”译者
显存需求与挑战
LLM推理:显存需求
Llama-65b,FP16
LLM推理:硬件发展
?显存容量、访存带宽(特别是推理小batch场景)
单卡算力vs.访存带宽发展模型参数量
单卡算力vs.访存带宽发展
显存管理:从cudaMalloc到CUDAVMMAPI
2层指针与动态remapping(基于CUDAVMM)
-虚拟地址:对用户可见,保证连续
-物理地址:CHUNK_SIZE(2MB)粒度分配,不要求连续
-Remapping:动态回收chunk与重映射
对齐到chunk(2MB*N)
虚拟地址厂TTT
物理地址handles
显存碎片问题
?例子
400MB
400MB
显存碎片原因分析
CUDA不支持直接释放部分(空闲)显存区域
访存特征动态变化,LLM更加复杂
n生命周期不同,大小不同,多stream;强化学习;。。。
基于CUDAVMM的碎片优化思路
Tensor物理地址
H1
H3
H4
B1
B1
B3
B1-1
B1-1
新分block
(驱动内部对物理显存进行整理)
B3-2对齐到chunk,splitblock
B3-2
对齐到
H3H4H1释放闲chunks:H1,35
H3
H4
H1
virtualTensor
优化KVcache显存碎片和attentionkernel
virtualTensor:背景与问题
?KVcache显存碎片问题vLLMPagedAttn
?易用性:attnkernel改造适配调优的复杂度、难度;以4~7月计
?性能:影响吞吐。业界代表优化:PagedAttn(vLLM),TokenAttn
vLLMPagedAttnOnCUDACore
2023.6.20
FlashAttn+Paged;FlashInfer
OnTensorCore
2024.1.23/1.31
vLLM+(FlashAttn+Paged)
OnTensorCore
2024.6.1
210Days
120Days
PagedAttn不足-1
?attnkernel额外适配调优
?要求高,周期长
?业界各种attn仍创新不断
?FlashAttn3,SageAttn1/2
?SparseAttn,quant,
?SeerAttn,DuoAttn,reAttn
?FlexAttn,FlashMask,
?…
PagedAttn不足-2
?性能开销
?特别早期版本:GQA;不支持TensorCore
?尚不支持FlashAttn3
GPUHW
KVcachedefrag
Defragreleasedate
LoCforDefrag
HFPyTorch
TensorCore
-
-
-
FlashAttn
TensorCore
-
2023.4.12
vLLMPagedAttn
CUDACore
Pageable
2023.6.20
-
FlashAttnd
TensorCore
Pageable
2024.1.23
280
FlashInfer
TensorCore
Pageable
2024.1.31
-
vLLM-FlashAttnd
TensorCore
Pageable
2024.6.1
365
Ours
TensorCore
virtualTensor
2200
virtualTensor目标
?解耦attnkernel实现与KVcache显存管理
?3个小目标:碎片问题+性能+分钟级集成-定制各种attnkernelCUDAVMM
您可能关注的文档
- 产品+AI+化重塑及商业化实践-像素绽放+蒲世林.docx
- 传媒行业2025年度策略:AI应用突破在即,重视并购重组下的国央企投资机会.docx
- 从数据到知识:Data+Centric+范式大模型落地实践.docx
- 从统一数据治理到下一代企业级+Data+Agent+的实践与创新.docx
- 大模型驱动的人机协同提效实践.docx
- 大模型在汽车行业的落地实践.docx
- 钉钉+AI+助理平台核心技术实践.docx
- 豆包大模型升级,字节ai产业链梳理-申万宏源-241222.docx
- 多模态大模型加速算法与开发实践-华为+ZOMI酱.docx
- 多智能体协同调度.docx
- 2025年初级银行从业资格之初级个人理财考试题库及答案【夺冠】.docx
- 2025年初级银行从业资格之初级个人理财考试题库及参考答案(预热题).docx
- 深圳大学高数课件—统计学指数深证成指.ppt
- 2025年初级银行从业资格之初级个人理财考试题库及完整答案(夺冠).docx
- 2025年初级银行从业资格之初级个人理财考试题库【真题汇编】.docx
- 2025年初级银行从业资格之初级个人理财考试题库及答案(名师系列).docx
- 2025年初级银行从业资格之初级个人理财考试题库【达标题】.docx
- 湘雅儿科课件Measl.ppt
- 2025年初级银行从业资格之初级个人理财考试题库【名校卷】.docx
- 2025年初级经济师之初级经济师基础知识考试题库(综合题).docx
文档评论(0)