- 1、本文档共68页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
小米大模型端侧部署落地探索
演讲人:黄武伟
小米/大模型算法工程师
目录
01
01端侧AI的重要性
02LLM端侧部署的挑战
03
03相关技术探索
04总结与展望
端侧AI的重要性
端侧AI
在终端设备上直接运行和处理人工智能算法
端侧AI优势
隐私和安全:所有数据的存储和计
隐私和安全:所有数据的存储和计算都在本地完成,避免了数据传输到云端可能带来的安全风险。
可靠性:端侧AI减少了对网络连接的依赖,即使在网络不稳定或断开的情况下也能正常工作,提高了系统的鲁棒性。
端侧AI优势
成本效益:端侧A
成本效益:端侧AI减少了对云端计算资源的需求,有助于降低成本,特别是在大规模部署时更为明显。
个性化服务:端侧AI可以根据用户的具体使用习惯和偏好提供更加个性化的服务,增强用户体验。
小米为什么做端侧AI
l(软件×硬件)A?
l轻量化、本地部署是小米大模型技术主力突破方向
l小米的端侧设备数量大
LLM端侧部署的挑战
存储差异云端VS端侧
存储差异
服务器GPU
手机
计算能力
数百TFLOPS的算力(如A100)
相对较低
内存
大容量显存
有限的内存和存储
(通常几个GB到十几GB)
功耗
设计用于高功耗环境,散热要求高
低功耗设计,优化能效
带宽
A100显存带宽接近1.6TB/s
NPU约70G/s
内存瓶颈
6B模型
6B模型
6B
6B
手机内存~16G
12GB
12GB
模型分片?
推理速度
平均阅读速度:
对于母语读者,平均阅读速度通常在300至500个字每分钟。(50+字/s)
快速阅读速度:
快速阅读者或经过训练的读者可以达到500至700字每分钟,甚至更高。(100+字
/s)
端侧推理速度不做优化20tokens/s以内
相关技术探索
大模型推理时延
推理时延=计算时间+数据搬运时间
减少计算量?剪枝
?量化
减小数据搬运?剪枝
?量化
?投机推理
LLM剪枝
移除神经网络中不重要的权重,或者完全移除这些权重对应的神经元连接。
非结构化剪枝结构化剪枝半结构化剪枝
LLM剪枝
结构化剪枝目前硬件支持最友好
Layer4
Layer4
Layer3
Layer3
Layer3
Layer3
Layer2
Layer2
Layer1Layer1Layer2
Layer1
Layer1
Layer2
剪层剪Head剪维度
LLM剪枝
ShearedLLaMA
剪枝校准目标:加mask训练模型,优化一般的损失+mask稀疏度损失
Sheared-Llama会剪深度和hiddendim,我们认为:
?损失较大
?KVcache压缩不足
l剪枝+少量恢复训练超越相同大小的预训练模型
l简单但很重要,这个结论让剪枝有了意义
[ICLR’24]ShearedLLaMA:AcceleratingLanguageModelPre-trainingviaStructuredPruning
LLM剪枝
高效剪枝TransAct
我们的结构设计有以下特点:
1)保留深度和hiddendim
2)减小MHA和MLP模块内的激活维度
3)参数量相近时,KVcache显著减小
[ACL’2024]PruningLargeLanguageModelstoIntra-moduleLow-rankArchitecturewithTransitionalActivations.
LLM剪枝
计算量端到端时延(w4a16)
LLM剪枝
剪枝效果结构有哪些信誉好的足球投注网站
LLM量化
什么是量化(quantization)?
?在深度学习
文档评论(0)