大模型轻量化技术 2024.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大语言模型轻量化的技术需求

大语言模型轻量化的技术概览

大语言模型轻量化技术的详细讲解

大语言模型轻量化技术的未来展望

目录

02

03

01

04

l语言模型是自然语言处理任务中的核心技

术,大语言模型的发展取得突破性进展

自然语言处理技术

自然语言

语言模型背景

l自然语言处理是国家重大战略需求

算力资源消耗大

国务院新一代人工智能发展规划

数字媒宣多模态内容理解

自然语言处理信息检索

可解释性差

语言模型的发展历史和关键难题

2018.102019.102020.052022.102023.03

大语言模型涌现

但是

高存储成本和计算成本推理速度受限

ChatGPT/GPT4

PaLM

大模型参数规模

GPT-3

!

T5

BERT

Param:~1800B

Param:~540B

Param:~170B

Param:~0.3B

Param:~11B

预训练语言模型压缩后的预训练语言模型

轻量化技术

体积更小跑的更快

大模型轻量化目标

压缩

QKV

参数量占比较大,对存储及显存计算造成压力

多头注意力计算造成大量的计算成本,影响计算速度,参数量占比较大。此外,KVCache部分使用空间换取时间,造成缓存压力。

QKV作为中间表示存于内存中,也会对存储造成压力

Embedding层,语义表示的初始化,

影响效果,占据一定的参数量

RotaryPositionEmbedding

LLaMA2为例

Self-Attention(GroupedMulti-QueryAttention)withKVCache

RMSNorm

FeedForward

大模型轻量化的细粒度解析

RMSNorm

Embedding

手机端侧大模型

应用:将大模型应用于

移动端,进行家居控制

医疗大模型

应用:辅助医疗

患者管理

医疗

大模

医师培训

工业大模型

应用:解决生产效率问题等

大模型轻量化技术

硬件

模型压缩推理加速

模型

大模型轻量化技术为模型在实际应用和发展中带来更多便利和机遇

智能家居手机应用

大模型轻量化技术的意义

应用:将大模型应用于智能车仓,提升个性化服务

智能驾驶舱

决策辅助

医疗文书

大语言模型轻量化的技术需求

大语言模型轻量化的技术概览

大语言模型轻量化技术的详细讲解

大语言模型轻量化技术的未来展望

目录

02

03

01

04

轻量化技术总览

降低参数数量

更多的参数数量通常意味着模型更复杂

通过提高参数压缩比,可以降低存储和计算需求

减少占用存储空间大小

模型参数越多,模型文件需要的存储空间越大

压缩存储空间可以降低部署成本,提高模型在存储设备上的传输效率

降低浮点运算数(FLOPs)

模型参数越多,通常意味着在一次前向传播中所需的浮点运算数量越多

降低FLOPs可以为模型带来更快的推理速度

LLaMA3-8B

8B

16GB

LLaMA3-70B

70B

145GB

轻量化相关理论

u轻量化的优化目标

模型参数数量模型大小

显存(GPUMemory)

用于存储训练、推理中的模型参数、梯度和激活值

减少显存占用可降低对显卡设备的要求,增加训练批次大小,减少训练时间。

带宽(Bandwidth)

代表数据在处理器和内存之间的传输速度

降低带宽占用可以减少因数据传输带来的延迟,提高计算速度。

内存(RAM)

用于存储训练数据、模型参数和中间计算结果

降低内存空间需求可以减少磁盘交换操作,提升训练效率。

轻量化相关理论

u轻量化模型减轻硬件压力

性能有限设备上LLM难以部署

参数压缩比(CompressionRate):轻量化后模型的参数占原始参数的比例

轻量化相关理论

u轻量化模型评估指标

虚拟用户个数

模型推理

用户输入

模型推理

模型输出

推理时间

延迟

指标

文档评论(0)

随风飘落 + 关注
实名认证
内容提供者

人力资源管理师持证人

一个写作爱好者,与大家分享

领域认证该用户于2023年07月07日上传了人力资源管理师

1亿VIP精品文档

相关文档