2024年如何提升大模型任务能力报告.docx

2024年如何提升大模型任务能力报告.docx

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1

如何提升大模型任务能力

张奇

复旦大学

标注用户指令百万用户指令和对应的答案语言模型预训练SFT模型指令微调1-100GPU天级别训练时间MOSS、ChatGLM6b、Vicuna-13B等标注对比对百万标注对比对二分类模型RM模型奖励函数

标注用户指令

百万用户指令和对应的答案

语言模型预训练

SFT模型

指令微调

1-100GPU天级别训练时间

MOSS、ChatGLM6b、

Vicuna-13B等

标注对比对百万标注对比对

二分类模型

RM模型

奖励函数

1-100GPU天级别训练时间

用户指令十万用户指令

RL模型

强化学习

强化学习方法

1-100GPU天级别训练时间

ChatGPT、Claude

数据集合

算法

模型

资源需求

ChatGPT实现过程

预训练阶段

原始数据

原始数据

数千亿单词:图书、

百科、网页等

语言模型预训练

基础模型

基础模型

1000+GPU月级别训练时间

GPT3.0、LLaMa、PaLM

2

大模型的能力是如何获取的

标注用户指令百万用户指令和对应的答案语言模型预训练SFT模型指令微调能力注入

标注用户指令

百万用户指令和对应的答案

语言模型预训练

SFT模型

指令微调

能力注入

原始数据

数千亿单词:图书、

百科、网页等

基础模型

预训练阶段

语言模型预训练

知识压缩和表示学习

生成式任务奖励函数

生成式任务

标注对比对

标注对比对百万标注对比对

二分类模型

二分类模型

RM模型

RM模型

强化学习

用户指令

用户指令十万用户指令

强化学习方法

RL模型

RL模型

能力提升

3

所有的能力都需要精心设计

很多任务的能力在一开始并不具备,而是不断叠加上去的

udavincistext-davinci-001scode-davinci-002utext-davinci-002atext-davinci-003nugpt-3.5-turbo

4Acomprehensivecapabilityanalysisofgpt-3andgpt-3.5seriesmodels,Arxiv2023

4

所有的能力都需要精心设计

任务大量叠加会造成一些任务能力下降

Acomprehe5nsivecapabilityanalysisofgpt-3andgpt-3.5seriesmodels,Arxiv2023

预训练阶段如何储存知识

6

人类知识如何定义

人类知识:(name,attribute,value)三元组

(非洲,最大国家,苏丹)(中国,首都,北京)

BitComplexity:这些元组信息有效且无损地表示所需要的最小二进制位数

例如,如果一个拥有1亿参数的模型存储了2.2亿比特的知识,则其容量比例为2.2比特/参数

7

PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024

GPT2模型的知识ScalingLaw

GPT2使用标准AdamW优化器,稳定的保持2bit/参数

无论如何设置参数包括:不同大小、深度、宽度的模型,各种数据量、类型以及超参数

充分训练的7B模型可以保存14Bbits知识

Wikipedia包含4.5Bwords所有英文图书包含16Bwords

知识记忆不是word-by-word记忆,而是能够通过问答获取答案

8

PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024

需要足够多的“曝光”才能完成记忆

达到2bit/参数对于每个知识要达到1000次曝光如果只有100次曝光的话,会减少到1bit/参数

图标上面数字是l,h参数选择

9

PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024

“垃圾”数据对知识获取有显著影响

Wikipediavs.CommonCrawl

10

PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024

预训练阶段结论

1.同一个知识

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档