- 1、本文档共75页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1
如何提升大模型任务能力
张奇
复旦大学
标注用户指令百万用户指令和对应的答案语言模型预训练SFT模型指令微调1-100GPU天级别训练时间MOSS、ChatGLM6b、Vicuna-13B等标注对比对百万标注对比对二分类模型RM模型奖励函数
标注用户指令
百万用户指令和对应的答案
语言模型预训练
SFT模型
指令微调
1-100GPU天级别训练时间
MOSS、ChatGLM6b、
Vicuna-13B等
标注对比对百万标注对比对
二分类模型
RM模型
奖励函数
1-100GPU天级别训练时间
用户指令十万用户指令
RL模型
强化学习
强化学习方法
1-100GPU天级别训练时间
ChatGPT、Claude
数据集合
算法
模型
资源需求
ChatGPT实现过程
预训练阶段
原始数据
原始数据
数千亿单词:图书、
百科、网页等
语言模型预训练
基础模型
基础模型
1000+GPU月级别训练时间
GPT3.0、LLaMa、PaLM
2
大模型的能力是如何获取的
标注用户指令百万用户指令和对应的答案语言模型预训练SFT模型指令微调能力注入
标注用户指令
百万用户指令和对应的答案
语言模型预训练
SFT模型
指令微调
能力注入
原始数据
数千亿单词:图书、
百科、网页等
基础模型
预训练阶段
语言模型预训练
知识压缩和表示学习
生成式任务奖励函数
生成式任务
标注对比对
标注对比对百万标注对比对
二分类模型
二分类模型
RM模型
RM模型
强化学习
用户指令
用户指令十万用户指令
强化学习方法
RL模型
RL模型
能力提升
3
所有的能力都需要精心设计
很多任务的能力在一开始并不具备,而是不断叠加上去的
udavincistext-davinci-001scode-davinci-002utext-davinci-002atext-davinci-003nugpt-3.5-turbo
4Acomprehensivecapabilityanalysisofgpt-3andgpt-3.5seriesmodels,Arxiv2023
4
所有的能力都需要精心设计
任务大量叠加会造成一些任务能力下降
Acomprehe5nsivecapabilityanalysisofgpt-3andgpt-3.5seriesmodels,Arxiv2023
预训练阶段如何储存知识
6
人类知识如何定义
人类知识:(name,attribute,value)三元组
(非洲,最大国家,苏丹)(中国,首都,北京)
BitComplexity:这些元组信息有效且无损地表示所需要的最小二进制位数
例如,如果一个拥有1亿参数的模型存储了2.2亿比特的知识,则其容量比例为2.2比特/参数
7
PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024
GPT2模型的知识ScalingLaw
GPT2使用标准AdamW优化器,稳定的保持2bit/参数
无论如何设置参数包括:不同大小、深度、宽度的模型,各种数据量、类型以及超参数
充分训练的7B模型可以保存14Bbits知识
Wikipedia包含4.5Bwords所有英文图书包含16Bwords
知识记忆不是word-by-word记忆,而是能够通过问答获取答案
8
PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024
需要足够多的“曝光”才能完成记忆
达到2bit/参数对于每个知识要达到1000次曝光如果只有100次曝光的话,会减少到1bit/参数
图标上面数字是l,h参数选择
9
PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024
“垃圾”数据对知识获取有显著影响
Wikipediavs.CommonCrawl
10
PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024
预训练阶段结论
1.同一个知识
您可能关注的文档
- 2023年北京市生物医药产业发展简报.docx
- 2023年有哪些信誉好的足球投注网站引警中的智能问答报告.docx
- 2023年自然语言处理算法鲁棒性研究思考报告.docx
- 2024国民健康生活方式干预及影响研究报告-中国发展研究基金会.docx
- 2024年北京市生物医药产业发展梳理202402.docx
- 2024中国医院人力资源现状报告.docx
- PPT模板 -广告人年终总结框架 年度工作总结汇报实例+如何写好年终总结汇报指导 2024.docx
- PPT模板 -广告人年终总结框架 年度工作总结汇报实例+如何写好年终总结汇报指导 2024.pdf
- pwc -汇海导航,稳健前行——企业汇率风险管理实践探索 2024..docx
- Quick BI 智能商业分析产品白皮书 .docx
最近下载
- 医院财务科面试题及参考答案结构化面试题.docx VIP
- 富士精工电梯NICE3000电气图4.5版.pdf
- 医院品管圈提高护理文书书写的正确率活动主题评选表.doc VIP
- 中职示范校建设典型案例—政府主导、校企合作共建生产性实训基地实践精要.pdf
- 医药生物行业精神类药物深度报告:赛道再掀热潮,新机制带来破局.pdf VIP
- 人教版高中物理必修一课件.pptx
- 体检科医院感染消毒隔离制度.doc
- 临终关怀练习试卷附答案.doc
- ASUS华硕主板AMD平台ROG STRIX B650E-E GAMING WIFI 简体中文版使用手册.pdf
- 2024年下半年形势与政策专题测验1-5参考答案.pdf VIP
文档评论(0)