- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
腾讯AngelPTM大模型训练框架优化与实践
支撑混元大模型训练的训练框架
空白演示
Loremipsumdolorsitamet,consecteturadipisicingelit.
薛金宝
2024.6
1大模型发展趋势和训练面临的挑战
3
大模型成为人工智能发展的重要方向
模型参数规模
指数级增长
•生成式大模型突飞猛进,5年时间,模型参数规模增长100万倍,达到万亿量级
•ScalingLaw[1]:数据越多、模型越大,模型学习能力越强,模型效果越好
[1]OpenAI“ScalingLawsforNeuralLanguageModels”,/abs/2001.08361,2020
大模型发展趋势-模态变化
文生文文生图文生视频多模态全模态
ChatGPTStableDiffusionSoraGPT4V
GPT5
Llama3DiTSTDiTGemini
大模型发展趋势-MOE以及更长ContextWindow
Expert1Expert2…Expert16
FFN层门控模块
120层
Self-Attention层(共享参数)模型容量/效果
Decoder-Only模型参数量越大效果越好
相同激活参数量,MoE更好
总参量:~1.8T
训练数据:~13TTokens训练/推理成本
激活2个Expert(111B参数/Expert)成本低,e.g.,GLaM[1]训练成本相当于GPT-3的1/3,
Self-Attention层是55B的共享参数推理成本相当于GPT-3的1/2,但效果超过GPT-3
ContextWindow,最初是8K,逐步精调至32K
终身学习
[1]GLaM:EfficientScalingofLanguageModelswithMixture-of-Experts各类数据,知识和特征分布不同,容易出现知识干扰和
[2]SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity遗忘
[3]LifelongLanguagePretrainingwithDistribution-SpecializedExpertsDense模型数据的配比挑战很大,配比小的数据很难表
[4]/gpt-4-architecture-datasets-costs-and-more-leaked/
现较好
大模型训练的挑战
显存需
您可能关注的文档
- 食系列之食品企业出海:食品出口合规概览.pdf
- 饰品-如何看待金价对金饰消费以及珠宝公司业绩影响,.pdf
- 腾讯控股(00700)再认知系列深度报告II:量化分红、回购的财务影响,从股东回报和业务发展看公司合理估值区间-华创证券[刘欣,廖志国,刘文轩]-20240718【40页】.pdf
- 世界银行 -西巴尔干6国气候与发展报告.pdf
- 腾远钴业 公司首次覆盖报告:国内领先的钴、铜生产商,着力打造一体化布局.pdf
- 世界银行 -海底电缆对互联网接入价格的影响以及竞争和监管的作用.pdf
- 通信-行业周报:OpenAI提出通用人工智能五级标准.pdf
- 同和药业 传统品种业务稳健,高端市场原料药新品放量有望加速.pdf
- 网络5.0的体系架构.pdf
- 世界银行 -2024年4月乍得经济更新-以包容的方式收容难民特别章节.pdf
文档评论(0)