网站大量收购独家精品文档,联系QQ:2885784924

20250320-AiDD-计算机行业2024AI+研发数字峰会:SUBLLM新架构,文本下采样机制革新大语言模型效率.pdfVIP

20250320-AiDD-计算机行业2024AI+研发数字峰会:SUBLLM新架构,文本下采样机制革新大语言模型效率.pdf

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

SUBLLM新架构:

文本下采样机制革新大语言模型效率

王全东小米大模型团队

演讲嘉宾

王全东

小米大模型团队大模型高级算法工程师

中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级

工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项

顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与

了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创

新技术一等奖。近期和DanielPovey等提出SUBLLM新架构,被量子位等

科技媒体报道。

1.长文本模型的技术挑战

2.SUBLLM架构

目录3.主要实验结果

CONTENTS4.分析与讨论

5.总结与展望

0YEVsQrPmQmMoPpMoQqPpR6MaOaQsQpPsQnQeRpPtQkPsQpO6MqRpPxNmNsOMYsQnQ

PART01

长文本模型的技术挑战

长文本模型的技术挑战

长文本需求旺盛

行业报告长文写作

多人会议摘要学术论文分析…

新闻摘要长篇翻译

长文本模型的技术挑战

长文本模型结构:

DecoderonlyTransformer结构:Llama类似结构,attention的平方复杂度

,byMeta,2023

长文本模型的技术挑战

训练成本高:attention的平方复杂度

8k窗长32K窗长200K窗长1M窗长

2~15Ttokens5~10Btokens5~10Btokens5~10Btokens

主要优化点

长文本模型的技术挑战

模型窗长扩展方法:数据方向,训练成本不高

1.DataEngineeringforScalingLanguageModelsto128KContext

长文本模型的技术挑战

模型窗长扩展方法:位置编码方向,训练成本不高

2.YaRN:EfficientContextWindowExtensionofLargeLanguageModels

NTK-by-parts+温度控制

长文本模型的技术挑战

模型窗长扩展方法:位置编码方向,训练成本不高

3.PoSE:EfficientContextWindowExtensionofLLMs

viaPositionalSkip-wiseTraining

长文本模型的技术挑战

训练成本主要在8k预训练阶段:attention的平方复杂度

8k窗长

文档评论(0)

nihhbg + 关注
实名认证
文档贡献者

理工科男生

1亿VIP精品文档

相关文档