网站大量收购独家精品文档,联系QQ:2885784924

阿里团队Qwen2.5-1M系列大模型技术报告.docx

阿里团队Qwen2.5-1M系列大模型技术报告.docx

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1

2025年01?26?

Qwen2.5-1M技术报告

章。

于,夏?,任兴彰,杨新?,李勇,许志鹰,张?鹏

章。

奋团队,阿里巴巴集团

摘要

在本报告中,我们介绍了Qwen2.5-1M系列模型,将上下??度扩展到100万标记。与之前的128K版本相?,Qwen2.5-1M系列通过?上下?的预训练和后训练,显著增强了?上下?功能。通过?数据合成、渐进式预训练和多阶段监督微调等关键技术,有效提?了?上下?的性能,同时降低了训练成本。

为了推??上下?模型在更?泛的??群之间的使?,我们展?并开源了我们的推理框架。该框架包括?种?度外推?法,可以将模型的上下??度扩展??少四倍,甚?更多,??需额外训练。为了降低推理成本,我们实现了稀疏注意??法,以及?于部署场景的分块预填优化和?于提?精度的稀疏度优化?法。此外,我们详细介绍了推理引擎中的优化,包括内核优化,管道并?和调度优化,显著提?了整体推理性能。通过利?我们的推理框架,Qwen2.5-1M模型在具有100万标记上下?的场景中实现了显著的3倍?7倍的预填加速。该框架为使?开源模型进??上下?处理的应?提供了?效且强?的解决?案。

Qwen2.5-1M系列?前包括开源模型Qwen2.5-7B-Instruct-

1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。

评估显?,Qwen2.5-1M模型在??本任务中有了极?的改进,?在短?本情景中表现出?能?并未受到影响。具体来说,Qwen2.5-14B-Instruct-1M模型在??本任务中显著优于GPT-4o-mini,?持?度为其?倍的上下?。

?档顶部

?档深度

?件底部

Qwen2.5-14B-Instruct-1M

上下??度(#词元)

100%

检索准确率

50%

检索准确率

0%

检索准确度

?件底部

Qwen2.5-7B-Instruct-1M

?件底部

Qwen2.5-Turbo

上下??度(#令牌)上下??度(#令牌)

图1:Qwen2.5-1M模型上的Passkey检索测试,?档?度达100万令牌。

此测试评估了模型从装满不相关内容的超??档中检索隐藏数字的能?。结果显?,Qwen2.5-1M模型可以准确地从包含多达100万令牌的?档中检索隐藏数字,仅在7B模型中观察到轻微错误。

*作者按姓?字?顺序排序。

2

1介绍

?型语?模型(LLMs)通过展?出在理解、?成和与?类语?交互??的出?能?,已经在?然语?处理领域引起了?命性变?(Brown等,2020年;OpenAI,2023年;2024年;Gemini团队,2024年;Anthropic,2023年a;b;2024年;Bai等,2023年;Yang等,2024年a;

2025年;Touvron等,2023年a;b;Dubey等,2024年;Jiang等,2023年a;2024年a)。然?,有限的上下??度限制了它们?次处理的?本量,使它们的能?仅限于较为简单的单?任务,并阻碍其处理需要?量信息处理或?成的复杂实际场景。例如,LLMs在依赖存储库级上下?进?代码?成和调试,或基于?量?档进?深?研究时会遇到困难。

为了解决这个问题,增加LLMs的上下?窗?已经成为?个重要趋势。像GPT系列模型(Brown等,2020年;OpenAI,2023年;2024年)、LLama系列模型(Touvron等,2023年a;b;Dubey等,2024年)、以及我们的Qwen系列模型(Bai等,2023年;Yang等,2024年a;Qwen团队,2024年a;Hui等,2024年;Qwen团队,2024年c;Yang等,2024年b)已经从最初的4k或8k个标记的上下?窗?迅速扩展到当前的128k个标记。还有探索将LLMs的上下??度延伸到1M个标记甚?更?的模型,如Gemini(Gemini团队,2024年)、GLM-9B-Chat-1M(Zeng等,2024年)、以及GradientAI的Llama-3-1M模型(Pe

文档评论(0)

哈哈 + 关注
实名认证
内容提供者

嗨,朋友,我都会用最可爱的语言和最实用的内容,帮助你更好地理解和应对职场中的各种挑战!

1亿VIP精品文档

相关文档