阿里团队Qwen2.5-1M系列大模型技术报告.docx

下载文档

0
0
约3.42万字
约 37页
2025-02-25 发布于北京
举报
版权申诉
保障服务

阿里团队Qwen2.5-1M系列大模型技术报告.docx

1、本文档共37页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2025年01?26?

Qwen2.5-1M技术报告

章。

于，夏?，任兴彰，杨新?，李勇，许志鹰，张?鹏

章。

奋团队，阿里巴巴集团

摘要

在本报告中，我们介绍了Qwen2.5-1M系列模型，将上下??度扩展到100万标记。与之前的128K版本相?，Qwen2.5-1M系列通过?上下?的预训练和后训练，显著增强了?上下?功能。通过?数据合成、渐进式预训练和多阶段监督微调等关键技术，有效提?了?上下?的性能，同时降低了训练成本。

为了推??上下?模型在更?泛的??群之间的使?，我们展?并开源了我们的推理框架。该框架包括?种?度外推?法，可以将模型的上下??度扩展??少四倍，甚?更多，??需额外训练。为了降低推理成本，我们实现了稀疏注意??法，以及?于部署场景的分块预填优化和?于提?精度的稀疏度优化?法。此外，我们详细介绍了推理引擎中的优化，包括内核优化，管道并?和调度优化，显著提?了整体推理性能。通过利?我们的推理框架，Qwen2.5-1M模型在具有100万标记上下?的场景中实现了显著的3倍?7倍的预填加速。该框架为使?开源模型进??上下?处理的应?提供了?效且强?的解决?案。

Qwen2.5-1M系列?前包括开源模型Qwen2.5-7B-Instruct-

1M和Qwen2.5-14B-Instruct-1M，以及API访问模型Qwen2.5-Turbo。

评估显?，Qwen2.5-1M模型在??本任务中有了极?的改进，?在短?本情景中表现出?能?并未受到影响。具体来说，Qwen2.5-14B-Instruct-1M模型在??本任务中显著优于GPT-4o-mini，?持?度为其?倍的上下?。

?档顶部

?档深度

?件底部

Qwen2.5-14B-Instruct-1M

上下??度（#词元）

100%

检索准确率

50%

检索准确率

检索准确度

?件底部

Qwen2.5-7B-Instruct-1M

?件底部

Qwen2.5-Turbo

上下??度（#令牌）上下??度（#令牌）

图1:Qwen2.5-1M模型上的Passkey检索测试，?档?度达100万令牌。

此测试评估了模型从装满不相关内容的超??档中检索隐藏数字的能?。结果显?，Qwen2.5-1M模型可以准确地从包含多达100万令牌的?档中检索隐藏数字，仅在7B模型中观察到轻微错误。

*作者按姓?字?顺序排序。

1介绍

?型语?模型（LLMs）通过展?出在理解、?成和与?类语?交互??的出?能?，已经在?然语?处理领域引起了?命性变?（Brown等,2020年；OpenAI，2023年；2024年；Gemini团队，2024年；Anthropic，2023年a；b；2024年；Bai等，2023年；Yang等，2024年a；

2025年；Touvron等，2023年a；b；Dubey等，2024年；Jiang等，2023年a；2024年a）。然?，有限的上下??度限制了它们?次处理的?本量，使它们的能?仅限于较为简单的单?任务，并阻碍其处理需要?量信息处理或?成的复杂实际场景。例如，LLMs在依赖存储库级上下?进?代码?成和调试,或基于?量?档进?深?研究时会遇到困难。

为了解决这个问题，增加LLMs的上下?窗?已经成为?个重要趋势。像GPT系列模型（Brown等，2020年；OpenAI，2023年；2024年）、LLama系列模型（Touvron等，2023年a；b；Dubey等，2024年）、以及我们的Qwen系列模型（Bai等，2023年；Yang等，2024年a；Qwen团队，2024年a；Hui等，2024年；Qwen团队，2024年c;Yang等，2024年b）已经从最初的4k或8k个标记的上下?窗?迅速扩展到当前的128k个标记。还有探索将LLMs的上下??度延伸到1M个标记甚?更?的模型，如Gemini（Gemini团队，2024年）、GLM-9B-Chat-1M（Zeng等，2024年）、以及GradientAI的Llama-3-1M模型（Pe