- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1
2025年01?26?
Qwen2.5-1M技术报告
章。
于,夏?,任兴彰,杨新?,李勇,许志鹰,张?鹏
章。
奋团队,阿里巴巴集团
摘要
在本报告中,我们介绍了Qwen2.5-1M系列模型,将上下??度扩展到100万标记。与之前的128K版本相?,Qwen2.5-1M系列通过?上下?的预训练和后训练,显著增强了?上下?功能。通过?数据合成、渐进式预训练和多阶段监督微调等关键技术,有效提?了?上下?的性能,同时降低了训练成本。
为了推??上下?模型在更?泛的??群之间的使?,我们展?并开源了我们的推理框架。该框架包括?种?度外推?法,可以将模型的上下??度扩展??少四倍,甚?更多,??需额外训练。为了降低推理成本,我们实现了稀疏注意??法,以及?于部署场景的分块预填优化和?于提?精度的稀疏度优化?法。此外,我们详细介绍了推理引擎中的优化,包括内核优化,管道并?和调度优化,显著提?了整体推理性能。通过利?我们的推理框架,Qwen2.5-1M模型在具有100万标记上下?的场景中实现了显著的3倍?7倍的预填加速。该框架为使?开源模型进??上下?处理的应?提供了?效且强?的解决?案。
Qwen2.5-1M系列?前包括开源模型Qwen2.5-7B-Instruct-
1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。
评估显?,Qwen2.5-1M模型在??本任务中有了极?的改进,?在短?本情景中表现出?能?并未受到影响。具体来说,Qwen2.5-14B-Instruct-1M模型在??本任务中显著优于GPT-4o-mini,?持?度为其?倍的上下?。
?档顶部
?档深度
?件底部
Qwen2.5-14B-Instruct-1M
上下??度(#词元)
100%
检索准确率
50%
检索准确率
0%
检索准确度
?件底部
Qwen2.5-7B-Instruct-1M
?件底部
Qwen2.5-Turbo
上下??度(#令牌)上下??度(#令牌)
图1:Qwen2.5-1M模型上的Passkey检索测试,?档?度达100万令牌。
此测试评估了模型从装满不相关内容的超??档中检索隐藏数字的能?。结果显?,Qwen2.5-1M模型可以准确地从包含多达100万令牌的?档中检索隐藏数字,仅在7B模型中观察到轻微错误。
*作者按姓?字?顺序排序。
2
1介绍
?型语?模型(LLMs)通过展?出在理解、?成和与?类语?交互??的出?能?,已经在?然语?处理领域引起了?命性变?(Brown等,2020年;OpenAI,2023年;2024年;Gemini团队,2024年;Anthropic,2023年a;b;2024年;Bai等,2023年;Yang等,2024年a;
2025年;Touvron等,2023年a;b;Dubey等,2024年;Jiang等,2023年a;2024年a)。然?,有限的上下??度限制了它们?次处理的?本量,使它们的能?仅限于较为简单的单?任务,并阻碍其处理需要?量信息处理或?成的复杂实际场景。例如,LLMs在依赖存储库级上下?进?代码?成和调试,或基于?量?档进?深?研究时会遇到困难。
为了解决这个问题,增加LLMs的上下?窗?已经成为?个重要趋势。像GPT系列模型(Brown等,2020年;OpenAI,2023年;2024年)、LLama系列模型(Touvron等,2023年a;b;Dubey等,2024年)、以及我们的Qwen系列模型(Bai等,2023年;Yang等,2024年a;Qwen团队,2024年a;Hui等,2024年;Qwen团队,2024年c;Yang等,2024年b)已经从最初的4k或8k个标记的上下?窗?迅速扩展到当前的128k个标记。还有探索将LLMs的上下??度延伸到1M个标记甚?更?的模型,如Gemini(Gemini团队,2024年)、GLM-9B-Chat-1M(Zeng等,2024年)、以及GradientAI的Llama-3-1M模型(Pe
您可能关注的文档
- 企业人才评鉴的数字革命:现状、应用与未来-智联测评研究院.pptx
- 企业文化概述与基本框架工作手册.pptx
- 2025我们该如何看待DeepSeek——what, how, why, and next.pptx
- 2025年生鲜消费新趋势.pptx
- 2025年企业端午节日礼盒趋势报告-古德战略智库.pptx
- 破局重塑—释放智能制造全新生产力-亚马逊云科技.docx
- 企业人才评鉴的数字革命:现状、应用与未来-智联测评研究院.docx
- “AI”+系列军工专题报告之一:Deepseek冲击波:硅基防线,AI铸剑.docx
- 2024年腾讯云云原生提升增效实践精选集-腾讯云&InfoQ研究中心.docx
- 2024年消费者调查报告:汽车用户行为及观点分析(英文版)-澳大利亚交通能源研究所.docx
文档评论(0)