网站大量收购独家精品文档,联系QQ:2885784924

阿里团队Qwen2.5-1M系列大模型技术报告.pdf

阿里团队Qwen2.5-1M系列大模型技术报告.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2025年01⽉26⽇

Qwen2.5-1M技术报告

安阳,于博⽂,李诚远,刘⼤铮,⻩斐,⻩浩⾔,江建东,屠建宏,张建伟,周景仁,林俊阳,党凯,杨柯馨,乐⽟,李美,孙敏敏,朱钦,⻔瑞,何涛,徐伟佳,尹⽂彪,⽂元,余俊,秦宙明,邱霞⻜,任兴彰,杨新⻰,李勇,徐志颖,张芝鹏

章。

于,夏⻜,任兴彰,杨新⻰,李勇,许志鹰,张⼦鹏

章。

奋团队,阿里巴巴集团

摘要

在本报告中,我们介绍了Qwen2.5-1M系列模型,将上下⽂⻓度扩展到100万标记。与之

前的128K版本相⽐,Qwen2.5-1M系列通过⻓上下⽂的预训练和后训练,显著增强了⻓

上下⽂功能。通过⻓数据合成、渐进式预训练和多阶段监督微调等关键技术,有效提⾼

了⻓上下⽂的性能,同时降低了训练成本。

为了推⼴⻓上下⽂模型在更⼴泛的⽤⼾群之间的使⽤,我们展⽰并开源了我们的推理框

架。该框架包括⼀种⻓度外推⽅法,可以将模型的上下⽂⻓度扩展⾄⾄少四倍,甚⾄更

多,⽽⽆需额外训练。为了降低推理成本,我们实现了稀疏注意⼒⽅法,以及⽤于部署

场景的分块预填优化和⽤于提⾼精度的稀疏度优化⽅法。此外,我们详细介绍了推理引

擎中的优化,包括内核优化,管道并⾏和调度优化,显著提⾼了整体推理性能。通过利

⽤我们的推理框架,Qwen2.5-1M模型在具有100万标记上下⽂的场景中实现了显著的3

倍⾄7倍的预填加速。该框架为使⽤开源模型进⾏⻓上下⽂处理的应⽤提供了⾼效且强

⼤的解决⽅案。

Qwen2.5-1M系列⽬前包括开源模型Qwen2.5-7B-Instruct-

1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。

评估显⽰,Qwen2.5-1M模型在⻓⽂本任务中有了极⼤的改进,⽽在短⽂本情景中表现

出⾊能⼒并未受到影响。具体来说,Qwen2.5-14B-Instruct-1M模型在⻓⽂本任务中显

著优于GPT-4o-mini,⽀持⻓度为其⼋倍的上下⽂。

Qwen2.5-14B-Instruct-1M

⽂档顶部100%

检索准确率

文档评论(0)

如此醉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档