网站大量收购独家精品文档,联系QQ:2885784924

计算机行业AI与专题系列点评:DeepSeek发布必威体育精装版论文,大模型长文本推理革命.docx

计算机行业AI与专题系列点评:DeepSeek发布必威体育精装版论文,大模型长文本推理革命.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目 录

TOC\o1-2\h\z\u一、NSA颠覆性技术突破:从算法到硬件全面进化 4

(一)NSA实现技术突破,计算效率显著提高 4

(二)NSA完成技术创新,成功部署高效稀疏注意力机制 5

二、性能测试刷新SOTA,全面碾压传统方案 6

图表目录

图表1 基于Triton的NSA实现与基于Triton的FlashAttention-2训练速度比较 4

图表2 NSA在长序列解码时具有显著的效率优势 4

图表3 NSA架构 5

图表4 全注意力基线模型与NSA在通用基准测试上的预训练性能比较 6

图表5 通用基准测试中全注意力模型与NSA性能和效率比较 6

图表6 64k上下文长度下NSA实现完美的准确性 7

图表7 NSA模型与基线模型在LongBench上的性能比较 7

图表8 NSA-R在不同序列长度下性能展示 8

一、NSA颠覆性技术突破:从算法到硬件全面进化

(一)NSA实现技术突破,计算效率显著提高

技术上,NSA通过硬件级优化:将算术强度精确控制在GPU临界值(16.8TFLOPS/1.5TBps

≈11.2)之上;动态分层稀疏:采用32token压缩块+64token选择块的组合策略;三重注意力通路:压缩全局(6.25%计算量)、精选局部(25%计算量)、滑动窗口(8%计算量),使NSA架构在64K长文本场景下,实现解码速度提升11.6倍、前向传播9倍加速、反

向传播6倍加速。

图表1基于Triton的NSA实现与基于Triton的FlashAttention-2训练速度比较

ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse

Attention》

图表2 NSA在长序列解码时具有显著的效率优势

ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse

Attention》

(二)NSA完成技术创新,成功部署高效稀疏注意力机制

NSA在技术上引入了两个核心创新点:1.硬件对齐系统:优化块级稀疏注意力,使其充分利用TensorCore并优化内存访问,从而实现平衡的算术强度;2.训练感知设计:通过高效算法和反向传播运算符实现稳定的端到端训练,使NSA能够同时支持高效推理与完整训练流程。从而成功部署原生可训练的稀疏注意力架构,并集成了分层token建模。同时,NSA还设计了专用计算内核,以最大化实际计算效率。

图表3NSA架构

ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse

Attention》

二、性能测试刷新SOTA,全面碾压传统方案

通用基准评估中,NSA总体表现优越,在推理能力上展现显著优势。研究人员在一套全面的基准测试中评估了预训练的NSA和全注意力基线,覆盖了知识、推理和编码能力。尽管NSA具有稀疏性,但它在总体性能上表现优越,在9个指标中有7个超过了包括全注意力在内的所有基线,且在推理相关的基准测试中显示出显著的提升(DROP:+0.042,GSM8K:+0.034)。

图表4 全注意力基线模型与NSA在通用基准测试上的预训练性能比较

ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse

Attention》

图表5 通用基准测试中全注意力模型与NSA性能和效率比较

ingyangYuan等《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparse

Attention》

长文本评估方面,NSA达到完美准确性。NSA使用层次化的稀疏注意力设计,该设计结合了压缩token以实现高效的全局上下文扫描,以及用于精确局部信息检索的选择token。粗粒度的压缩在低计算成本下识别相关的上下文块,而对选择token的token级注意力则

确保了关键细粒度信息的保留,使NSA能够同时保持全局感知能力和局部精确性。图表6 64k上下文长度下NSA实现完美的准确性

ingyangYuan等《NativeS

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档