国君计算机|DeepSeek NSA架构引领AI效率革新

AI划重点 · 全文约1332字,阅读需4分钟

1.国泰君安证券研究发布DeepSeek NSA架构相关论文,突破长文本处理瓶颈,推动AI大模型效率竞争。

2.NSA采用原生稀疏注意力机制,实现长上下文处理的效率提升,不逊于全注意力模型。

3.由于此技术,算力门槛降低,加速AI民主化进程,使更多中小企业有机会参与AI底层开发。

4.长文本处理能力的提升将催生新的应用场景,驱动商业模式创新,如在边缘计算等低延迟场景中。

5.然而,技术竞争加剧和商业化进程不及预期的风险仍需关注。

以上内容由腾讯混元大模型生成,仅供参考

本文转载自微信公众号:国泰君安证券研究
图片
投资建议:DeepSeek发布NSA(Native Sparse Attention)相关论文,突破长文本处理瓶颈,低成本模型训练可行性推动AI大模型转向算法效率竞争。通过降低AI应用开发门槛,有望激发新一轮创新浪潮,最终加速AI在各行业的渗透,带动整个产业链升级,从基础设施到应用层都将会迎来新的发展机遇。
NSA通过原生稀疏注意力机制在长上下文处理实现突破。长上下文处理是大模型发展的关键瓶颈之一,softmax架构中注意力计算占解码64k上下文总延迟的70%-80%。NSA采用三条并行的注意力分支:压缩注意力捕获全局信息,选择性注意力保留重要token,滑动窗口注意力处理局部上下文,在通用基准测试中不逊于全注意力模型,同时实现了长文本处理的效率提升。
算力门槛的降低将加速AI民主化进程。NSA技术通过端到端的稀疏训练显著降低了预训练所需的计算资源,减少了A100 GPU在预训练过程中的使用时长,降低了企业开发大模型的资金与技术门槛,使更多中小企业有机会参与AI底层开发。算力门槛的显著降低,将推动AI技术从少数科技巨头向更广泛市场普及。
长文本处理能力的提升将催生新的应用场景,驱动商业模式创新。NSA技术使模型能够直接处理整本书籍、代码仓库或千轮级别的客服对话。这种长序列处理能力的提升,将显著扩展AI在文档分析、代码生成等领域的应用边界。特别是在边缘计算等低延迟场景中,NSA的高效推理特性或催生出全新的商业模式,从而也给硬件厂商、解决方案商等带来新的市场机遇。
风险提示:技术竞争加剧、商业化进程不及预期的风险。
   文章来源 
本文摘自:2025年2月20日发布的《DeepSeek NSA架构引领AI效率革新》
李博伦,资格证书编号:S0880520020004
伍   巍,资格证书编号:S0880123070157
钟明翰,资格证书编号:S0880124070047
更多国君研究和服务
亦可联系对口销售获取
重要提醒
本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为保证服务质量、控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。我们对由此给您造成的不便表示诚挚歉意,非常感谢您的理解与配合!如有任何疑问,敬请按照文末联系方式与我们联系。
法律声明
本公众订阅号(微信号: GTJARESEARCH )为国泰君安证券股份有限公司(以下简称“国泰君安证券”) 研究所依法设立、独立运营的唯一官方订阅号。其他机构或个人在微信平台上以国泰君安研究所名义注册的,或含有“国泰君安研究",或含有与国泰君安证券研究所品牌名称相关信息的其他订阅号均不是国泰君安证券研究所官方订阅号。
本订阅号不是国泰君安证券研究报告发布平台,本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。
在任何情况下,本订阅号的内容不构成对任何人的投资建议,国泰君安证券也不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。
本订阅号所载内容版权仅为国泰君安证券所有,国泰君安证券对本订阅号保留一切法律权利。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需注明出处为“国泰君安研究”, 且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。