DeepSeek-V3和R1的发布吸引了全球的目光。它将训练成本大幅压缩至GPT-4o十分之一,而 API 价格更是仅为 GPT-4o 的百分之一。这种显著的成本下降必将会使大模型得到更广泛的应用,中小型公司甚至是个人开发者都能基于最先进的大模型创造自己的智能应用。
导 读
随着人工智能的飞速发展,大模型在多领域展现出卓越性能。然而,高昂的训练与推理成本一直是大模型大规模应用的瓶颈。最近DeepSeek-V3和R1的发布,代表着模型结构和训练方式的革新,训练开销正在快速下降。大幅削减训练费用,使得大模型不再只是巨头企业的专属。本文围绕“迈向更经济的大模型:大模型将不再是少数人的游戏”的主题,探讨了大模型取得的突破,并就未来面临的挑战与机遇进行了深入分析。
图1 迈向更经济的大模型
近年来,大模型取得了巨大进展。当我们还在惊叹大模型展现出的惊人能力时,其应用门槛的持续下探正悄然重塑整个产业格局。最近发布的DeepSeek-V3和R1引发了广泛讨论。通过创新的架构设计和高效的训练策略,在显著降低训练成本的同时,其性能达到了顶级闭源模型的水平。DeepSeek-V3的预训练成本仅为557.6万美元,远低于像GPT-4这样模型所需的数亿美元。这一突破不仅标志着大模型技术的普及化,还为更多的中小型企业和研究机构参与AI创新创造了机会。未来,大模型将不再是少数人的游戏。
大模型价格曲线的陡峭下滑
过去三年间,大模型技术实现了性能与成本的双重突破。在数学推理领域,Llama-3于GSM8K基准测试中创下96.8%的准确率,较其早期版本提升超过40%;编程理解与生成能力已逼近中级开发者水平;知识问答的准确性和泛化性更是显著提升。与此同时,大模型的推理成本呈现断崖式下降,DeepSeek最新API定价已降至每百万tokens 0.014美元,仅为GPT-4定价的1%,这使得开发者用原本处理1万次交互的成本,即可支撑百万级用户访问需求。就像智能手机的普及曲线,大模型正从"实验室珍品"蜕变为开发者触手可及的工具。技术进步带来了成本降低。
这场成本革命的核心驱动力来自三大技术突破。在架构创新层面,DeepSeek-V3通过FP8混合精度训练将资源消耗降低50%,其采用的混合专家系统(MoE)通过动态激活机制,使得每次前向计算仅调用约20亿参数(占总参数量的5%),配合多头潜在注意力(MLA)技术,成功将Key-Value Cache内存占用减少30%。模型压缩技术的突破同样关键,SparseGPT实现的50%-60%参数稀疏化无需微调即可保持性能,结合4-bit量化技术将存储需求压缩至原始1/4。硬件效率的飞跃也不容忽视,NVIDIA H100 GPU将计算能力从19.5 TFLOPS提升至67 TFLOPS,配合FP8原生支持使矩阵运算效率提升215%,加之Transformer算子优化实现的端到端训练加速40%,共同构筑起算力效率的进步。
现状、未来与挑战
在医疗领域,某三甲医院已部署定制化AI辅助诊断系统;在制造业,中小企业用大模型优化供应链管理已成常态。随着API价格持续下探,模型的成本不再是最大障碍。未来大模型将像互联网一样深刻改变个人与社会生活场景,每个开发者都能像搭积木一样构建专属AI助手——这个场景,正在从科幻走向现实。然而这样背后暗藏隐忧。当前高质量训练数据消耗速度已达产出速度的3倍,预计2026年将面临枯竭;高端计算硬件和资源垄断在少数国家和巨头的手中,硬件垄断风险日益凸显;Transformer架构的改进收益呈现递减趋势,参数增长曲线逐渐趋缓;同时,随着模型应用规模增长带来的社会与伦理风险(合规、安全性、知识产权保护等)也不可忽视。
总结与展望
大模型的快速发展标志着人工智能进入了一个新时代。大模型正呈现出性能持续提升和成本不断降低的趋势。像DeepSeek-V3和R1这样的创新技术正在推动大模型的普及化,使更多中小型企业和开发者受益。然而,数据枯竭、计算壁垒以及架构创新等挑战仍需解决。此外,数据隐私和算法偏见等伦理和社会影响也不容忽视。未来,通过技术创新和协作,我们期待实现更具包容性和可持续性的人工智能发展,从而促进科技进步,惠及整个社会。
https://www.sciencedirect.com/science/article/pii/S2666675825000359
本文内容来自Cell Press 合作期刊The Innovation 第六卷第四期发表的Editorial文章“DeepSeek:Towards more economical large-scale foundation models-no longer a game for the few” (投稿: 2025-01-24;接收: 2025-01-27;在线刊出: 2025-01-30)。
DOI:10.1016/j.xinn.2025.100832
引用格式:Wu Y., Zhang Z., Wang F., et al. (2025). DeepSeek:Towards more economical large-scale foundation models-no longer a game for the few. The Innovation 6: 100832.
作者简介
吴贻清 中国科学院计算技术研究所在读博士生。于2020年获得大连理工大学工学学士学位。其主要研究方向包括数据挖掘,图神经网络,在TKDE、KDD、SIGIR等期刊和会议发表论文10余篇。
张 钊 中国科学院计算技术研究所副研究员。研究方向为数据挖掘、知识图谱与知识计算,在TKDE、TOIS、KDD、SIGIR等会议和期刊发表文章40余篇。作为负责人承担国家自然科学基金、博士后基金等项目多项。获得CIKM 2023最佳短文奖和DASFAA 2022最佳学生论文奖。
王 飞 中国科学院计算技术研究所副研究员,中国科学院青年创新促进会会员,中国科学院计算技术研究所“新百星”,从事时空大数据分析挖掘、态势计算系统研究,发表KDD、VLDB等论文50余篇。曾获中国指控学会科技进步奖一等奖、二等奖,The Innovation《创新》期刊最佳论文奖。
徐勇军 中国科学院计算技术研究所研究员,博士生导师,中国科学院青年创新促进会优秀会员。长期专注于人工智能系统、大数据处理技术等领域的研究及应用。目前在本领域重要学术会议和期刊上发表学术论文100多篇(如TPAMI、KDD、CVPR、AAAI、INFOCOM、DASFAA等)。获得北京市科学技术奖、中国指控学会科技进步奖、中国科学院院地合作先进个人奖、卓越先锋标兵、“卢嘉锡”青年人才奖、关键技术人才等奖励。
黄金才 国防科技大学研究员,博士生导师,爱丁堡大学高级访问学者,中国人工智能学会理事,机器学习专委会副主任。主要从事人工智能技术、运筹学、智能博弈技术等方面的研究,主持完成国家自然基金等项目20余项。获省级科技进步奖9项,吴文俊人工智能科技进步一等奖1项,出版专著和教材7部,发表SCI/EI检索论文40余篇。
往期推荐
诺奖的启示:人工智能正在构建新世界
智能化科研,实现数据到知识的自主涌现
拥抱AI的国际合作新时代
AI助诊新突破:基于细胞学的深度学习揭秘未知原发癌症的起源
从ADC向XDC:AI引领偶联药物革新——机遇与挑战
可解释的AI算法精准预测流产风险,带来早期预防新希望
AI甄别:机器学习整合泛组学特征挖掘真菌多药耐药诊断标志物
在AI时代的药物研发
轻量化AI驱动的临近降水预报模型
面向医疗人工智能(AI)新纪元,探索建立评估体系
AI技术在无资料区径流与洪水预报中表现卓越
大规模生成式仿真智能:生成式AI的下一个研究热点
AI视角下的元宇宙之路
地球科学新纪元:人工智能引领地球科学发展与突破
期刊简介
The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球59个国家;已被151个国家作者引用;每期1/5-1/3通讯作者来自海外。目前有200位编委会成员,来自22个国家;50%编委来自海外(含39位各国院士);领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI,中科院分区表(1区)等收录。2023年影响因子为33.2,2023年CiteScore为38.3。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。
期刊官网:
www.the-innovation.org
www.cell.com/the-innovation
期刊投稿(Submission):
www.editorialmanager.com/the-innovation
marketing@the-innovation.org
Logo | 期刊标识
See the unseen & change the unchanged
创新是一扇门,我们探索未知;
创新是一道光,我们脑洞大开;
创新是一本书,我们期待惊喜;
创新是一个“1”,我们一路同行。
The Innovation 姊妹刊
The Innovation
赞助单位