多少个扫地僧才能弥补中美AI差异？

鹤啸九天的科技思考

2024-12-26 12:47发布于广东

全文4590字，阅读约需14分钟，帮我划重点

划重点

01中国大模型技术在追赶美国的过程中，虽然在应用创新方面表现出色，但在核心科技方面仍存在差距。

02然而，中国在量子通信、超级计算机、高速铁路技术等领域已经领先于美国。

03DeepSeek等国内公司在人工智能领域的研究和创新，为中国大模型技术提供了强大的支持。

04专家认为，即使美国在AI竞赛中获得第一阶段胜利，中国仍有可能成为最终赢家，因为中国在专注度和管理系统方面具有优势。

以上内容由腾讯混元大模型生成，仅供参考

内容简介

中国大模型技术能赶上美国吗？

（1）中国只善于应用创新

众所周知，这一轮大模型技术革命，美国一直在领跑，领头羊还不止OpenAI一家，还有Anthropic，不计投入，在AGI道路上一路狂奔。

而国内公司大部分一直痴迷于商业创新，为了地盘恶性竞争（单车大战/二选一），甚至不惜斥巨资与民争利（团购/买菜），一地鸡毛。

大量企业成功出海，为国争光，Tiktok（抖音海外版）、Temu（拼多多海外版）、Shein（希音）、Bigo Live（欢聚时代直播）等。其中Tiktok影响力最大。

这些产品说到底还是应用层面，依然缺乏核心科技，Tiktok引以为傲的推荐算法虽好，但产品形态上在纵容人性，沉迷“短视频”这个新时代“du品”。意外的收获是动摇了西方的宣传体系，导致被恶意封禁。

资本向来是锦上添花，不会雪中送炭，投钱后着急挣钱，不见兔子不撒鹰，进一步造成恶性循环。

久而久之，国内外形成共识：美国更擅长从0-1的技术创新，而中国更擅长从1-10的应用创新。

（2）大模型追逐赛

自从ChatGPT爆火后，国内巨头才意识到技术的巨大潜力，重金投入，进入大模型赛道，起步晚，奋起直追。

2023年，“百模大战”、“千模大战”，各种开源/闭源国产大模型雨后春笋，应接不暇。

国外：OpenAI的ChatGPT和GPT-4独领风骚，离职员工组建创业公司，开发的Claude紧跟其后，接着Meta的“开源”模型LLaMA掀起小模型羊驼系列的进化浪潮，Bing得天独厚，激进推行产品落地，而昔日霸主谷歌欲哭无泪。
国内：大厂纷纷角力，文心、通义、星火、智脑等，还有高校机构，MOSS、ChatGLM、二郎神、悟道等等，有得匆匆内测、关停，有的宣讲会上放视频，有的现场DEMO，有的悄无声息。

开源大模型血缘关系图：羊驼系列爆发，单词都不够用了。

上图信息截止2024年2月28日

然而，这些春笋里真正能打的有多少？如果Llama闭源，还有多少大模型？

运动式的浮夸风依然存在，发布会越来越隆重，实际落地却差强人意。

有的套了层壳就号称是自研行业大模型，效果如何如何。

比起“大模型究竟怎么实现的”，其实大家更关心“大模型怎么挣钱”。

后者对于中小个体来说，情有可原，毕竟不是氪金玩家，耗不起，只能站在巨人肩膀上研究应用了，但对于大公司来说，还没训自己的模型就着急应用变现，就显得短视、没有梦想了。

庆幸的是，有一批有理想的大模型公司在资源受限情况下，持续快速跟进，个别领先：

刚复现ChatGPT文本问答水平，OpenAI推出插件调用、GPT-4；
Function Call版本、复现MoE，实现GPT-4大部分能力后，OpenAI推出GPT-4o，多模态问答；
国内多模态起来后，OpenAI又推出Sora；
很快，大批视频生成工具冒出来，先于OpenAI发布，只是OpenAI又推出o1、o3，直面复杂推理问题
o1已经有多个复现版本，相信很快就会出现o3复现。。。

速度虽快，但总在跟跑，最多也是千年老二，能超过灯塔国吗？

事实上，中国已经是全球第二。

美国领先于中国、欧盟和英国，成为顶尖 AI 模型的主要来源。

2023年，美国机构发布了61个知名 AI模型，领先于欧盟的21个和中国的15个。

基础性大型语言模型方面，中国落后于OpenAI和谷歌的Gemini，但通过像Meta的Llama 1、2和3这样的开源LLM，中国正在缩小差距。

随着对开源LLM和更高效模型（Open-Weight）关注度的激增，中国有望在生成式AI领域进行创新。

不出意外的话，接下来几十年，国际环境主旋律还是“中美博弈”，美帝全方位对中国围追堵截，别指望能网开一面。

怎么办？不遗余力的发展真正的硬科技，拳头硬了，别人才会尊重你。

（3）硬核科技

实际上，中国已经在一些领域“遥遥领先”了。

截止2024年，中国领先的技术

1. 量子通信：发射全球首颗量子科学实验卫星“墨子号”，并在量子纠缠分发、量子密钥分发等技术方面实现了全球领先。
2. 超级计算机：超级计算机“神威·太湖之光”与“天河二号”多次位列全球超算TOP500榜单第一。
3. 高速铁路技术：中国高铁网络规模和技术水平均居世界前列。
4. 无人机技术：消费级无人机市场，大疆占据主导地位。
5. 5G移动通信技术：5G技术研发和基站部署速度上具有优势，并在专利数量和商用进程上有突出表现。
6. 新能源汽车及电池技术：比亚迪、宁德时代等企业在电动汽车电池尤其是磷酸铁锂和三元锂电池技术的研发。
7. 量子计算：虽然还在初期，但中国的量子比特数量和量子纠错等领域已取得重要突破，正逐步追赶国际先进水平。
8. 高压直流输电技术：特高压直流输电技术，如远距离电力传输、清洁能源消纳等。
9. 人工智能算法及应用：在人脸识别、语音识别、自然语言处理等领域的算法研究和商业化应用。
10. 数字货币与区块链技术：中国人民银行研发的数字人民币在法定数字货币研发与试点方面进展迅速，率先启动了国家级别的数字货币项目。

来源：https://www.sohu.com/a/758744377_121687419

不含航空航天、军工（神舟、东风快递等）

（4）大模型能赶上吗

那么，大模型能赶上吗？可以，政策、人才、资金、设备等正逐步就绪，稍安勿躁。

标准化/竞争式教育体系过早植入了焦虑基因，导致我们从小就怕落后，总是着急要结果，没耐心。

企业总希望对员工强管控，从KPI到OKR，从年会到季度会、月会、周会甚至日会，总怕员工偷懒。

一旦业绩不行，就财源广进，责任归咎于员工过于小资、不够努力。

OpenAI研究院的书籍《为什么伟大不能被计划》（Why Greatness Cannot be Planned？）里说到：

无限大的“搜索空间”像是一个充满迷雾的湖面，一个个发明创造就是身旁的踏脚石，只有沿着踏脚石“随心而动，随意而行”，才能获得真正的伟大。

经过两年的酝酿，大模型重要性已成为共识。政策、资金基本到位。

设备上，国产GPU正在赶工，至于人才，我并不担心，很多顶级大模型论文作者列表里，中文名频频出现。

国外顶级大模型团队成员 899 人中，华人成员共计 167 位占比达18.7%，其中职级最高的是OpenAI研究副总裁（安全）翁荔（近期离职）

简单整理下，各个方向的青年人才：

① NLP领域：

李纪为：1990年出生，北大本/斯坦福硕，seq2seq多个改进版作者，毕业后回国创办香侬科技

杨植麟：1993出生，清华本/CMU博，Transformer-XL和XLNet作者杨植麟，从循环智能到Moonshot（国内AI六小强之一），大家都知道了

② CV领域：

何恺明发明了ResNet、Mask R-CNN等，MIT教授（国外）

扩散模型里知名的Stable Diffusion进化版，ControlNet作者是斯坦福的张吕敏

多模态：谢赛宁，提出纯卷积模型ConvNeXt，目前在纽约大学任教

③ 深度学习框架

李沐：深度学习框架MXNet作者，离开Amazon后，创立Boson AI，也投入LLM训练大军中

贾扬清：1982年出生，伯克利读博期间，开发了著名的深度学习框架Caffe，随后参与过Google TensorFlow研发，近期离职阿里，加入大模型创业大军。

④ 训练框架

尤洋：农大本/清华硕/加州伯克利博，新加坡国立大学校长青年教授，在校期间提出LAMB优化器，训练效率大幅提升，如BERT从3天提升到1小时，效率超过Adam 72倍，被微软DeepSpeed框架采用。回国后，创办了潞晨科技，推出训练框架Colossal AI，同时2023年初就率先推出ChatGPT复现框架，2024年推出Sora开源复现Open-Sora

还有不少，不一一罗列。

还是对国内大模型公司没信心？

各大公司都有自己的大模型，而且进步神速，不妨亲自体验，如：字节豆包、文心一言、科大讯飞、腾讯混元等。

开源模型榜单也开始出现国内公司的影子，如：QWen（通义千问）、DeepSeek、智谱（ChatGLM系列）、零一、书生浦语等

（5）扫地僧：DeepSeek

国内公司只适合做应用，不做理论创新？非也。

DeepSeek（深度求索），创始人在量化领域财务自由后，怀揣技术梦想创立DeepSeek，不考虑盈利，专做理论研究。

DeepSeek提出MLA，改进transformer底层架构，让OpenAI、Google大为意外，成为国内的“扫地僧”。

为什么说DeepSeek是中国的“扫地僧”？

因为它默默无闻，专注于大模型创新，屡次技惊四座。

2023年，DeepSeek囤了大量GPU显卡，成为大厂外唯一一家储备万张A100芯片的公司

2024年5月，推出开源模型DeepSeek V2，提供史无前例的性价比：推理成本被降到每百万token仅 1块钱，约等于Llama3 70B的1/7，GPT-4 Turbo的1/70，成为“AI界拼多多”，字节、腾讯、百度、阿里等大厂也按耐不住，纷纷降价。

这种降价还不是恶性竞争的“价格战”，DeepSeek居然还有利润空间。

原因是他们剑走偏锋，改进Transformer基础结构，提出MLA（多头隐藏注意力机制），把显存占用降到了MHA（多头注意力机制）架构的5%-13%，同时独创DeepSeekMoESparse结构，把计算量降到极致，大幅降低推理成本，最终引起国内大模型价格战。

自从attention机制提出来，几乎从来没被成功改进过，更不用说来自背负山寨恶名并被美国全方位打压的中国。

这种基础理论创新在硅谷圈炸锅，动摇了过往成见：美国更擅长从0-1的技术创新，而中国更擅长从1-10的应用创新

7家中国大模型创业公司中，DeepSeek是唯一一家放弃“既要又要”路线，至今专注在研究和技术，未做toC应用的公司，也是唯一一家未全面考虑商业化，坚定选择开源路线，甚至都没融过资的公司。

OpenAI前政策主管、Anthropic联合创始人Jack Clark

评价到：

DeepSeek雇佣了一批高深莫测的奇才，中国制造的大模型将和无人机、电动汽车一样，成为不容忽视的力量。

对此，创始人梁文锋回复到：

并没有什么高深莫测的奇才，都是一些Top高校的应届毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。
没有海外背景，Top 50人才可能不在中国，但我们需要培养本土人才。
选人标准一直都是热爱和好奇心，对做研究的渴望，远超对钱的在意。
顶尖人才在中国被低估，整个社会层面的硬核创新太少了，使得他们没有机会被识别出来。

其实，这家公司总共才 60 个人, 50 个技术, 10 个工程。

梁文锋，80后，毕业于浙江大学电子工程系人工智能方向, 进入量化行业，创立幻方时代，早就财务自由。

创立DeepSeek后，潜心研究技术，依旧延续低调作风，和所有研究员一样，每天 “看论文，写代码，参与小组讨论”。

这在当下中国AI界非常罕见

兼具强大的infra工程能力和模型研究能力，又能调动资源
既可以从高处做精准判断，又可以在细节上强过一线研究员，拥有“令人恐怖的学习能力”，同时又完全不像一个老板，而更像一个极客。

他是少有把“是非观”置于“利害观”之前，并提醒看到时代惯性，把“原创式创新”提上日程的人。

（最新消息：核心成员罗福莉离职加盟小米）

详见：揭秘DeepSeek:一个更极致的中国技术理想主义故事

（6）国外观点

关于中美AI博弈，听听国外观点

前谷歌CEO埃里克·施密特：

即使美国赢得AI竞赛第一阶段，中国也会成为最终赢家。因为中国更加专注、有高度集中的管理系统，愿意在没有特定目标的情况下，投入巨额资金，并在企业内部快速运用LLM技术。一个案例是Google花了20年研究机器人技术，机器人公司都开始用中国产的机器人，跟美国相比，能力相差无几，价格更低，中国制造业毋庸置疑，看看电池、太阳能、自动驾驶。
我错了，低估了中国AI，也低估了中国人，就算被限制，他们依然有几个项目已经赶上了。如deepseek，短短6个月就赶上来了。

有人依然不信，觉得这是美国的“战忽局”，专门麻痹中国人。

那就看看异军突起的机器人行业。

这几天，宇树机器狗在外网爆火，跳舞、越野，甚至在比赛中超过鼎鼎有名的波士顿动力。

马斯克在X平台上“宇树机器狗视频”下评论称：未来战争是无人化战争。

宇树创始人王兴兴，1990年，专注于机器人方向20多年。

一大批有理想且认真的人，正在努力追赶。

要相信大家，相信自己，做好本职工作，以身作则，给予科技工作者足够的尊重/宽容：

对于老板：矫正不好的风气（派系文化/重汇报/年龄歧视/崇尚管理），真正重视技术，多一些梁文锋
对于职员：业务价值之外，多多沉淀技术，少些功利心，虽然很多时候技术苍白无力，自己还是得有些追求
对于群众：谨言慎行，不问缘由，开口就喷，这不是涨他人威风，灭自己志气吗？

附录

宇树科技的机器狗pk波士顿动力

国外专家对中国AI的看法：

查看原图 336K