阿里QwQ-32B和苹果M3 Ultra同日发布背后

AI划重点 · 全文约2617字,阅读需8分钟

1.阿里巴巴开源推理模型QwQ-32B,性能追平满血版的DeepSeek R1,具有更强大的QwQ-Max即将开源。

2.苹果发布最强芯片M3 Ultra,能让Mac Studio跑动600B参数大模型,是英伟达今年新品个人超算Project Digits的3倍。

3.两家公司同日发布新产品,或许只是个巧合,但它们正携手为中国用户打造端侧个人AI体验。

4.端侧硬件单位算力成本的下降与推理模型单位规模性能的提升,为市场打开足够想象空间。

5.除此之外,苹果M3 Ultra和阿里QwQ-32B的发布预示着更强大的端侧算力与更聪明的推理模型将在今年交汇。

以上内容由腾讯混元大模型生成,仅供参考


AI正在加速个人终端落地。
今日,阿里巴巴在深夜开源了推理模型QwQ-32B,性能追平满血版的DeepSeek R1671B,激活37B),它还有更强大的QwQ-Max即将开源。苹果发布了最强芯片M3 Ultra,能让Mac Studio跑动600B参数大模型,是英伟达今年新品个人超算Project Digits3倍。也许M3Ultra能跑得动QwQ-Max
同日发布旗下最强大的新产品,或许只是个巧合。但这两个大玩家又恰好在今年携起手来,为中国用户打造端侧个人AI体验。端侧硬件单位算力成本的下降,与推理模型单位规模性能的提升,正为这个市场打开足够的想象空间。
推理模型处于AlphaGO前夕
阿里巴巴与DeepSeek已经在推理上卷起来了。在去年9OpenAI发布o1-preview后,11月下旬,DeepSeek发布R1-lite-preview,几天后,阿里发布QwQ-32B-Preview。今年,DeepSeek抢先于1月正式开源R1,最近又预告下一代的R2,将早于5月发布;阿里则先在2月预览了QwQ-Max-Preview,并于今日正式开源QwQ-32B
QwQQwen withQuestions的缩写,即基于Qwen基础模型的推理模型。与R1类似,QwQ验证了大规模强化学习对扩展定律仍然起效,官方博客对它的介绍,就是领略强化学习之力。艾伦AI研究所的NathanLambert,将它称作是为强化学习纯粹主义者准备的,并希望想看到更多来自技术报告的细节。
据官方博客介绍,在冷启动的基础上,团队首先特别针对数学和编程,以直接校验答案是否正确,或运行代码是否成功为反馈,让模型直接对答案,不断试错学习;随后针对更通用的能力,团队同时引入了奖励模型与规则验证器,在不拖累专项能力的基础上,稳步扩展其他通用能力。
选择数学与编程的理由,在于它们往往是纯推理任务,答案是否正确,能快速用简单方法验证。EpochAI最近一篇文章就认为,推理模型在未来将最成功地应用于满足以下两个核心条件的任务:预训练数据中包含大量与任务相关的高质量信息;任务的解决方案能够以低成本、程序化的方式验证其质量。数学与编程就是两大核心场景。EpochAI认为,目前推理模型的发展轨迹,与AlphaGo出现之前的几年,有很强的相似之处。
结果确实如此。官方说明文档显示,QwQ-32B 在数学推理、编程能力和通用能力等一系列基准测试中,得分追平了满血版的R1, 完胜更小参数规模的DeepSeek蒸馏模型R1-Qwen-32BR1-Llama-70B。目前已经在应用场景中使用R1蒸馏模型的,可以将它们换成QwQ-32B了。遗憾的是,它只和OpenAIo1 mini扳了扳手腕,后者发布于去年9月,胜之不武。
图片
目前最强大的推理的模型当属o3-mini,也许这个任务要交给DeepSeekR2,或者阿里的QwQ-Max了。
最近的Grok 3 GPT-4.5,以及Claude的下一代模型,都在探索更大规模的基础模型与推理模型的结合。QwQ-32B也只是阿里的第一步,下一步正是更强大的基础模型,与依托规模化计算资源的强化学习相结合。阿里相信那是通往AGI的道路。
更便宜,更便利,更个人
阿里巴巴对QwQ-32B的官方定位,是基于低延迟、隐私、定制的优势,以开发人员、研究人员、业余爱好者为目标受众。
目前,QwQ-32B已经可以直接在QwenChat免费体验,并在Huggingface开源。它采用了Apache2.0开源协议,相比DeepSeek对用户几乎没有限制的MIT协议,增加了部分商业场景下专利授权和衍生作品的限制。不过,仍然相当友好。
已有GroqCloud等不少平台上线了QwQ-32B。对比这些第三方平台提供的API报价,QwQ-32B能够以1/10的价格,在杨立昆不可作弊的”LiveBench基准下,输出与R1相媲美的结果。QwQ-32B还允许开发者以OpenAI API的方式调用,减少适配成本。
图片
更关键的是,QwQ-32B足够小,可以直接本地部署。一位来自亚马逊AI的研究人员认为,DeepSeek满血版R1模型的参数总规模与MOE架构,对本地部署仍然不够友好。尽管R1单次推理激活37B,但要完整部署总规模671B的模型,且保证其经济性,需要至少22台服务器,每台8GPU。这不是普通个人开发者能够承担的。跨服务器的流水线并行与专家并行机制,Prefill(预填充)与Decoding(解码)分离的特点,以及依赖特定的Expert Parallel 通信库,也推高了个人部署的技术门槛。
Q4量化精度下,QwQ-32B的大小在20GB左右;如果是Q4量化精度的R1,大概需要400GB。目前,Ollama也上线了Q4版本的QwQ-32B模型。苹果机器学习的研究员Awni Hannun,已经尝试本地运行QwQ-32B了。他用的是一台搭载M4 Max的笔记本,结果相当流畅。
苹果M3 Ultra神助攻
同一天,苹果发布了基于M3 UltraMac Studio。听上去,M3 Ultra要比去年年底发布的M4 Max“低一辈”,但事实上并非如此。它是苹果有史以来性能最强大的芯片
它由两个3纳米的M3 Max芯片和一个中介层组成,集成了1840亿个晶体管,拥有多达32CPU,包括24个性能核心和8个能效核心,以及80GPU,以及32核神经引擎。它的内存可高达512GB,带宽可高达800GB/s,足以直接在本地加载参数规模超过600B的大模型,几乎就是满血版R1的体量。
端侧算力正在迅速贬值。还记得2个月前,黄仁勋掏出那个令全场震惊的个人桌面超级计算机Project Digits吗?在 FP4 精度下,它可提供高达1 PFLOPS的算力,官方文档称它可以本地驱动2000亿参数规模的大模型。黄仁勋还预言,未来每个数据科学家、研究者和学生的桌子上都会有一台。2个月后,苹果1台抵它3台。
苹果没有承诺接下去还有M4 Ultra,但型号命名的小把戏,并不影响端侧算力的竞争继续下去。还有半个月,英伟达的GTC就要开始了。
更强大的端侧算力,与更聪明的推理模型,或许将在今年交汇。QwQ-32B也不是阿里巴巴推理模型的全部。它预告即将开源的QwQ-Max,显然将会更为强大。将QwQ-32B用于Qwen Chat应用时,官方社交媒体平台对它的表述是“Qwen2.5-Plus +Thinking”,即它是基于Qwen2.5-Plus构建的;而已经公开的QwQ-Max-Preview,则是基于Qwen2.5-Max构建的。在通义千问模型序列里,Max后缀往往被视为旗舰模型,比Plus更强大。
Meta正在憋Llama 4,它还没有推理模型;谷歌开源了Gemma。它们都有自己的硬件与操作系统,也将加入战局。不过,苹果拥有最有价值的硬件入口,阿里拥有全球最受欢迎的开源模型,这会让今天同日发布的巧合,注解了AI应用加速向端侧部署的趋势——这也写在刚刚公布的《政府工作报告》的“人工智能+”行动里。