AI未来指北特约作者 郝博阳
编辑 郑可君
两个月前,OpenAI o1模型的发布,将大模型行业的目光都吸引到推理能力变革之上了。实际上,除了推理能力,其他分支模型和应用赛道上的Scaling Law也在持续发展。
例如,在分支赛道上,文生视频的抖音即梦和Kling持续更新了新版本;应用层上的发展也日新月异,Agent进化方向,Claude推出了桌面控制功能的API,智谱则推出了AutoGLM,能够操控整个手机。
搜索引擎方向,OpenAI推出了GPT search试图挑战谷歌的行业地位,知乎则推出了“专业搜索”,Perplexity也更新了Prosearch和Pages,这些都让用户的搜索体验更进一步。但在基础模型的更新上,各厂商却都慢了下来。
在11月5日,一直比较低调的腾讯一连发布两个开源模型,还都达到了SOTA(SOTA:目前表现最好的模型)。其中之一就是最新的MoE基础模型“混元Large“,在其5月发布的“混元Turbo“基础上,进一步扩大了模型量级。
另一个是混元3D 生成大模型“ Hunyuan3D-1.0”,它也展示了腾讯在细分赛道的拓展能力。它们都正式开源,开发者可在HuggingFace、Github等技术社区直接下载。
当天,腾讯云TI平台和高性能应用服务HAI也宣布开放接入这两个模型,为模型的精调、API调用及私有化部署提供一站式服务。
最强MoE模型开源,四大升级强化能力
MoE(Mixture of Experts),即混合专家模型,是Google在2017年提出的一种模型结构。它相当于一个工作组,内部有擅长解决不同领域问题的几个领域专家,也就是一组小一点的模型。每个专家只负责自己最擅长的工作。系统中有个"接待员"模块,它会判断每个问题该由哪个专家来处理,并把任务分配过去。最后把各个专家的专业意见整合起来,得出最终的解决方案。
因为每次计算时,MoE只会激活部分专家,而非整个模型,因此它比“全员上阵”的稠密模型,推理成本低很多。因其性价比上的优势,MoE模型很快就成了业界推动的主流模型范式之一。
比如年初,当时的行业最强模型GPT-4就被泄露出实际采用了MoE架构。据消息源称,它由8个220B参数的专家模型协同工作,总参数规模达到1.8万亿。海外巨头在今年跟上卷入MoE的竞赛,谷歌的Gemini系列、以及马斯克xAI最新推出的Grok-1都选择了搭载MoE架构。
中国企业更是很快将主流切换到了MoE赛道上:2024年年初,腾讯混元就已经宣布在国内率先采用MoE架构模型,实现模型总体性能相比上一代Dense模型提升50%。 MiniMax、昆仑万维、阿里千问、Deepseek都相继推出了MoE基础模型。
腾讯的开源混元Large模型总参数量达到了 389B,激活参数量 52B 。上下文长度达到256K, 是当前业界参数规模最大的开源MoE模型。
从结构上看,腾讯混元Large设置了一个共享专家来捕获所有token所需的共同知识,并还设置了16个需要路由的专家,模型将每个token路由给其激活得分最高的专家来动态学习特定领域的知识。
根据公开测评结果显示,腾讯混元Large 在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过了Llama3.1 405B这个当前最先进的开源大模型。
腾讯混元大模型负责人王迪在今年8月接受采访时曾表示,“探索 MoE Scaling Law 相当于是在实操上把事情难度变大了一些,可能大家要做一些更加细致的工作,更加高效的实验。因为 dense 模型,参数的选择、激活函数的选择,包括 tokenizer 等等,要做的实验会比 MoE 少很多,因为 MoE 有很多个专家,每层的专家数量是否相同也不确定,激活个数也不一定每层都是一样的。”
根据混元Large的技术文档,在模型结构和训练策略方面,腾讯混元Large在四个方面做出了更多的进展。
1、运用合成数据,提升编程数学能力
业界应对数据瓶颈的一个重要方案是使用高质量合成数据,腾讯混元Large就采用了这一策略。通过内部大语言模型,它建立了一套自动化的合成数据处理链路,生成了覆盖多个类目的中英文高质量数据,从而显著提升了模型性能。
在合成数据应用中,数学和代码是最成熟的领域。腾讯混元Large通过大量合成的数学题库和增强的代码文本数据,使模型在这两个领域的表现提升超过了10%。
2、新路由机制让模型里的专家都忙起来
MoE机制的核心是将模型需要处理的token分配给多个专家模型,而Router(路由器)的分配效率直接决定了整个系统的性能。
你可以把整个模型想象成一家大型餐厅,里面有多位专长不同的厨师。每当客人点单(token输入)后,领班(相当于Router)就要快速决定将这道菜交给哪位厨师来做。一个好的领班不仅要确保每道菜都交给最合适的厨师,还要注意平衡每位厨师的工作量,不能让某个厨师忙得团团转,而其他厨师却很清闲。
这就像MoE系统里的Router要把输入的任务分配给最合适的专家模型,既要分配得准确,又要保持负载均衡,从而让整个系统发挥出最好的性能。
业界普遍采用Top-K路由策略,但这种方式难以保证token在专家间的均衡分配,超出负载的token会被直接丢弃。为解决这个问题,腾讯混元Large提出了随机补偿路由方式,将原本会被丢弃的token随机分配给负载未满的专家,确保每个专家都能获得足够的训练样本,从而维持训练稳定性。
3、系统缓存占用被压缩到过去的5%
在大语言模型的推理过程中,Key-Value Cache就像是一个不断膨胀的记忆仓库。当模型处理越来越长的对话或文本时,这个仓库需要存储所有历史信息以供后续参考。这种"记忆"机制虽然让模型能够保持对话的连贯性,但也带来了显著的资源消耗。
为了提高推理效率,混元Large模型使用了 Grouped-Query Attention (群组注意力) 和 Cross-Layer Attention (跨层注意力) 两种 KV Cache 压缩策略,从head/layer两个维度联合压缩KV cache引入量化技术,进一步提升压缩比。最终将模型的KV Cache压缩为传统多头注意力的5%,大幅提升推理性能。
4、后训练过程可以在线及时调节
腾讯混元Large在后训练(Post-Train)方面也做了大量创新优化。
在后训练阶段,传统SFT在数学推理、代码编程等专业领域面临高质量指令数据匮乏的挑战。而业界广泛使用的离线DPO方法虽然训练效率显著,但效果存在明显上限,尤其在模型泛化能力方面表现出局限性,难以在复杂专业任务中取得突破性进展。
为应对这些挑战,混元模型创新性地采用"分类优化"策略,针对不同专业领域进行定向优化。例如在数学领域着重强化推理链路训练,在编程领域则专注提升代码生成的质量和可靠性,有效提升了模型在各专业领域的表现。
同时,模型打破单一训练方法的局限,构建了独特的"双引擎"优化体系。第一阶段采用传统离线DPO策略,通过精选的固定pair数据建立稳定基础;第二阶段引入创新的在线DPO策略,利用不断进化的策略模型持续产生新的训练样本,实现了模型性能的动态优化和全面提升。
通过这种方式,混元模型在经过RLHF训练后,在回答质量、逻辑推理、知识应用等多个维度都实现了显著提升。
除了在模型能力上的提升外,应用方面腾讯混元大模型也在持续迭代。目前已经在腾讯元宝、微信公众号、小程序、微信读书、腾讯广告、腾讯游戏、腾讯会议等近 700 个腾讯内部业务和场景进行落地应用。
因为模型相对较大,Hunyuan-Large 更适用于有一定计算资源的企业、机构而非开发者个人。从今天开始,腾讯混元 Large 模型已上架腾讯云 TI-ONE 训练平台,支持业务在线精调专属模型。同时,腾讯混元大模型 PaaS平台也开放支持包含混元 Large 模型在内的十余种混元API 服务调用,满足业务对于文生文、图生文、文生图等不同模态以及角色扮演、functioncall、代码等不同专项的模型需求。
混元3D生成大模型开源,一出手就是SOTA
除了基础模型的升级外,腾讯这次还宣布开源了另一个前沿AI领域模型——混元3D生成大模型。这是业界首个同时支持文字、图像转3D的开源模型,而且一发布就是SOTA级别。
这次开源的模型包含两个版本,轻量版和标准版。轻量版仅需10s即就可以通过文字或图像生成3D资产。标准版也仅需要约25秒。
根据腾讯分享的技术文档,腾讯混元3D生成大模型采用了创新的两阶段生成方法来突破现有技术瓶颈。
第一阶段聚焦于多视角图像生成。这一阶段的核心是将单一视角图像转化为一系列连贯的多视角图像序列,它包含两个重要的技术组成。
首先是自适应CFG(Classifier-Free Guidance)技术。这是一种无分类器引导方案,通过智能调节不同视角的引导权重来平衡生成效果。
你可以把它理解为AI版的透视法:在靠近输入视角的位置,模型采用较大的CFG权重,确保生成图像与输入保持高度一致性;而在远端视角则使用较小的权重,给予模型更多创造空间,以生成更自然真实的图像效果。
为了增强角度鲁棒性,模型在训练时采用了创新的数据策略:渲染不同俯仰角的图像作为输入,统一输出0度俯仰角的环绕视图。这种设计确保了模型能够处理任意输入角度,同时通过注意力机制(Attention)维持多视角间的一致性。最终输出6张环绕一圈的水平视角图像,这种安排最大化了可见区域的覆盖,为第二阶段的重建工作奠定基础。
第二阶段则专注于3D重建过程。这个阶段也引入了几项重要的技术创新:
首先是创新的输入机制。不同于传统方法仅使用生成的多视图图像,混元模型还将用户的原始输入图像作为额外参考源,通过cross-attention(交叉注意力)机制将这些信息注入到triplane token(三平面特征标记)中,有效提升了不可见区域的重建精度。
其次是高分辨率特征表征技术。模型通过线性层将特征平面的分辨率从64提升到256,显著增强了细节表现力。这种提升使得模型能够捕捉和重现更细腻的物体特征。
在3D表示方面,模型采用了SDF(Signed Distance Function,符号距离函数)作为隐式表示方式。这种表示方法能够精确描述物体的几何特征,最后通过Marching cube(行进立方体)算法在三维空间进行采样查询,生成高质量的3D网格模型,可以无缝对接现有的3D制作流程。
这种两阶段方法巧妙地解决了当前3D生成模型中面临的数据稀缺问题。通过将复杂的3D生成任务分解为多视角图像生成和3D重建两个阶段,模型可以充分利用丰富的2D图像数据来学习物体的视觉特征和几何关系。在第一阶段,模型从海量的2D图像中学习视觉表现和空间关系;到第二阶段,则专注于将这些积累的2D知识有效转换为精确的3D结构。
解决了3D生成模型中最大的瓶颈,Hunyuan3D-1.0具有了非常强大的泛化能力和可控性,可重建各类尺度物体,大到建筑,小到工具花草。通过两个公开的3D数据集 GSO 与 OmniObject3D 上定量评估3D生成质量,包括Chamfer Distance (CD) 与 F-score (FS) 指标,结果显示,Hunyuan3D-1.0 优于 SOTA 开源模型。
除了上述定量指标评估,从定性角度评估Hunyuan3D-1.0 与 SOTA 开源模型的 3D 生成效果表现,包括几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度,结果显示,Hunyuan3D-1.0 在生成质量上全面超过了 SOTA 开源模型。
效果对比
用户喜好打分
此外,Hunyuan3D-1.0 在保证高质量、多样化生成的条件下,推理性能也达到了业界开源模型的先进水平,显著减少了 3D 资产生产的耗时。
两个开源模型,呼应腾讯的AI战略方向
从这次腾讯开源的两个大模型,我们可以看到腾讯确实在稳步实施着它既定的AI战略。
在今年5月举办的“腾讯云生成式AI产业应用峰会”中,腾讯云与智慧产业事业群CEO汤道生就表示:“与很多大模型厂商不同,腾讯始终以‘产业实用’作为我们发展大模型的核心战略。去年发布大模型的时候,我们就强调,'大模型的打造只是起点,把技术落地到产业场景、创造价值才是目标‘。“
想要做到落地,首先是要能调集起生态伙伴的参与。而开源就是一个吸引生态伙伴和开发者的核心战略。
很多人都在质疑开源的商业模式。但在这一点上,实际上腾讯和同样是坚持开源逻辑的Meta身位相似:
他们都有着国民级的社交应用产品,因此他们都有庞大的内部应用上的AI调用需求。只要在后续内部应用中能能覆盖自研模型,那就足以弭平两个公司在AI方面的投入。因此开源商业模式更多是帮助两者丰富AI产品生态,如在插件、小程序场景上的开发,进而强化在应用市场的领先。
在上一阶段中,腾讯混元大模型已经在腾讯内部支持了近 700 个业务,通过在业务场景上的微调,实现了对效率的提升。通过这些内部验证过产品路径,腾讯也逐步开始推出toC向和toB的AI产品矩阵,比如近期刚刚上线的个人AI工作中心ima copilit。
而在字节和快手在文生视频赛道打得火热之时,新推出的混元3D模型更是切合腾讯自身的领域定位。相较于视频生成,对于游戏赛道,3D生成技术的应用更为广泛。在发布会上,腾讯也特别强调,本次发布的Hunyuan3D-1.0已经可以直接与3D管线结合,服务生产研发。
Hunyuan3D-1.0也已经在腾讯公司内上线发布并应用于实际业务中。比如,已应用于UGC 3D创作、商品素材合成、游戏3D资产生成等司内业务及场景。另外,腾讯地图此前就已基于腾讯混元3D大模型,发布了自定义3D导航车标功能。
实际上,AI生成游戏已经离我们越来越近,前两天两家初创公司Decart和Etched就打造了一款世界上首个实时、可玩、可交互的世界模型Oasis。
虽然目前它在H100上运行时,仅能以360p的分辨率实现每秒20帧的渲染,但实现纯实时的流畅AI游戏也就是时间问题了。在这之前,基础的AI生成能力仍需提升,而3D生成就是这里的核心基础能力。
对此,腾讯混元3D负责人郭春超表示:“3D生成技术今年已进入快速发展阶段,3D AIGC作为新的生产力工具,能为复杂的传统3D制作流程提效,可应用于游戏、工业制造、社交娱乐等领域,未来可能会与机器人等领域结合,赋能空间智能。本次开源3D生成大模型,希望能助力业界社区发展,让更多的研究者、开发者和创作者参与进来,一起探索、共创3D生成生态,更好的挖掘三维技术领域的潜力。腾讯混元3D也将持续为开源社区贡献力量。”