如果你玩过电子游戏,一定对那种沉浸在虚拟世界中的感觉不陌生——你可以打开柜子、拿起桌上的杯子、把椅子搬到另一个房间。但你可能不知道,这种我们习以为常的"可以动手动脚"的体验,对于AI生成的3D世界来说,竟然是一道几乎无法跨越的鸿沟。
这项由上海交通大学联合华为公司完成的研究,发表于2026年5月的arXiv预印本平台,论文编号为arXiv:2605.15843v1。研究团队提出了一个名叫"WorldAct"的框架,试图解决一个看似简单却困扰整个3D生成领域的难题:如何让AI凭空"画"出来的虚拟世界,从一张漂亮但僵硬的"立体照片",变成一个真正可以伸手互动的活生生的空间。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2605.15843v1查询完整论文,项目主页也提供了丰富的演示。
一、为什么AI画的虚拟世界,看着热闹却"碰不得"
最近这一两年,AI生成3D世界的能力突飞猛进。像Marble、HY-World这样的系统,你只需要给它一句话或者一张图片,它就能给你"造"出一个完整的虚拟厨房、卧室或者储藏室,从任何角度看都栩栩如生。这听起来简直像魔术,对吧?
但这里有个让人哭笑不得的问题。这些AI生成的虚拟世界,本质上就像一张被强行立体化的照片——你能看,能转着圈欣赏,但你没法真正"用"它。打个比方,这就像有人给你了一个用整块石头雕刻而成的厨房模型,所有的锅碗瓢盆都和台面、墙壁融为一体。你想拿起一个杯子?对不起,杯子和桌子是连在一起的,根本掰不开。你想把椅子挪个位置?抱歉,椅子和地板是同一块"石头"。
研究团队把这种状态称为"单体式"(monolithic)的3D世界——整个场景就是一坨连在一起的数据,所有物体的语义、形状、外观都纠缠在一起,无法分开。这种状态有什么坏处呢?如果你是个游戏设计师,你没法单独编辑场景里的某个家具;如果你想训练一个机器人在虚拟厨房里做饭,机器人根本不知道哪个是锅、哪个是炉子,更别提把锅放到炉子上了。
WorldAct要解决的,就是把这块"完整的石头雕塑"重新拆解成一个个可以独立移动、可以触碰、可以替换的零件,同时还要保证拆完之后,整个厨房看起来依然完美无缺。
二、整个改造工程的总览:从石头雕塑到乐高积木
理解WorldAct的工作方式,可以把它想象成一支"古董修复+精装拆迁"的特种工程队。当这支工程队接到一座AI生成的虚拟"石头厨房"时,他们要做四件大事。
第一步是"侦察标记":派一个智能侦察员进入这个虚拟厨房,转一圈看看里面有哪些东西是值得拿出来的——比如锅、瓶子、书本这些"可以动"的物品,而墙壁、地板这些固定的东西就保留原状。第二步是"精准拆解":把标记好的物体从整体场景中精准地"切"出来,就像从蛋糕上挖走特定的草莓装饰。第三步是"墙面修补":物体被挖走后,原来的位置会留下一个大洞,工程队要把这些洞修补得天衣无缝,让人看不出来曾经有东西在那里。第四步是"零件重塑与归位":由于挖出来的物体通常缺胳膊少腿(因为有些部分被遮挡看不见),工程队需要重新做出一个完整的、漂亮的物体,然后小心翼翼地放回原位。
这整套流程下来,原本那块铁板一块的"石头厨房",就变成了一个可以拆装、可以互动的"乐高厨房"——你可以拿起任何一个物品,可以把锅放进微波炉,甚至可以让机器人来这里学习做家务。
三、智能侦察员上岗:用AI找出"能拿走的东西"
工程队的第一项任务,是搞清楚这个虚拟世界里到底有什么东西值得"拆"。这听起来简单,但对于一个机器来说其实挺难——它得分清楚哪些是可以移动的物体(比如桌上的水杯),哪些是建筑结构(比如墙和地板)。
研究团队的做法相当巧妙:他们雇了一个"视觉语言智能体"(具体来说是Qwen3.6-Plus这个AI模型)来当侦察员。这个智能侦察员会在虚拟场景里"走"一圈,沿着一条预设的路线拍下许多张照片,然后像个细心的房产中介一样,把看到的所有"可移动物品"列成一份清单——比如"罐子、枕头、瓶子、书本、铜壶"等等。
光列清单还不够,因为光告诉AI"这里有个罐子"它还是不知道罐子具体在画面的哪个像素位置。所以接下来,研究团队又请出了另一个叫SAM3的AI模型,这个模型擅长根据文字描述,在图片里精确地把对应物体的轮廓圈出来——就像你在一张全家福里用马克笔把每个人的轮廓描出来一样。
这一步的效果有多重要呢?研究团队做了个对比实验。如果不用智能侦察员,只是让系统瞎找,那么它在简单场景里只能找出大约25%的可互动物体,在困难场景里更是只有20%左右。但加上智能侦察员之后,这个数字直接飙升到了简单场景84%、困难场景68%,综合表现接近79%。换句话说,智能侦察员让"找东西"的成功率提高了三倍以上。
四、精准切割手术:在3D世界里挖出物体
侦察员标记好目标后,接下来就是真正的"手术"环节了。这一步技术上叫做"3D高斯泼溅(3DGS)分割",听起来很玄乎,但其实你可以这样理解。
AI生成的3D世界,本质上是由几百万个"彩色小绒球"堆积而成的。每个小绒球都有自己的位置、形状、颜色和透明度。当你从某个角度看过去,这些绒球叠加在一起,就形成了一幅看似真实的画面。所谓"切出某个物体",就是要从这几百万个小绒球里,精确挑出属于"那个罐子"的所有绒球,把它们单独拿出来。
研究团队的做法借鉴了一种叫SA3D的方法。他们给每个小绒球都分配一个"归属分数",这个分数表示"这个绒球有多大概率属于罐子"。然后通过反复对比从不同角度拍到的照片和切割结果,不断调整这些分数,直到最终结果在每个角度看起来都和侦察员标记的轮廓吻合。
但这里有个棘手的问题:从虚拟世界里直接挖出来的物体,往往是残缺的。因为很多角度看不到,比如罐子的底部从来没被拍到过,那这部分的小绒球就缺失了——你拿到手的是一个"半个罐子"或者"开了口子的罐子"。这就好比你想偷一座雕像,但只能看到它正面,搬走后才发现背面其实是空心的。
所以研究团队聪明地决定:这一步挖出来的物体只用来"定位",不直接用作最终成品。真正完整的物体,要在后面的步骤里重新"造"出来。
五、墙面修补大作战:让物体消失得无影无踪
物体被挖走后,原来的位置就出现了一个大洞,就像你撕掉墙上的海报后留下的痕迹。如何让这些洞看起来从来没存在过,是个相当头疼的问题。
研究团队采用了一种叫DiffuEraser的视频修复技术。这种技术的工作原理类似于Photoshop里的"内容感知填充"功能,但更高级——它会看一段视频中的多个画面,理解周围的纹理、光影、材质,然后"脑补"出被挖掉位置应该是什么样子。比如挖走桌上的杯子后,它能根据桌面其他位置的木纹,推断出杯子下面那块桌面应该有什么样的纹理。
修复了2D画面还不够,因为我们要的是一个3D的虚拟世界。所以接下来,研究团队用了一种叫DepthLab的深度估计技术,先估算修复后的画面中每个像素离摄像头有多远,然后根据这些深度信息,在3D空间里重新"种"上新的小绒球。这就像是先在平面上画好补丁,然后再把这些补丁立体化,塞回到原来的3D场景里。
除了视觉上的修补,工程队还要为这个修复后的场景做一件特别重要的事:制作"碰撞模型"。这是什么意思呢?在真实世界里,你不能穿墙而过,因为墙有物理实体。但在AI生成的虚拟世界里,本来是没有这个概念的——所有东西都只是漂亮的视觉效果,没有"硬度"。为了让虚拟世界变得可以物理交互,工程队需要给场景里的每一面墙、每一块地板都赋予"实体属性"。
具体的做法是用一种叫Poisson重建的技术,从那些彩色小绒球中提取出场景的几何骨架,然后用一种叫RANSAC的算法识别出哪些是平面(地板、墙壁、天花板),把这些平面规整化,变成简单的多边形。这样一来,后续如果有个虚拟机器人在场景里活动,它就能"知道"自己不能穿墙、不能掉到地板下面。
六、零件重塑工厂:用AI造出完美无缺的物品
回到那个被挖出来的"半个罐子"的问题。研究团队的解决办法是,既然挖出来的东西不完整,那干脆扔掉重做!
他们调用了一个叫SAM3D的工具,这个工具的神奇之处在于:你只需要给它一张物体的图片和这个物体在图片中的轮廓,它就能凭空"想象"出这个物体的完整3D模型——包括你从未见过的背面、底部等部位。
但这里又有个细节:不是随便从哪个角度的照片都能让SAM3D发挥最佳效果的。有些角度可能拍到的罐子被其他东西挡住了一半,有些角度可能光线不好,有些角度可能罐子太小看不清细节。所以研究团队再次请出智能侦察员,让它从所有拍到的角度中,挑出"最适合的那一张照片"——也就是物体最完整、最清晰、占据画面最中心的那张。
研究团队特别强调,智能侦察员在挑选最佳照片时,会综合考虑物体的可见度、是否被遮挡、语义识别的置信度等多个因素。这就像一个经验丰富的摄影师,知道哪个角度能拍出物体最美、最完整的样子。
通过这种方式,工程队最终得到的不是从场景里抠出来的"残次品",而是一个全新打造的、完整的、漂亮的3D物体模型。
七、归位安装艺术:把零件精准地放回原处
造好了完整的物体,接下来就是把它放回到那个修复后的虚拟厨房里。这听起来简单——不就是放回原来的位置吗?但实际操作起来,远比你想象的复杂。
SAM3D虽然能造出物体,但它对物体的"姿态"判断往往不准。比如它可能造出来一个躺着的罐子,但原本场景里这个罐子是立着的。或者它造出来的罐子大小和原来不太一样。直接放进去,看起来就会很违和。
研究团队采用了一个"两步走"的对齐策略。第一步是"粗调":利用最初挖出来的那个残缺物体(虽然不完整,但位置和姿态信息还是准的)作为参考点,通过一种叫ICP的算法,把新造的完整物体大致摆到正确的位置和角度。然后从多个候选姿态中,选出渲染效果与原始场景最相似的那一个——这里用的是DINOv2这个视觉理解模型来比较相似度。
第二步是"精调":通过一个叫"可微渲染"的技术,精细调整物体的位置、旋转角度和大小,直到三个条件都满足。第一,物体的轮廓要和原始场景中的轮廓对齐。第二,物体要"合理地"接触桌面或地面,不能悬在半空。第三,物体不能穿透其他物体或墙壁,得遵守物理常识。
经过这两步操作,新造的物体就能严丝合缝地嵌入到修复后的场景中,既保证了视觉上的完美,又满足了物理上的合理性。
八、改造效果验证:数字背后的故事
光说不练假把式,研究团队为了证明WorldAct真的好用,做了一系列测试。
他们用了一个叫MWM(Marble世界模型)的测试数据集,里面包含六个由Marble系统生成的室内场景,涵盖了厨房、储藏室、卫生间等不同类型。这个数据集又被分成简单的MWM-easy和困难的MWM-hard两个子集。整个流程在一块NVIDIA RTX 3090显卡上跑完,大约需要1个小时。
在视觉质量评估上,研究团队用了两个客观指标。一个叫ReMOVE,主要看物体移除后背景的清洁程度;另一个叫MANIQA,综合评价图像的整体感知质量。结果显示,原始的Marble场景的ReMOVE分数是0.7933,MANIQA是0.3338。经过WorldAct改造后(物体重新放回),ReMOVE几乎保持不变(0.7934),而MANIQA反而提升到了0.3621——也就是说,改造不仅没有损害画质,还略微提升了视觉质量。
在物体移除和背景修补的对比中,WorldAct的表现明显超过了名为Gaussian Grouping的对比方法。研究团队还特别提到,Gaussian Grouping本身处理不了他们场景里那些复杂的洞,所以为了公平比较,特意把WorldAct生成的遮罩也提供给Gaussian Grouping使用,即便如此,WorldAct还是赢了。
为了更全面地评估改造质量,研究团队还做了一个非常有意思的用户调研。他们邀请了20名参与者,让大家从四个维度对改造前后的场景和物体打分:整体质量、表面完整度、边界清晰度和自然程度。每项打分是1到5分。
结果颇有意思:在场景层面,原始Marble场景的整体质量得分是4.41,WorldAct改造后是4.13——略有下降,但差距很小,这说明改造基本保留了原始场景的视觉品质。但在物体层面,原始物体(从场景中粗暴抠出来的那种)的整体质量只有2.49分,而WorldAct重新造出来的物体得分是3.75,提升了超过50%。边界清晰度的提升更为显著,从2.00跃升到3.95,几乎翻了一倍。
为了避免人类评分的主观性,研究团队还请了GPT-5.5作为辅助评估员,对相同的样本进行独立打分。GPT-5.5的评分趋势与人类参与者高度一致,进一步证实了WorldAct在物体级别上的显著改善。
九、改造后的虚拟世界能做什么:从摆设到舞台
光是改造完成还不够,这个被"激活"的虚拟世界能用来干什么,才是真正值得关心的事情。研究团队展示了两类应用场景,让人看到了这项技术的潜力。
第一类应用是"具身智能仿真"。简单说,就是让虚拟机器人在这个改造后的厨房里学习做家务。研究团队在论文里展示了一个有趣的场景:一个虚拟的机械臂在改造后的厨房里,可以伸出去抓取桌上的物品,然后把它放到另一个位置。这在改造前是完全做不到的——因为机械臂根本不知道哪里是"物品",哪里是"桌面",所有东西都是一坨数据。改造后,每个物体都成了独立的实体,有自己的形状、有碰撞属性,机械臂就可以真正地"操作"它们。这对训练家庭服务机器人、研究机器人的任务规划能力,都有重要意义。
第二类应用是"高质量3D场景编辑"。这对游戏设计师、室内设计师、虚拟现实内容创作者来说简直是福音。改造后,你可以在场景里添加新的物体(比如往厨房里加一盆植物),可以移除已有的物体(比如把烤箱搬走),可以移动物体到新的位置(比如把书从架子上挪到桌上),还可以修改物体的大小、材质、纹理。最关键的是,所有这些编辑都能保持场景的视觉一致性——移除物体后留下的空白会被自然填补,新加入的物体会和周围环境融洽相处,不会出现明显的违和感。
研究团队特别提到,在演示的编辑案例中,物体被移除后,那些原本被遮挡的区域被干净地修复出来,没有出现明显的"洞"或者"物体形状的痕迹"。这意味着WorldAct真正实现了让用户像编辑乐高积木一样自由地操作虚拟世界。
十、技术的边界:WorldAct做不到的事
任何一项技术都有它的局限,WorldAct也不例外。研究团队在论文结尾很坦诚地指出了几个尚未解决的问题。
首先,整个系统的视觉质量上限,被它所依赖的基础3D世界模型(也就是Marble)所限制。如果Marble生成的原始场景就有缺陷,WorldAct也没办法变魔术般地修复这些根本性的问题。换句话说,WorldAct更像是一个"翻译家"——它能把单体的虚拟世界翻译成可交互的形式,但翻译质量不会超过原文。
其次,目前的框架只能处理静态场景,无法应对动态场景。如果场景里有飘动的窗帘、流动的水、燃烧的火焰,WorldAct还无法很好地分离和重建这些动态元素。
第三,对于"有关节的物体"(比如可以打开的抽屉、可以旋转的椅子轮子)的处理还很有限。这些物体不仅有独立的形状,还有内部的活动结构,需要更复杂的建模。
最后,改造后的物体虽然有了几何形状和视觉外观,但还缺少完整的物理属性——比如它的质量是多少、表面摩擦系数如何、它和地面的支撑关系是怎样的。这些信息对于真实的物理仿真至关重要,目前还需要进一步研究。
研究团队明确表示,这些都是未来工作的重要方向。
十一、归根结底,这项研究告诉了我们什么
说到底,WorldAct解决的是一个看似冷僻、实则关乎AI未来的关键问题:如何让AI生成的虚拟世界,从"好看"走向"好用"。
过去几年,AI生成图像、视频、3D场景的能力突飞猛进,我们见识了太多惊艳的视觉效果。但这些效果的本质,就像精美的影视特效——好看,但摸不着。WorldAct像一座桥梁,把那些只能看的虚拟世界,变成了真正可以"住进去"的空间。
对普通人来说,这项技术意味着什么呢?在不远的将来,你可能可以用一句话生成一个理想中的房间,然后真的"走进去"摆弄家具、试不同的装饰风格。游戏开发的成本可能大大降低,因为开发者不再需要手工制作每一个虚拟物品。家用机器人可能能在虚拟环境中学会做家务,然后把这些技能迁移到真实的家里。VR/AR的内容创作可能变得像写文字一样简单。
研究团队选择Marble作为测试基础,不仅是因为它的生成质量好,更是因为它代表了一类典型的3D世界模型——能接受文字、图像作为输入,产生完整但单体化的虚拟世界。如果WorldAct的方法能在Marble上奏效,理论上也能推广到其他类似的3D生成系统。
当然,这项研究只是漫长征程中的一小步。距离真正"完美无缺"的可交互虚拟世界,还有很长的路要走。但至少,研究团队向我们展示了一种可能性:那些AI画出来的看似不可触碰的虚拟空间,通过巧妙的算法设计,是可以被"激活"的。
如果你对这项研究感兴趣,可以通过论文编号arXiv:2605.15843v1查询完整论文,或者访问项目主页查看更多演示视频。下次当你看到一段炫酷的AI生成3D场景演示时,不妨多问一句:这个场景里的东西,能拿起来吗?
Q&A
Q1:WorldAct是什么?它要解决什么问题?
A:WorldAct是上海交通大学和华为联合开发的一个AI框架,目的是把AI生成的静态3D虚拟世界变成可以交互的环境。目前像Marble这类AI能生成漂亮的3D场景,但所有物体都"焊死"在一起,无法单独移动或操作。WorldAct通过自动识别物体、把它们从场景中分离出来、修复留下的空缺、并重新生成完整的物体模型,让虚拟世界中的物品可以被拿取、移动、编辑,就像把一座石头雕塑变成了乐高积木。
Q2:WorldAct改造后的虚拟世界质量会下降吗?
A:基本不会,在某些指标上甚至会提升。研究团队做的测试显示,改造后的场景在ReMOVE指标上几乎不变(从0.7933到0.7934),在MANIQA画质指标上反而从0.3338提升到了0.3621。20名参与者的用户调研也表明,场景级别的视觉质量只略微下降(从4.41降到4.13,满分5分),但物体级别的质量大幅提升,整体得分从2.49跃升到3.75,边界清晰度更是从2.00涨到3.95。
Q3:WorldAct改造一个3D场景需要多长时间?可以用在哪些地方?
A:在一块NVIDIA RTX 3090显卡上,改造一个场景大约需要1小时,具体时间取决于场景复杂度。这项技术的应用前景很广,一方面可以用于具身智能仿真,比如让虚拟机器人在改造后的厨房里学习抓取和摆放物品,为家用机器人提供训练环境;另一方面可以用于高质量的3D场景编辑,游戏设计师、室内设计师、VR内容创作者可以自由地添加、移除、移动物体,并修改它们的大小、材质和纹理,而不会破坏整体场景的视觉一致性。