1.昆仑万维发布全新自研的Matrix-Zero世界模型,包括3D场景生成和可交互视频生成两部分。
2.该模型能实现将用户输入的图片转化为真实合理的3D场景,并支持实时生成互动视频效果。
3.其中,3D场景生成大模型包含场景布局生成模块和纹理生成模块,可生成物理合理的3D场景。
4.另一方面,可交互视频生成模型结合大规模开放数据的预训练模型和用户输入交互模型,实现以用户指令输入为核心驱动的空间智能视频生成方案。
5.Matrix-Zero将于4月份上线,有望在电影、短剧、游戏、具身智能等领域广泛应用。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】中国首个全自研空间智能AI诞生了,单图即可生成360度无限3D场景,实时互动自由探索。这不仅是技术的革新,更预示着,游戏电影等领域即将迎来颠覆性的变革。
就在刚刚,昆仑万维正式发布了一款全新自研的Matrix-Zero世界模型。
Matrix-Zero世界模型包含两款子模型:昆仑万维自研的3D场景生成大模型与昆仑万维自研的可交互视频生成大模型。包括两部分功能:
支持将用户输入的图片转化为可自由探索的真实合理的3D场景; 支持根据用户输入实时生成互动视频效果。
至此,昆仑万维正式成为中国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。
空间智能,几大痛点亟待突破
不过仔细看就会发现,目前市面上相关的技术路线,尚存一些痛点未被解决。
360度无死角生成,还可交互
3D场景生成
可交互视频生成
通过基于Transformer架构的扩散模型,增强视频序列的时序依赖性和帧间连贯性,有效避免画面跳跃问题。 通过VAE进行数据降维,在提升计算效率的同时减少信息冗余。 通过时间步长优化策略保证生成视频的物理合理性和时序稳定性,确保画面流畅自然。
「离散运动控制模块」负责处理基本运动指令如前进、跳跃等; 「连续视角控制模块」用于实时处理视角变化等连续控制信号; 「3D场景位置追踪模块」通过空间定位技术确保视角转换的稳定性; 「滑动窗口机制」利用历史输入预测用户操作,优化控制响应。
空间智能,AI下一个里程碑
全矩阵布局,All in AGI
8月,国内首款AI搜索——天工AI搜索诞生 12月,领先的AI Agent开发平台天工SkyAgents发布