从单目视频中实现完全可控Avatar
(映维网Nweon 2024年12月27日)3D Avatar的高保真重建有着广泛的应用,包括虚拟现实。在一项研究中,浙江大学和vivo团队提出了FAGhead,一种从单目视频中实现完全可控Avatar的方法。
研究人员显式转换传统的三维变形网格(3DMM),并优化了中性3D Gaussians以实现复杂表情的重建。另外,他们采用了一种具有可学习Gaussian点位置的Point-based Learnable Representation Field以提高重建性能。同时,为了有效地管理头像的边缘,引入了alpha渲染来监督每个像素的alpha值。
在开源数据集和捕获数据集的大量实验结果表明,所述方法能够生成高保真的3D Avatar,并且完全控制表情和姿态。
在3D内容创作和虚拟现实技术等一系列应用的推动下,单目视频的3D Avatar重建出现了显著的增长。随着数字人类的发展,对自动合成逼真Avatar的需求越来越大。
以往的研究主要是利用3D变形模型,重点关注形状和表情的变换。但在单视图设置下,所述方法不能满足真实感要求,并且需要精确的几何网格作为先决条件,而这限制了它们的应用。
几何重建领域的进步极大地提高了几何合成的精度。神经辐射场(NeRF)显示出对复杂对象的强大处理能力,并获得了更高质量的结果。有的方法通过优化一个额外的连续体变形场来产生逼真的人类Avatar,而其他方法则与传统的3D建模方法结合,并具备了泛化到新变形的能力。
然而,依赖于大量采样和alpha合成的体渲染方法限制了推理的速度。最近兴起的3DGS利用一组三维高斯点来描述三维现实场景,并以可变属性分配三维高斯点,证明了真实感新视图合成的可行性和高效率。
尽管相关方法在真实感Avatar合成方面取得了长足的进步,但它们无法有效地解耦identity和expression信息,导致在面对具有新颖表情的任务时,结果并不合理。
为了克服这一问题,进一步提高质量,浙江大学和vivo团队提出了一种基于3D模型表示的高保真构建和动画方法FAGhead。
先前的研究在多视角camera设置中通过线性混合蒙皮,而研究人员在单视角设置中对其进行了扩展。在解耦方面,通过改进的人脸跟踪器在预处理过程中分离identity和expression信息。
在高斯初始化方面,他们提出了Point-based Learnable Representation Field,所述方法沿着单个三角形面部的中线定位高斯点,从而增加高斯点的密度,并强化了面部表情细节。
具体来说,不是在FLAME网格的每个三角形面中心初始化3D高斯点,而是沿着每个avatar网格中连接质心和三角形面每个顶点的线段对高斯点进行可学习位置的采样。在此基础上,他们建立了人脸动态运动的变换网络,实现了从标准点场到点场的变换匹配。
在实践中,它以预先检索到的FLAME参数作为条件来产生面部运动变形。另外,为了提高头发和肩膀边缘的渲染性能,引入了alpha map和渲染边缘之间的alpha loss。在增强功能的帮助下,FAGhead实现了更高的保真度渲染,并提供了完全可控的面部表情和头部姿势的avatar。
总的来说,FAGhead实现了高保真重建和全动画的3D avatar。团队提出了Point-based Learnable Representation Field作为重建avatar的先验方法,并利用变换网络拟合变形。结果优于目前最先进的方法。
然而,所述方法依然存在进一步改进的余地。一个限制是它不能有效地模拟口腔。另外,渲染性能严重依赖于数据预处理的质量,这表明在这个阶段很难有效地处理重大错误。解决相关问题将是未来研究工作的重点。