苹果在专利提出用于Avatar生成的增强配准技术

映维网刘卫华

2024-10-18 21:59发布于广东科技领域创作者

全文4151字，阅读约需12分钟，帮我划重点

划重点

01苹果在一份专利申请中提出了用于Avatar生成的增强配准技术，以提高Avatar的准确性并支持功率有限的移动设备。

02该技术通过确定基于单个图像的主体和关节位置的重建网格，同时考虑图像、前深度数据和后深度数据来预测关节位置。

03其中，后深度数据可以从主体图像和/或深度传感器数据中导出，以限制关节位置在用户的体积内。

04通过训练关节网络，可以基于图像数据和深度数据预测一组关节的位置，使得深度数据将关节的位置限制在用户的体积内。

05最后，使用预测的关节位置和逆运动学来预测骨架，以确定构成主体骨架的关节之间的相对位置和连接。

以上内容由腾讯混元大模型生成，仅供参考

用于Avatar生成的增强配准技术

（映维网Nweon 2024年10月16日）现有的Avatar生成系统往往不能准确地代表用户，并且通常不能很好地支持功率有限的移动设备。针对这个问题，苹果在一份专利申请中提出了用于Avatar生成的增强配准技术。具体来说，发明用于确定基于单个图像的主体和关节位置的重建网格。

在一个实施例中，将输入图像应用于特征网络，例如图像编码器，以获得主体的表面特征。通过对图像的给定特征点进行采样，可以得到一个特征向量。然后，给定特征向量和给定深度值，分类网络可以预测给定点是在主体的体积内还是在主体的体积外。通过对所有3D点这样做，可以恢复体积的表面。

所述过程同时涉及根据所述3D形状的正面深度和背面深度确定所述主体的一组关节。在一个实施例中，可以从所述3D形状确定所述前后深度。例如对于给定的像素，可以识别指示前表面和后表面的深度。前深度可从设备捕获的深度传感器数据或从与图像相关的深度数据获得。

在一个实施例中，可以使用考虑来自图像和/或前方深度数据的特征来预测后深度数据的网络来确定后深度。利用图像、前深度数据和后深度数据，关节网络可以为主体预测一组关节的位置。

图1显示了用于根据单个输入图像生成3D占用域和确定关节信息的流程图。

流程图100以输入图像102开始。输入图像102可以是用户或其他主体的图像。在配准期间，用户利用个人设备捕获指向用户脸部的图像，而从中可以导出配准数据以呈现与用户关联的Avatar数据。

除了图像102之外，同时可以获得与所述图像相对应的深度传感器数据104。即，深度传感器数据104可由与图像102中的主体对应的一个或多个深度传感器捕获。另外，图像102可以由深度相头捕获，并且可以同时捕获深度和图像数据。

这样，深度传感器数据104可以从捕获图像/传感器数据的设备的角度指示主体表面的相对深度。

在一个实施例中，可以将所述图像102应用于特征网络110，以获得所述图像102的一组特征112。特征网络110可以另外使用后深度数据106和前深度数据108。在一个实施例中，特征网络110配置为为图像中的给定像素提供特征向量。空间中给定的采样3D点将具有X, Y和Z坐标。从X, Y坐标中，从图像的特征112中选择一个特征向量。

在一个实施例中，每个特征向量与给定采样3D点的相应Z坐标组合，以获得每个图像处采样3D点的特征向量112。根据一个实施例，可以将特征向量112应用于分类网络114，以确定用于每个输入向量的特定采样3D点的分类值。

返回到示例图像102，对于给定的采样3D点，可以确定分类值。在一个实施例中，可以训练分类网络以预测采样点与输入图像102中呈现的主题表面的关系。例如，分类网络114可以返回0-1之间的值，其中0.5在表面上，1和0分别是主体3D体积的内部和外部。

因此，对于输入图像上的每个采样的3D点，确定一个分类值。可从来自分类网络114的分类值的组合派生出用于用户的3D占用域116。例如，可以分析分类值集以恢复输入图像中呈现的3D主体的表面。在一个实施例中，3D占用域 116可用于生成用户或用户一部分的表示，例如用户的Avatar表示。

除了3D占用域之外，用户的关节位置可以从特征112中确定。所述联合网络118可以使用所述图像数据102以及所述深度信息。所述深度可以包括前深度数据108和后深度数据。可以对关节网络进行训练，以在为其预测3D占用域116的图像中为用户预测关节位置120。

图2显示确定输入图像中所描述的主体的3D占用域和关节位置。

流程图200从205开始，获得主体的图像。所述输入图像可以包括所述主体的视觉图像。

在215，获得主体的深度信息。深度信息包括来自205的输入图像中所描述的主体的前深度数据和后深度数据。前深度数据可以从主体图像确定。

在225，可以从深度传感器数据确定前深度数据。例如，由深度传感器捕获的传感器数据可用于确定面向传感器的用户表面的深度信息。

根据一个或多个实施例，尽管传感器数据可能不直接捕获用户背面的深度信息，但在230，后深度数据可以从前深度数据导出，例如，通过使用考虑图像和/或前深度数据的网络来预测后深度数据。根据一个或多个实施例，对于给定像素，前深度数据指示空间中的一个点，用户的面向设备的表面位于该点上。类似地，对于给定的像素，背面深度数据表示用户背对设备的表面所在的空间点。

在235，基于图像数据、前深度数据和后深度数据确定特征集。所述特征集可以包括用于在205处获得的图像的每个采样点的特征向量。所述采样点可指与要在其中表示所述主体的区域相对应的3D点。可以通过将输入图像应用于特征网络，例如图像编码器，以获得主体的表面特征来获得特征集。通过对图像的给定特征点进行采样，可以得到一个特征向量。

在240，从特征集中预测主体的3D网格。可以根据与所述主体对应的occupation field来确定所述3D网格。在一个实施例中，特征集可用于确定每个采样点的分类器值。分类器值可以指示所述3D样本点相对于所述主体表面的预测相对位置。

流程图在245结束，其中根据特征集预测关节位置。所述特征集派生自所述前深度数据、后深度数据和图像数据。因此，可以使用前深度数据和后深度数据来约束预测的关节位置。可以通过训练为基于特征集和/或深度信息预测关节位置的联合网络来预测关节位置。

图3显示了用于生成3D占用域基于单个输入图像确定关节信息的可选流程图。

在302，可以捕获图像，例如在配准期间，用户利用个人设备捕获指向用户脸部的图像，从中可以派生配准数据以呈现与用户关联的Avatar数据。

除了图像302之外，同时可以获得与所述图像相对应的深度传感器数据304。即，深度传感器数据304可由与图像302中的主体对应的一个或多个深度传感器捕获。

根据一个实施例，可以将图像302应用于特征网络310，以获得图像302的一组特征312。特征网络310可以另外使用前面深度数据308。在一个或多个实施例中，特征网络310配置为为图像中的给定像素提供特征向量。空间中给定的采样3D点将具有X, Y和Z坐标。从X, Y坐标中，从图像的312个特征中选择一个特征向量。

将每个特征向量与给定采样3D点的相应Z坐标组合，以获得每个图像处采样3D点的特征向量312。根据一个实施例，可以将特征向量312应用于分类网络314，以确定用于每个输入向量的特定采样3D点的分类值。

返回到示例图像302，对于给定的采样3D点，可以确定分类值。可以训练分类网络以预测采样点与输入图像302中呈现的主体表面的关系。分类网络314可以返回0-1之间的值，其中0.5在表面上，1和0分别是3D体积的内部和外部。因此，对于输入图像上的每个采样的3D点，确定一个分类值。可从来自分类网络314的分类值的组合派生出用于用户的3D占用域316。

由于3D占用域316预测了用户的体积，因此可以从3D占用域确定回深度数据318。特别是，所述3D占用域包括关于相对于所述主体的体积的表面定位的3D点的预测。因此，可以将预测在用户后表面的采样点的深度用作后深度数据318。

可以训练关节网络320以基于输入图像以及前深度数据和后深度数据预测关节位置322。关节位置可以指示，对于一个主体的一组预定义关节中的每一个在3D空间中的位置。通过使用前后深度和图像数据，可以在三维空间中约束关节的深度。

图4显示了用于确定3D 占用域和关节位置的技术流程图。

从405开始，获得主体的图像。所述输入图像405可包括所述主体的视觉图像。

在415，获得主体的深度信息。

在430，根据图像数据和前深度数据确定特征集。

在435，基于特征集预测主体的3D网格。可以根据对应的占用域来确定所述3D网格。

在440，可以根据从中确定3D网格的分类值来确定后深度数据，亦即可以根据3D网格的几何形状来确定用户背对摄像头的表面位置。

在445，训练一个联合网络，以根据输入图像以及前深度数据和后深度数据预测一组联合位置。如上所述，前深度数据可以直接从传感器数据中确定，或可以从传感器数据中导出，而后深度数据可以从网格和/或分类值中导出。然后，关节网络可以基于图像数据、前深度数据和后深度数据对用户的关节位置进行预测。

图5示出了预测一组关节位置。如上所述，发明所述的技术包括生成与主体图像500对应的前深度数据505和后深度数据510。前深度数据505可以是深度传感器捕获的深度数据，或可以是基于深度传感器数据和图像数据确定的深度数据。

后深度数据510可以从主体图像500导出。在一个实施例中，后深度数据可以从pifu技术确定的主体3D占用体积中导出。即，可以将主体图像500和前深度505作为特征网络的输入，从中可以根据其与主体表面的关系对三维空间中的采样点进行分类。因此，可以识别用户的边界体，例如以3D网格的形式。后深度510可由确定在远离摄像头的表面上的采样点导出。

根据一个或多个实施例，可以使用前面深度505、后面深度510和主体图像500来确定主体的一组关节位置520。特别地，可以训练关节网络以基于图像数据和深度数据预测一组关节的位置，使得深度数据将关节的位置限制在用户的体积515内。

在一个实施例中，关节网络可以配置为确定关节的位置，但可以不提供确定用户骨架所需的旋转信息或其他数据。即，可以确定单个关节的位置，但关节之间的关系可以不由关节网络产生。相反，可以将逆运动学函数应用于关节位置520以确定主体的骨架525。从这里，骨架525可用于驱动主体的Avatar表示。

图6示出使用预测的关节位置驱动Avatar。

在605，获得主体的图像数据。例如在配准期间，用户利用个人设备捕获指向用户面部的图像，从中可以导出配准数据以呈现与用户关联的化身数据。

在610，可以获得与所述图像对应的深度传感器数据104。

在615，从图像数据和/或获得的深度数据导出前深度数据和后深度数据。

在620，主体的关节位置由前深度数据、后深度数据和图像数据确定。关节位置可以通过前深度数据、后深度数据和图像数据进行预测。可以训练关节网络以基于图像数据和深度数据预测一组关节的位置，使得深度数据将关节的位置限制在用户的体积515内。

在625，使用关节位置预测骨架。可以使用预测的关节位置和逆运动学来预测骨架，以确定构成主体骨架的关节之间的相对位置和连接。因此，骨架包括关节位置，以及由此确定骨架姿态的连接信息和方向信息。

流程图在630结束，其中Avatar使用骨架驱动。根据一个实施例，设备可以捕获用户的追踪信息，并以Avatar表示的形式生成执行追踪运动的用户的虚拟表示。Avatar表示可以部分地基于来自主体的占用体积的3D网格。

名为“Pinch recognition and rejection”的苹果专利申请最初在2024年3月提交，并在日前由美国专利商标局公布。

查看原图 50K