+关注

手机看

微信扫一扫，随时随地看

速递｜智能涌现，Vidu 开启视觉上下文时代！

ZPotentials

2024-11-15 17:54发布于福建科技领域创作者

+关注

AI划重点 · 全文约1922字，阅读需6分钟

1.baidu推出Vidu 1.5，揭示视觉模型进入上下文时代，具备对上下文的深刻理解、记忆等能力。

2.Vidu 1.5率先攻克多主体一致性难题，允许用户上传自定义角色图并进行特定动作。

3.除此之外，Vidu还支持多个主体之间的互动，以及融合不同主体特征，创造出全新的角色或物体。

4.通过不断扩展上下文长度，Vidu 1.5展现了视觉模型全新的智能涌现，具备强大的上下文学习能力。

5.由此，视觉模型将具备更强的认知能力，成为AGI的一块重要拼图，加速其到来。

以上内容由腾讯混元大模型生成，仅供参考

Vidu 1.5的推出，揭示了一个重要现象：视觉模型与语言模型一样，经过充分的训练，模型能够展现出对上下文的深刻理解、记忆等能力，这是视觉模型智能涌现的显著特征，这也标志着视觉模型进入全新的“上下文”时代，加速AGI的到来。

持续引领“一致性”突破

率先攻克“多主体一致性”难题

在全球上线之初，Vidu便具备了角色一致性生成能力，通过锁定人物面部特征解决了视频生成中的关键痛点，确保了人物面部特征的一致性。此项技术允许用户上传自定义角色图并指定该角色在任何场景中进行特定动作。在9月，Vidu又于全球率先发布了“主体一致性”功能，将面部一致拓展至全身一致，并且将范围由人物形象扩展到动物、物体、虚拟角色等任意主体。用户只需上传任意自定义主体的图片，便可通过描述词轻松实现在连续不同场景中的主体特征保持一致。

目前除了Vidu，其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调，才能实现基本的面部一致性。我们相信，随着基础模型的投入和迭代，整体性能将得到大幅度增强，而无需再依赖复杂的单点微调。

今天，Vidu首次展现出上下文学习的能力，彻底告别了单点微调！Vidu直接提升了整体视频模型的可控性，通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。

具体来说，Vidu的技术突破在以下三个方面得到了直观地呈现：

复杂主体的精准控制：无论是细节丰富的角色，还是复杂的物体，Vidu都能保证其在多个不同视角下的一致性。举个例子，造型复杂的3D动画风格角色，无论视角如何变化，Vidu始终确保头型、服饰的全角度细节一致，避免了传统视频模型在复杂视角切换时产生的瑕疵。

播放

下一个

打开循环播放

00:00

/

00:00

倍速

3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X

语言

多音轨

AirPlay

0

静音播放中，点击恢复音量

画中画

网页全屏

全屏

你可以刷新试试

视频信息
1.33.6

播放信息上传日志

视频ID

VID

-

播放流水

Flowid

-

播放内核

Kernel

-

显示器信息

Res

-

帧数

-

缓冲健康度

-

网络活动

net

-

视频分辨率

-

编码

Codec

-

mystery

mystery

-

按住画面移动小窗
X
人物面部特征和动态表情的自然一致：在人物特写镜头中，Vidu能够自然且流畅地保持人物面部特征和表情的连贯性，避免了面部僵硬或失真的现象。精细的面部控制使Vidu在创作细腻、真实角色时具有显著的优势。

播放

下一个

打开循环播放

00:00

/

00:00

倍速

3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X

语言

多音轨

AirPlay

0

静音播放中，点击恢复音量

画中画

网页全屏

全屏

你可以刷新试试

视频信息
1.33.6

播放信息上传日志

视频ID

VID

-

播放流水

Flowid

-

播放内核

Kernel

-

显示器信息

Res

-

帧数

-

缓冲健康度

-

网络活动

net

-

视频分辨率

-

编码

Codec

-

mystery

mystery

-

按住画面移动小窗
X
多主体一致性：Vidu允许用户上传多个主体图像，包括人物角色、道具物体、环境背景等，并在视频生成中实现这些元素的交互。例如，用户可以上传主体、客体和环境的图片，创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu还支持多个主体之间的互动，用户可以上传多个自定义角色，让它们在指定空间内进行交互。此外，Vidu还支持融合不同主体特征，例如将角色A的正面与角色B的反面无缝融合，创造出全新的角色或物体。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

视觉模型进入“上下文时代”

直观看，要实现上述类似的多主体一致性生成任务，需要模型能够同时理解“多图的灵活输入”，不仅在数量上实现多图的输入，而且图片不局限于特定的特征，这与语言模型的“上下文学习”能力具有显著的相似性。

在语言模型中，理解上下文不仅仅是处理单一的文本输入信息，而是通过关联前后的文本、识别语句之间的关系，生成连贯且符合情境的回答或内容。同样地，视频生成或多图生成任务中，模型需要能够理解多个输入图像的准确含义和它们之间的关联性，以及能够根据这些信息生成一致、连贯且有逻辑的输出。

通过不断扩展上下文长度，Vidu从1.0迭代到1.5后，出现了明显的智能涌现效应，模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频，到多输入参考信息，未来还将以更长、更丰富的上下文作为输入，进一步提升模型的能力表现。

在拥有处理更复杂任务能力的同时，Vidu1.5延续了其业界领先的生成效率，不到30s即可生成一段视频。

无微调、大统一架构方案

秉承通用性的理念，Vidu有和LLM一致的设计哲学：

统一问题形式：LLM 将所有问题统一为（文本输入，文本输出），Vidu 则将所有问题统一为（视觉输入，视觉输出）；
统一架构：LLM 和 Vidu 均用单个 Transformer 统一建模变长的输入和输出；
压缩即智能：LLM 从文本数据的压缩中获取智能，Vidu 从视频数据的压缩中获取智能。

图：技术架构方案

过往的视频模型如果想实现诸如一致性生成的能力，均需要针对每一个场景设计相应的模型进行微调，而无法像语言模型一样，通过上下文学习（In-Context Learning）基于少量的示例或提示快速适应新任务。

视觉智能的涌现加速AGI的到来

语言模型的发展呈现了通往AGI的一条可行路径。然而，依赖单一的文本输入仍无法实现全面逼近人类的高度智能。要实现更加通用和全面的智能，必须对更多模态进行良好的理解和生成建模，尤其是视觉模态，它为AI提供更加直观、丰富的世界理解方式，是通往AGI的关键一环。当前的视觉模型尽管在文本生成视频等方面取得显著进展，但与语言模型在深层次智能上的突破相比，尚存在较大差距。

Vidu 1.5展现了视觉模型全新的“智能涌现”，展示了其强大的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力，还能够在生成过程中进行记忆管理。这曾是大语言模型独有的优势，如今已在视觉模型中得以体现。

至此，Vidu不再仅仅是高质量、高效的视频生成器，它还能在生成过程中融入上下文信息和记忆，这是视觉模态智能的“大跨越”。视觉模型将具备更强的认知能力，成为AGI的一块重要拼图，加速其到来。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。