作者|子川
来源|AI先锋官
国外有Sora这棵参天大树,国内有可灵、Vidu、清影震撼来袭。
能够根据轨迹、图像、文本或其组合,通过画笔快速生成精确运动控制的视频。还支持首尾帧控制。在视频演示中,无论是模型Tora对视频的精准控制,还是视频的质感。Tora是第一个面向轨迹的 DiT 框架,该框架同时集成了文本、视觉和轨迹条件以进行视频生成。大量的实验证明了 Tora 在实现高运动保真度方面的卓越表现,同时还细致地模拟了物理世界的运动。Tora目前仅提供视频演示,其项目主页显示,其后续将发布在线Demo和推理、训练代码。Tora支持轨迹、文本、图像三种模态,它们的组合输入,可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。提示词:特写镜头展示了两朵玫瑰,一朵是鲜艳的紫色,另一朵是阳光明媚的黄色,在白雪皑皑的山脉背景下轻轻摇曳。该视频一丝不苟地突出了玫瑰鲜艳的色彩与山脉的原始白色之间的鲜明对比。玫瑰的细腻动作被精确捕捉,增强了视觉和谐,并通过色彩和自然的相互作用吸引了观众。该场景没有额外的文字或物体,仅关注雄伟的山地景观中玫瑰的迷人美丽。提示词:在阳光明媚、青翠的草地上,一只快乐的棕色小狗满足地坐在郁郁葱葱的绿草地上,尾巴轻轻地摇晃着。这段视频捕捉到了这个令人愉快的时刻,小狗带着好奇和幸福转过头,眼睛里闪烁着俏皮的能量。背景中简单、广阔的领域有助于突出小狗开朗的举止,不受任何干扰。该场景沐浴在温暖的阳光下,增强了当下的自然美景和宁静的氛围。这段视频完美地概括了小狗无忧无虑的天真快乐和奇迹。与目前常见的运动笔刷功能有所不同的是,"Tora能在不输入图像的情况下,仅通过轨迹和文本指令直接生成视频。本次使用的是图片+相同提示词的方式,Tora、Vidu、清影、可灵生成的视频。Tora架构是一种技术,它通过两个主要部分来制作视频:轨迹提取器和运动引导熔断器。轨迹提取器用一种特殊的方法来理解视频中的运动,然后提取重要信息。运动引导熔断器则将这些信息融入到视频制作过程中,确保视频的运动按照预定的轨迹进行。这种方法可以制作出高清晰度、运动可控且时间更长的视频。
随着Tora框架的正式发布,阿里团队再次展示了其在人工智能领域的深厚积累与创新能力。阿里在AI视频上的布局,在4个月内连发了7个新项目,覆盖文生视频、图生视频、人物跳舞、肖像说话等方向,几个月前让人惊艳的EMO已经成功上线,相信Tora在不久的将来也很快与我们相见。