一张图生成一个实时回应你的对话视频角色 Runway 让视频生成走进了对话现场

小互AI · 深度解读

Runway Characters:视频生成走进了对话现场

Runway 发布了 Runway Characters,你给它一张参考图,它就能生成一个可以和用户实时说话的视频角色。


Runway Characters 将 AI 视频从传统的离线生成,推向实时交互场景。通过单张参考图,用户可以生成一个能实时回应的对话视频角色。


这次更新的核心亮点在于,它不仅让图像“动起来”,还让视频角色具备参与对话、调用工具、接入知识库的能力。

先抓这几项功能,后面再展开:

一张参考图生成角色,不需要为每个角色重新训练。
角色能实时对话,官方称支持 HD、24fps。
用户停下说话后,角色开始返回第一帧的服务端时间约 1.75 秒。
它能看摄像头,也能看屏幕共享。
声音、性格、开场白可以配置,也能生成或克隆自定义声音。
可以接文本或 Markdown 知识库,让角色按资料回答。
可以调用工具,比如高亮网页按钮、滚动页面、打开弹窗,或去后端查订单和库存。
可以通过 API、React SDK、网页 Widget 接进自己的产品。

图片

你可能觉得,这不就是“数字人”吗。上传一张脸,让它眨眼、张嘴、读稿,过去几年大家已经看过很多。

但 Runway Characters 不是在重复这件事。

它想把视频生成从“等模型出片”,往前推到“现场接话”。

用户不是等一段生成好的视频,而是在和屏幕里的角色说话。这个角色要能听懂你、看见你正在看的东西、按资料回答,还能在产品里做一点动作。

这才是这次发布最值得看的变化:视频角色开始从展示层,往产品交互层走。

咱们继续往下看...

01

以前是等一段片子,现在是接住一句话

大多数视频生成工具,工作方式都很像。

你写提示词,上传参考图,点生成,然后等。模型跑几十秒,给你几秒视频。你觉得不满意,再改提示词,再等一轮。

这个流程里,慢一点可以接受,因为你本来就在等一个素材。

Runway Characters 换了场景。

你不是让它生成一段视频交差,而是在和一个角色互动。

你问一句,它要接住。

你共享屏幕,它要看懂,你问“这个按钮在哪”,它最好能指给你。

你问订单状态,它不能编一句像样的话,而要去查后端数据。

这时候,延迟就不再是小瑕疵...

聊天框慢两秒,用户可能还能忍。一个视频角色停住五六秒,现场感马上断掉。因为你看到的是一张脸。一张脸停在那里不回话,比文字气泡慢一点更让人出戏。

所以 Runway 这次反复强调 real-time。

官方给出的关键数字是:24fps,37ms 有效模型时间每帧;从用户停止说话到角色开始返回第一帧,服务端约 1.75 秒。

1.75 秒不是你在电脑前感受到的完整等待时间。它是 server-side turn-around。网络、设备、客户端播放都会继续增加延迟。Runway 自己也提到,连接质量会影响体验。

但这个数字仍然重要。它说明 Runway 不是在做“更快生成视频”,而是在做“视频能不能进入对话节奏”。

02

难点不在照片开口,而在边生成边回应

普通视频生成像做一桌菜。

你点完单,厨房慢慢做,全部做好再端出来。只要最后结果不错,你等一会儿也能接受。

实时视频角色更像开放式厨房。

你一边说需求,它一边做,一边端出来。你又补一句“换个说法”,它还得跟上。

Runway Characters 面对的就是这个难点。角色要听你说话,要让大模型组织回复,要合成声音,还要生成口型、表情、头部动作和视频帧。

它不能先把整段视频生成完再播放。那样每问一句,都像等一次渲染。

Runway 的做法是逐帧生成和流式输出。

简单说,就是边生成边播放。

官方技术拆解里提到,Characters 基于 GWM-1,一次迭代生成 4 帧。24fps 下,4 帧大约对应 167ms。官方测量里,diffusion transformer 约 151ms,VAE decoder 约 119ms。如果顺着跑,时间会超。Runway 把两段做成流水线:上一批帧在解码时,下一批帧已经开始生成。

图片

不用记 DMD、KV cache、CUDA Graphs 这些技术名词。

记住一个人话版本就行:过去的视频模型是“先拍完再放映”,Runway Characters 更像“边拍边直播”。

这就是它和普通图生视频的分界。

03


从“视频角色”到“视频 Agent”


更有意思的是,Runway Characters 并不只是一个会说话的头像,它还拥有一些其他的能力,类似目前的AI模型具备的你Agent的能力。

图片

它有眼睛:Vision 让角色可以看摄像头和屏幕共享。你在设计稿上停住,它可以围绕当前画面说哪里拥挤;你在产品后台找不到入口,它可以看着屏幕告诉你下一步点哪里。

它有资料:Knowledge base 让角色接文本或 Markdown,按你的产品文档、FAQ、内部规则回答。否则角色再自然,也只是一个带脸的聊天机器人。

图片

它有手:Tool Calling 让角色能调用动作,开发者可以给角色定义可调用工具,比如显示字幕、弹出知识卡片、更新游戏状态,也可以调用后端接口查询订单状态、预计送达时间等信息。

图片

它可以自定义声音:支持 text-to-voice,也支持从音频样本进行 instant voice cloning,然后把声音绑定给角色,保持多轮会话里的声音一致。



这几件事连起来,正是它最大的区别,更像是一个产品入口。

想象一个 SaaS 新手页。

用户第一次进来,不知道怎么创建项目。过去他可能要看帮助文档、点引导浮层、问客服聊天框,甚至去搜教程。

或者你可以一边玩游戏,一边有人给你解说,或者带入 Zoom、Google Meet 或 Teams 的真实会议中,让他们能够实时观看、倾听并做出响应。

Runway Characters 想做的形态是:一个品牌角色出现在页面角落。用户问“我该从哪开始?”它看见当前页面,滚动到对应区域,高亮“新建项目”按钮,然后解释为什么先点这里。

用户继续问“免费版和专业版差在哪?”它查知识库。

用户问“我上次买的套餐还在吗?”它调后端接口。

这时候它就不是一个会说话的头像了。它把讲解、问答、页面引导和工具调用,放进了一次视频对话里。

这么看它更像一个能进产品界面的新交互层

图片

以前的 AI 交互主要在文本框里。后来有语音助手,有静态头像,有会动的数字人。Runway Characters 再往前推一步:角色可以看、听、说、调用工具,还能嵌到网页和会议里。

落到产品里,“帮助中心”“新手引导”“在线讲解”“虚拟主持人”都会多一个视频入口,不必只停在聊天窗口里。

这些能力连起来看,Runway Characters 的定位就很清楚了。

它不是一个“AI 口播视频生成器”。

它更像一个有视觉形象、有声音、有知识库、有工具调用能力的实时视频 Agent。

04

GWM-1 让它不只是数字人

Runway Characters 基于其 GWM-1模型,也就是 Runway 的 General World Model。

这个背景不用讲得太玄。可以直接理解成:Runway 不满足于让 AI 生成一段漂亮视频,它想让模型理解画面里的世界、动作和变化。

Runway 之前把 GWM-1 拆成几个方向:Worlds、Avatars、Robotics。

Worlds 是生成可以探索的世界。Robotics 是让模型理解机器人动作和环境反馈。Characters 对应 Avatars,也就是可对话角色。

放在这条线里看,Characters 不是 Runway 顺手做了个数字人工具。

它是在把视频生成往交互产品里推:视频不再只是输出结果,也可以成为用户操作产品、理解页面、查询资料的入口。

这也是它和 Tavus、HeyGen、D-ID 的位置差异。

图片

Tavus CVI 更强调低延迟和生产级实时视频代理。HeyGen LiveAvatar 更像成熟的企业数字人平台。D-ID Realtime Agents 已经把 LLM、知识库、TTS、WebRTC 这套管线打包成可配置系统。Synthesia 更偏企业培训和预生成视频。

Runway 的强项不一定是最低延迟,也不一定是最成熟的企业数字人流程。

它更像从生成式视频模型切进实时代理,优势在单图生成、风格自由度和 GWM-1 背后的路线。

图片

这会影响适用哪些场景:

真人客服、真人讲师、企业口播,HeyGen、Tavus、Synthesia 这些产品各有成熟路径。Runway Characters 更适合品牌 mascot、游戏 NPC、课程虚拟助教、虚构人物、2D 风格角色,甚至某种产品拟人化入口。

它的强项不是“像真人”,而是“角色可以不是真人”。

这一点很容易被低估。未来很多视频代理未必都长成客服代表,它们可能是一个产品吉祥物,一个课程里的助教,一个游戏世界里的 NPC,一个设计工具里的陪练角色。

05

先别拿它替代客服

Runway Characters 现在最适合的第一批场景,不是正式客服主入口。

更适合的是低风险、强展示、边界清楚的场景。

比如官网互动讲解员,用户不用翻 FAQ,直接问角色:这个产品适合谁?怎么开始?价格怎么算?和别的工具差在哪?

比如课程或教程助教。角色可以看屏幕、看课件、看步骤,帮用户理解一个概念,或者引导他完成下一步。

比如展会、发布会、品牌活动。一个 mascot 站在那里,能和观众聊天,能介绍产品,能回答固定资料里的问题,本身就有展示价值。

比如游戏 NPC 或互动故事。Runway 的风格自由度在这里会更明显。真人客服不一定需要幻想角色,但游戏、互动活动、品牌 IP 很需要。

比如内部知识库。公司可以先把角色接到固定文档里,让它回答新员工常问的问题。这个场景不公开面对客户,风险更低,也适合早期验证。

暂时不要急着把它放进正式客服、付费销售、医疗法律金融建议、心理咨询,或者任何授权不清的真人脸和真人声音场景。

这些地方不是“能说话”就够了。它们要求稳定、合规、可追责、低误答、低延迟,还要能处理大量边界情况。

06

如何用?成本如何?

Runway 现在给了几个入口:web app、Developer Platform、API integration,也提供 API、React SDK 和网页 Widget。

Web App 适合初步体验,最长 2 分钟;Developer Platform 适合带自定义设置的测试,最长 5 分钟;API integration 面向生产集成,最长 30 分钟。

  • Web App:最长 2 分钟
  • Developer Platform:最长 5 分钟
  • API Integration:最长 30 分钟

价格如何?

Runway API 价格页写,gwm1_avatars 是 2 credits upfront,再按 2 credits / 6 秒计费。1 credit 等于 0.01 美元,粗算约 0.20 美元一分钟,外加每次会话的 upfront 成本。自定义声音生成还会另外收 credits。

  • 基础价格:2 credits / 6 秒,约 20 credits / 分钟
  • 折美元:1 credit = $0.01,所以约 $0.20 / 分钟
  • API 口径:gwm1_avatars 是 2 credits 起步费 + 2 credits / 6 秒
  • 1 分钟 API 会话:约 22 credits即 $0.22
  • 30 分钟 API 会话:约 602 credits即 $6.02


这个价格对 demo 不夸张,但对客服、销售、教育陪练,就必须认真算账。实时视频角色不是文本聊天,它消耗的是持续的视频生成时间。

合规更不能随便来:

Runway 的使用政策限制未经许可使用他人的图像、视频或声音,也限制冒充和误导。Characters 还有额外边界:未成年人形象、面向未成年人的角色、医疗法律金融建议、治疗或咨询类用途,都不是可以随便试的地方。

实时视频角色越像真人,授权和误导风险就越高。

如果要试,最好从虚构角色、品牌角色、明确授权的形象开始。不要拿真人脸和真人声音做灰色测试。

07

AI 视频正在从内容生成走向交互基础设施

Runway 过去一直是 AI 视频领域的重要公司。

很多人关注 Runway,是因为它的视频生成效果、镜头控制能力、影视级工作流。

但 Runway Characters 释放的信号更偏底层。

AI 视频正在从“生成一段内容”进入“实时参与对话”。

这会改变视频模型的评价标准。

过去大家看的是清晰度、真实感、运动稳定性、镜头美感。

接下来还要看延迟、连续性、可控性、对话一致性、角色身份稳定性、系统接入能力。

一个模型生成的视频再好,如果没法实时互动,它就更适合内容创作。

一个模型的视觉质量未必电影级,但如果它能稳定、低延迟、可部署地参与对话,它就可能进入教育、客服、游戏、会议、直播和企业应用。

Runway Characters 这次真正值得关注的点就在这里。

它把视频生成从“作品”推向了“界面”。

参考链接

[1] https://runwayml.com/news/building-runway-characters: https://runwayml.com/news/building-runway-characters

[2] https://runwayml.com/news/introducing-runway-characters: https://runwayml.com/news/introducing-runway-characters

[3] https://runwayml.com/research/introducing-runway-gwm-1: https://runwayml.com/research/introducing-runway-gwm-1

[4] https://docs.dev.runwayml.com/characters: https://docs.dev.runwayml.com/characters

[5] https://docs.dev.runwayml.com/guides/models/: https://docs.dev.runwayml.com/guides/models/

[6] https://docs.dev.runwayml.com/guides/pricing: https://docs.dev.runwayml.com/guides/pricing

[7] https://help.runwayml.com/hc/en-us/articles/49557780326163-Runway-Characters: https://help.runwayml.com/hc/en-us/articles/49557780326163-Runway-Characters

[8] https://help.runwayml.com/hc/en-us/articles/17944787368595-Runway-s-Usage-Policy: https://help.runwayml.com/hc/en-us/articles/17944787368595-Runway-s-Usage-Policy

[9] https://docs.tavus.io/sections/conversational-video-interface: https://docs.tavus.io/sections/conversational-video-interface

[10] https://help.heygen.com/en/articles/12758516-introducing-liveavatar: https://help.heygen.com/en/articles/12758516-introducing-liveavatar

[11] https://docs.d-id.com/docs/realtime-overview: https://docs.d-id.com/docs/realtime-overview

— END —