一张图生成一个实时回应你的对话视频角色 Runway 让视频生成走进了对话现场

小互AI

2026-05-06 12:56发布于安徽

小互AI · 深度解读

Runway Characters：视频生成走进了对话现场

Runway 发布了 Runway Characters，你给它一张参考图，它就能生成一个可以和用户实时说话的视频角色。

Runway Characters 将 AI 视频从传统的离线生成，推向实时交互场景。通过单张参考图，用户可以生成一个能实时回应的对话视频角色。

这次更新的核心亮点在于，它不仅让图像“动起来”，还让视频角色具备参与对话、调用工具、接入知识库的能力。

先抓这几项功能，后面再展开：

•一张参考图生成角色，不需要为每个角色重新训练。

•角色能实时对话，官方称支持 HD、24fps。

•用户停下说话后，角色开始返回第一帧的服务端时间约 1.75 秒。

•它能看摄像头，也能看屏幕共享。

•声音、性格、开场白可以配置，也能生成或克隆自定义声音。

•可以接文本或 Markdown 知识库，让角色按资料回答。

•可以调用工具，比如高亮网页按钮、滚动页面、打开弹窗，或去后端查订单和库存。

•可以通过 API、React SDK、网页 Widget 接进自己的产品。

你可能觉得，这不就是“数字人”吗。上传一张脸，让它眨眼、张嘴、读稿，过去几年大家已经看过很多。

但 Runway Characters 不是在重复这件事。

它想把视频生成从“等模型出片”，往前推到“现场接话”。

用户不是等一段生成好的视频，而是在和屏幕里的角色说话。这个角色要能听懂你、看见你正在看的东西、按资料回答，还能在产品里做一点动作。

这才是这次发布最值得看的变化：视频角色开始从展示层，往产品交互层走。

咱们继续往下看...

以前是等一段片子，现在是接住一句话

大多数视频生成工具，工作方式都很像。

你写提示词，上传参考图，点生成，然后等。模型跑几十秒，给你几秒视频。你觉得不满意，再改提示词，再等一轮。

这个流程里，慢一点可以接受，因为你本来就在等一个素材。

Runway Characters 换了场景。

你不是让它生成一段视频交差，而是在和一个角色互动。

你问一句，它要接住。

你共享屏幕，它要看懂，你问“这个按钮在哪”，它最好能指给你。

你问订单状态，它不能编一句像样的话，而要去查后端数据。

这时候，延迟就不再是小瑕疵...

聊天框慢两秒，用户可能还能忍。一个视频角色停住五六秒，现场感马上断掉。因为你看到的是一张脸。一张脸停在那里不回话，比文字气泡慢一点更让人出戏。

所以 Runway 这次反复强调 real-time。

官方给出的关键数字是：24fps，37ms 有效模型时间每帧；从用户停止说话到角色开始返回第一帧，服务端约 1.75 秒。

1.75 秒不是你在电脑前感受到的完整等待时间。它是 server-side turn-around。网络、设备、客户端播放都会继续增加延迟。Runway 自己也提到，连接质量会影响体验。

但这个数字仍然重要。它说明 Runway 不是在做“更快生成视频”，而是在做“视频能不能进入对话节奏”。

难点不在照片开口，而在边生成边回应

普通视频生成像做一桌菜。

你点完单，厨房慢慢做，全部做好再端出来。只要最后结果不错，你等一会儿也能接受。

实时视频角色更像开放式厨房。

你一边说需求，它一边做，一边端出来。你又补一句“换个说法”，它还得跟上。

Runway Characters 面对的就是这个难点。角色要听你说话，要让大模型组织回复，要合成声音，还要生成口型、表情、头部动作和视频帧。

它不能先把整段视频生成完再播放。那样每问一句，都像等一次渲染。

Runway 的做法是逐帧生成和流式输出。

简单说，就是边生成边播放。

官方技术拆解里提到，Characters 基于 GWM-1，一次迭代生成 4 帧。24fps 下，4 帧大约对应 167ms。官方测量里，diffusion transformer 约 151ms，VAE decoder 约 119ms。如果顺着跑，时间会超。Runway 把两段做成流水线：上一批帧在解码时，下一批帧已经开始生成。

不用记 DMD、KV cache、CUDA Graphs 这些技术名词。

记住一个人话版本就行：过去的视频模型是“先拍完再放映”，Runway Characters 更像“边拍边直播”。

这就是它和普通图生视频的分界。

从“视频角色”到“视频 Agent”

更有意思的是，Runway Characters 并不只是一个会说话的头像，它还拥有一些其他的能力，类似目前的AI模型具备的你Agent的能力。

它有眼睛：Vision 让角色可以看摄像头和屏幕共享。你在设计稿上停住，它可以围绕当前画面说哪里拥挤；你在产品后台找不到入口，它可以看着屏幕告诉你下一步点哪里。

它有资料：Knowledge base 让角色接文本或 Markdown，按你的产品文档、FAQ、内部规则回答。否则角色再自然，也只是一个带脸的聊天机器人。

它有手：Tool Calling 让角色能调用动作，开发者可以给角色定义可调用工具，比如显示字幕、弹出知识卡片、更新游戏状态，也可以调用后端接口查询订单状态、预计送达时间等信息。

它可以自定义声音：支持 text-to-voice，也支持从音频样本进行 instant voice cloning，然后把声音绑定给角色，保持多轮会话里的声音一致。

这几件事连起来，正是它最大的区别，更像是一个产品入口。

想象一个 SaaS 新手页。

用户第一次进来，不知道怎么创建项目。过去他可能要看帮助文档、点引导浮层、问客服聊天框，甚至去搜教程。

或者你可以一边玩游戏，一边有人给你解说，或者带入 Zoom、Google Meet 或 Teams 的真实会议中，让他们能够实时观看、倾听并做出响应。

Runway Characters 想做的形态是：一个品牌角色出现在页面角落。用户问“我该从哪开始？”它看见当前页面，滚动到对应区域，高亮“新建项目”按钮，然后解释为什么先点这里。

用户继续问“免费版和专业版差在哪？”它查知识库。

用户问“我上次买的套餐还在吗？”它调后端接口。

这时候它就不是一个会说话的头像了。它把讲解、问答、页面引导和工具调用，放进了一次视频对话里。

这么看它更像一个能进产品界面的新交互层

以前的 AI 交互主要在文本框里。后来有语音助手，有静态头像，有会动的数字人。Runway Characters 再往前推一步：角色可以看、听、说、调用工具，还能嵌到网页和会议里。

落到产品里，“帮助中心”“新手引导”“在线讲解”“虚拟主持人”都会多一个视频入口，不必只停在聊天窗口里。

这些能力连起来看，Runway Characters 的定位就很清楚了。

它不是一个“AI 口播视频生成器”。

它更像一个有视觉形象、有声音、有知识库、有工具调用能力的实时视频 Agent。

GWM-1 让它不只是数字人

Runway Characters 基于其 GWM-1模型，也就是 Runway 的 General World Model。

这个背景不用讲得太玄。可以直接理解成：Runway 不满足于让 AI 生成一段漂亮视频，它想让模型理解画面里的世界、动作和变化。

Runway 之前把 GWM-1 拆成几个方向：Worlds、Avatars、Robotics。

Worlds 是生成可以探索的世界。Robotics 是让模型理解机器人动作和环境反馈。Characters 对应 Avatars，也就是可对话角色。

放在这条线里看，Characters 不是 Runway 顺手做了个数字人工具。

它是在把视频生成往交互产品里推：视频不再只是输出结果，也可以成为用户操作产品、理解页面、查询资料的入口。

这也是它和 Tavus、HeyGen、D-ID 的位置差异。

Tavus CVI 更强调低延迟和生产级实时视频代理。HeyGen LiveAvatar 更像成熟的企业数字人平台。D-ID Realtime Agents 已经把 LLM、知识库、TTS、WebRTC 这套管线打包成可配置系统。Synthesia 更偏企业培训和预生成视频。

Runway 的强项不一定是最低延迟，也不一定是最成熟的企业数字人流程。

它更像从生成式视频模型切进实时代理，优势在单图生成、风格自由度和 GWM-1 背后的路线。

这会影响适用哪些场景：

真人客服、真人讲师、企业口播，HeyGen、Tavus、Synthesia 这些产品各有成熟路径。Runway Characters 更适合品牌 mascot、游戏 NPC、课程虚拟助教、虚构人物、2D 风格角色，甚至某种产品拟人化入口。

它的强项不是“像真人”，而是“角色可以不是真人”。

这一点很容易被低估。未来很多视频代理未必都长成客服代表，它们可能是一个产品吉祥物，一个课程里的助教，一个游戏世界里的 NPC，一个设计工具里的陪练角色。

先别拿它替代客服

Runway Characters 现在最适合的第一批场景，不是正式客服主入口。

更适合的是低风险、强展示、边界清楚的场景。

比如官网互动讲解员，用户不用翻 FAQ，直接问角色：这个产品适合谁？怎么开始？价格怎么算？和别的工具差在哪？

比如课程或教程助教。角色可以看屏幕、看课件、看步骤，帮用户理解一个概念，或者引导他完成下一步。

比如展会、发布会、品牌活动。一个 mascot 站在那里，能和观众聊天，能介绍产品，能回答固定资料里的问题，本身就有展示价值。

比如游戏 NPC 或互动故事。Runway 的风格自由度在这里会更明显。真人客服不一定需要幻想角色，但游戏、互动活动、品牌 IP 很需要。

比如内部知识库。公司可以先把角色接到固定文档里，让它回答新员工常问的问题。这个场景不公开面对客户，风险更低，也适合早期验证。

暂时不要急着把它放进正式客服、付费销售、医疗法律金融建议、心理咨询，或者任何授权不清的真人脸和真人声音场景。

这些地方不是“能说话”就够了。它们要求稳定、合规、可追责、低误答、低延迟，还要能处理大量边界情况。

如何用？成本如何？

Runway 现在给了几个入口：web app、Developer Platform、API integration，也提供 API、React SDK 和网页 Widget。

Web App 适合初步体验，最长 2 分钟；Developer Platform 适合带自定义设置的测试，最长 5 分钟；API integration 面向生产集成，最长 30 分钟。

Web App：最长 2 分钟
Developer Platform：最长 5 分钟
API Integration：最长 30 分钟

价格如何？

Runway API 价格页写，gwm1_avatars 是 2 credits upfront，再按 2 credits / 6 秒计费。1 credit 等于 0.01 美元，粗算约 0.20 美元一分钟，外加每次会话的 upfront 成本。自定义声音生成还会另外收 credits。

基础价格：2 credits / 6 秒，约 20 credits / 分钟
折美元：1 credit = $0.01，所以约 $0.20 / 分钟
API 口径：gwm1_avatars 是 2 credits 起步费 + 2 credits / 6 秒
1 分钟 API 会话：约 22 credits，即 $0.22
30 分钟 API 会话：约 602 credits，即 $6.02

这个价格对 demo 不夸张，但对客服、销售、教育陪练，就必须认真算账。实时视频角色不是文本聊天，它消耗的是持续的视频生成时间。

合规更不能随便来：

Runway 的使用政策限制未经许可使用他人的图像、视频或声音，也限制冒充和误导。Characters 还有额外边界：未成年人形象、面向未成年人的角色、医疗法律金融建议、治疗或咨询类用途，都不是可以随便试的地方。

实时视频角色越像真人，授权和误导风险就越高。

如果要试，最好从虚构角色、品牌角色、明确授权的形象开始。不要拿真人脸和真人声音做灰色测试。

AI 视频正在从内容生成走向交互基础设施

Runway 过去一直是 AI 视频领域的重要公司。

很多人关注 Runway，是因为它的视频生成效果、镜头控制能力、影视级工作流。

但 Runway Characters 释放的信号更偏底层。

AI 视频正在从“生成一段内容”进入“实时参与对话”。

这会改变视频模型的评价标准。

过去大家看的是清晰度、真实感、运动稳定性、镜头美感。

接下来还要看延迟、连续性、可控性、对话一致性、角色身份稳定性、系统接入能力。

一个模型生成的视频再好，如果没法实时互动，它就更适合内容创作。

一个模型的视觉质量未必电影级，但如果它能稳定、低延迟、可部署地参与对话，它就可能进入教育、客服、游戏、会议、直播和企业应用。

Runway Characters 这次真正值得关注的点就在这里。

它把视频生成从“作品”推向了“界面”。

参考链接

[1] https://runwayml.com/news/building-runway-characters: https://runwayml.com/news/building-runway-characters

[2] https://runwayml.com/news/introducing-runway-characters: https://runwayml.com/news/introducing-runway-characters

[3] https://runwayml.com/research/introducing-runway-gwm-1: https://runwayml.com/research/introducing-runway-gwm-1

[4] https://docs.dev.runwayml.com/characters: https://docs.dev.runwayml.com/characters

[5] https://docs.dev.runwayml.com/guides/models/: https://docs.dev.runwayml.com/guides/models/

[6] https://docs.dev.runwayml.com/guides/pricing: https://docs.dev.runwayml.com/guides/pricing

[7] https://help.runwayml.com/hc/en-us/articles/49557780326163-Runway-Characters: https://help.runwayml.com/hc/en-us/articles/49557780326163-Runway-Characters

[8] https://help.runwayml.com/hc/en-us/articles/17944787368595-Runway-s-Usage-Policy: https://help.runwayml.com/hc/en-us/articles/17944787368595-Runway-s-Usage-Policy

[9] https://docs.tavus.io/sections/conversational-video-interface: https://docs.tavus.io/sections/conversational-video-interface

[10] https://help.heygen.com/en/articles/12758516-introducing-liveavatar: https://help.heygen.com/en/articles/12758516-introducing-liveavatar

[11] https://docs.d-id.com/docs/realtime-overview: https://docs.d-id.com/docs/realtime-overview

— END —