小互AI · 深度解读
Runway Characters:视频生成走进了对话现场
Runway 发布了 Runway Characters,你给它一张参考图,它就能生成一个可以和用户实时说话的视频角色。
Runway Characters 将 AI 视频从传统的离线生成,推向实时交互场景。通过单张参考图,用户可以生成一个能实时回应的对话视频角色。
这次更新的核心亮点在于,它不仅让图像“动起来”,还让视频角色具备参与对话、调用工具、接入知识库的能力。
先抓这几项功能,后面再展开:
你可能觉得,这不就是“数字人”吗。上传一张脸,让它眨眼、张嘴、读稿,过去几年大家已经看过很多。
但 Runway Characters 不是在重复这件事。
它想把视频生成从“等模型出片”,往前推到“现场接话”。
用户不是等一段生成好的视频,而是在和屏幕里的角色说话。这个角色要能听懂你、看见你正在看的东西、按资料回答,还能在产品里做一点动作。
这才是这次发布最值得看的变化:视频角色开始从展示层,往产品交互层走。
咱们继续往下看...
01
以前是等一段片子,现在是接住一句话
大多数视频生成工具,工作方式都很像。
你写提示词,上传参考图,点生成,然后等。模型跑几十秒,给你几秒视频。你觉得不满意,再改提示词,再等一轮。
这个流程里,慢一点可以接受,因为你本来就在等一个素材。
Runway Characters 换了场景。
你不是让它生成一段视频交差,而是在和一个角色互动。
你问一句,它要接住。
你共享屏幕,它要看懂,你问“这个按钮在哪”,它最好能指给你。
你问订单状态,它不能编一句像样的话,而要去查后端数据。
这时候,延迟就不再是小瑕疵...
聊天框慢两秒,用户可能还能忍。一个视频角色停住五六秒,现场感马上断掉。因为你看到的是一张脸。一张脸停在那里不回话,比文字气泡慢一点更让人出戏。
所以 Runway 这次反复强调 real-time。
官方给出的关键数字是:24fps,37ms 有效模型时间每帧;从用户停止说话到角色开始返回第一帧,服务端约 1.75 秒。
1.75 秒不是你在电脑前感受到的完整等待时间。它是 server-side turn-around。网络、设备、客户端播放都会继续增加延迟。Runway 自己也提到,连接质量会影响体验。
但这个数字仍然重要。它说明 Runway 不是在做“更快生成视频”,而是在做“视频能不能进入对话节奏”。
02
难点不在照片开口,而在边生成边回应
普通视频生成像做一桌菜。
你点完单,厨房慢慢做,全部做好再端出来。只要最后结果不错,你等一会儿也能接受。
实时视频角色更像开放式厨房。
你一边说需求,它一边做,一边端出来。你又补一句“换个说法”,它还得跟上。
Runway Characters 面对的就是这个难点。角色要听你说话,要让大模型组织回复,要合成声音,还要生成口型、表情、头部动作和视频帧。
它不能先把整段视频生成完再播放。那样每问一句,都像等一次渲染。
Runway 的做法是逐帧生成和流式输出。
简单说,就是边生成边播放。
官方技术拆解里提到,Characters 基于 GWM-1,一次迭代生成 4 帧。24fps 下,4 帧大约对应 167ms。官方测量里,diffusion transformer 约 151ms,VAE decoder 约 119ms。如果顺着跑,时间会超。Runway 把两段做成流水线:上一批帧在解码时,下一批帧已经开始生成。
不用记 DMD、KV cache、CUDA Graphs 这些技术名词。
记住一个人话版本就行:过去的视频模型是“先拍完再放映”,Runway Characters 更像“边拍边直播”。
这就是它和普通图生视频的分界。
03
从“视频角色”到“视频 Agent”
更有意思的是,Runway Characters 并不只是一个会说话的头像,它还拥有一些其他的能力,类似目前的AI模型具备的你Agent的能力。
它有眼睛:Vision 让角色可以看摄像头和屏幕共享。你在设计稿上停住,它可以围绕当前画面说哪里拥挤;你在产品后台找不到入口,它可以看着屏幕告诉你下一步点哪里。
它有资料:Knowledge base 让角色接文本或 Markdown,按你的产品文档、FAQ、内部规则回答。否则角色再自然,也只是一个带脸的聊天机器人。
它有手:Tool Calling 让角色能调用动作,开发者可以给角色定义可调用工具,比如显示字幕、弹出知识卡片、更新游戏状态,也可以调用后端接口查询订单状态、预计送达时间等信息。
它可以自定义声音:支持 text-to-voice,也支持从音频样本进行 instant voice cloning,然后把声音绑定给角色,保持多轮会话里的声音一致。
这几件事连起来,正是它最大的区别,更像是一个产品入口。
想象一个 SaaS 新手页。
用户第一次进来,不知道怎么创建项目。过去他可能要看帮助文档、点引导浮层、问客服聊天框,甚至去搜教程。
或者你可以一边玩游戏,一边有人给你解说,或者带入 Zoom、Google Meet 或 Teams 的真实会议中,让他们能够实时观看、倾听并做出响应。
Runway Characters 想做的形态是:一个品牌角色出现在页面角落。用户问“我该从哪开始?”它看见当前页面,滚动到对应区域,高亮“新建项目”按钮,然后解释为什么先点这里。
用户继续问“免费版和专业版差在哪?”它查知识库。
用户问“我上次买的套餐还在吗?”它调后端接口。
这时候它就不是一个会说话的头像了。它把讲解、问答、页面引导和工具调用,放进了一次视频对话里。
这么看它更像一个能进产品界面的新交互层
以前的 AI 交互主要在文本框里。后来有语音助手,有静态头像,有会动的数字人。Runway Characters 再往前推一步:角色可以看、听、说、调用工具,还能嵌到网页和会议里。
落到产品里,“帮助中心”“新手引导”“在线讲解”“虚拟主持人”都会多一个视频入口,不必只停在聊天窗口里。
这些能力连起来看,Runway Characters 的定位就很清楚了。
它不是一个“AI 口播视频生成器”。
它更像一个有视觉形象、有声音、有知识库、有工具调用能力的实时视频 Agent。
04
GWM-1 让它不只是数字人
Runway Characters 基于其 GWM-1模型,也就是 Runway 的 General World Model。
这个背景不用讲得太玄。可以直接理解成:Runway 不满足于让 AI 生成一段漂亮视频,它想让模型理解画面里的世界、动作和变化。
Runway 之前把 GWM-1 拆成几个方向:Worlds、Avatars、Robotics。
Worlds 是生成可以探索的世界。Robotics 是让模型理解机器人动作和环境反馈。Characters 对应 Avatars,也就是可对话角色。
放在这条线里看,Characters 不是 Runway 顺手做了个数字人工具。
它是在把视频生成往交互产品里推:视频不再只是输出结果,也可以成为用户操作产品、理解页面、查询资料的入口。
这也是它和 Tavus、HeyGen、D-ID 的位置差异。
Tavus CVI 更强调低延迟和生产级实时视频代理。HeyGen LiveAvatar 更像成熟的企业数字人平台。D-ID Realtime Agents 已经把 LLM、知识库、TTS、WebRTC 这套管线打包成可配置系统。Synthesia 更偏企业培训和预生成视频。
Runway 的强项不一定是最低延迟,也不一定是最成熟的企业数字人流程。
它更像从生成式视频模型切进实时代理,优势在单图生成、风格自由度和 GWM-1 背后的路线。
这会影响适用哪些场景:
真人客服、真人讲师、企业口播,HeyGen、Tavus、Synthesia 这些产品各有成熟路径。Runway Characters 更适合品牌 mascot、游戏 NPC、课程虚拟助教、虚构人物、2D 风格角色,甚至某种产品拟人化入口。
它的强项不是“像真人”,而是“角色可以不是真人”。
这一点很容易被低估。未来很多视频代理未必都长成客服代表,它们可能是一个产品吉祥物,一个课程里的助教,一个游戏世界里的 NPC,一个设计工具里的陪练角色。
05
先别拿它替代客服
Runway Characters 现在最适合的第一批场景,不是正式客服主入口。
更适合的是低风险、强展示、边界清楚的场景。
比如官网互动讲解员,用户不用翻 FAQ,直接问角色:这个产品适合谁?怎么开始?价格怎么算?和别的工具差在哪?
比如课程或教程助教。角色可以看屏幕、看课件、看步骤,帮用户理解一个概念,或者引导他完成下一步。
比如展会、发布会、品牌活动。一个 mascot 站在那里,能和观众聊天,能介绍产品,能回答固定资料里的问题,本身就有展示价值。
比如游戏 NPC 或互动故事。Runway 的风格自由度在这里会更明显。真人客服不一定需要幻想角色,但游戏、互动活动、品牌 IP 很需要。
比如内部知识库。公司可以先把角色接到固定文档里,让它回答新员工常问的问题。这个场景不公开面对客户,风险更低,也适合早期验证。
暂时不要急着把它放进正式客服、付费销售、医疗法律金融建议、心理咨询,或者任何授权不清的真人脸和真人声音场景。
这些地方不是“能说话”就够了。它们要求稳定、合规、可追责、低误答、低延迟,还要能处理大量边界情况。
06
如何用?成本如何?
Runway 现在给了几个入口:web app、Developer Platform、API integration,也提供 API、React SDK 和网页 Widget。
Web App 适合初步体验,最长 2 分钟;Developer Platform 适合带自定义设置的测试,最长 5 分钟;API integration 面向生产集成,最长 30 分钟。
Web App:最长 2 分钟 Developer Platform:最长 5 分钟 API Integration:最长 30 分钟
价格如何?
Runway API 价格页写,gwm1_avatars 是 2 credits upfront,再按 2 credits / 6 秒计费。1 credit 等于 0.01 美元,粗算约 0.20 美元一分钟,外加每次会话的 upfront 成本。自定义声音生成还会另外收 credits。
- 基础价格:2 credits / 6 秒,约 20 credits / 分钟
- 折美元:1 credit = $0.01,所以约 $0.20 / 分钟
- API 口径:gwm1_avatars 是 2 credits 起步费 + 2 credits / 6 秒
- 1 分钟 API 会话:约 22 credits,即 $0.22
- 30 分钟 API 会话:约 602 credits,即 $6.02
这个价格对 demo 不夸张,但对客服、销售、教育陪练,就必须认真算账。实时视频角色不是文本聊天,它消耗的是持续的视频生成时间。
合规更不能随便来:
Runway 的使用政策限制未经许可使用他人的图像、视频或声音,也限制冒充和误导。Characters 还有额外边界:未成年人形象、面向未成年人的角色、医疗法律金融建议、治疗或咨询类用途,都不是可以随便试的地方。
实时视频角色越像真人,授权和误导风险就越高。
如果要试,最好从虚构角色、品牌角色、明确授权的形象开始。不要拿真人脸和真人声音做灰色测试。
07
AI 视频正在从内容生成走向交互基础设施
Runway 过去一直是 AI 视频领域的重要公司。
很多人关注 Runway,是因为它的视频生成效果、镜头控制能力、影视级工作流。
但 Runway Characters 释放的信号更偏底层。
AI 视频正在从“生成一段内容”进入“实时参与对话”。
这会改变视频模型的评价标准。
过去大家看的是清晰度、真实感、运动稳定性、镜头美感。
接下来还要看延迟、连续性、可控性、对话一致性、角色身份稳定性、系统接入能力。
一个模型生成的视频再好,如果没法实时互动,它就更适合内容创作。
一个模型的视觉质量未必电影级,但如果它能稳定、低延迟、可部署地参与对话,它就可能进入教育、客服、游戏、会议、直播和企业应用。
Runway Characters 这次真正值得关注的点就在这里。
它把视频生成从“作品”推向了“界面”。
参考链接
[1] https://runwayml.com/news/building-runway-characters: https://runwayml.com/news/building-runway-characters
[2] https://runwayml.com/news/introducing-runway-characters: https://runwayml.com/news/introducing-runway-characters
[3] https://runwayml.com/research/introducing-runway-gwm-1: https://runwayml.com/research/introducing-runway-gwm-1
[4] https://docs.dev.runwayml.com/characters: https://docs.dev.runwayml.com/characters
[5] https://docs.dev.runwayml.com/guides/models/: https://docs.dev.runwayml.com/guides/models/
[6] https://docs.dev.runwayml.com/guides/pricing: https://docs.dev.runwayml.com/guides/pricing
[7] https://help.runwayml.com/hc/en-us/articles/49557780326163-Runway-Characters: https://help.runwayml.com/hc/en-us/articles/49557780326163-Runway-Characters
[8] https://help.runwayml.com/hc/en-us/articles/17944787368595-Runway-s-Usage-Policy: https://help.runwayml.com/hc/en-us/articles/17944787368595-Runway-s-Usage-Policy
[9] https://docs.tavus.io/sections/conversational-video-interface: https://docs.tavus.io/sections/conversational-video-interface
[10] https://help.heygen.com/en/articles/12758516-introducing-liveavatar: https://help.heygen.com/en/articles/12758516-introducing-liveavatar
[11] https://docs.d-id.com/docs/realtime-overview: https://docs.d-id.com/docs/realtime-overview
— END —