“快乐马”空降!一匹匿名AI模型,如何用72小时搅动全球视频江湖?

问AI · 快乐马的单流Transformer架构如何颠覆视频生成?

潮新闻客户端 记者 张云山 楼纯

这个4月,全球科技圈的目光,意外地被一匹神秘的“快乐马”牵住了缰绳。

说它神秘,是因为它在4月7日凌晨突然空降全球最权威的AI视频盲测榜单,以“碾压”性的分数把所有大厂踩在脚下;说它让巨头失眠,是因为在登顶后不到72小时,这匹马又像武林高手一样“事了拂衣去”,只留下一个语焉不详的页面和满屏的惊叹号。

这匹代号为“Happy Horse”的AI视频生成模型,没有公司背书,没有技术博客,甚至连GitHub仓库都挂着一句“Coming Soon”。但就是这个连真实身份都搞不清楚的家伙,却在72小时内让整个行业体验了一把什么叫“天降神兵”。

图片

图片来源:Artificial Analysis

72小时“匿名霸权”:60分的代差意味着什么

故事要从榜单说起。Artificial Analysis是业内公认的“照妖镜”,不看名气、不看估值,只看真实用户在不知情下的盲测投票。

在Happy Horse出现前,AI视频赛道是典型的“神仙打架”:字节跳动的Seedance 2.0、Google Veo 3、快手Kling 3.0,彼此之间的差距往往只有二三十分,互有胜负,属于谁也没法彻底甩开谁的僵持阶段。

但Happy Horse一上场,画风突变。

在纯文本生成视频的核心赛道,Happy Horse的ELO分数比当时的第一名字节Seedance 2.0高出了整整60分。在评分体系里,这不仅是第一,而是代际的碾压——意味着在近六成的盲测对比中,观众觉得Happy Horse生成的画面明显更自然、更像真的。更惊人的是,它在图像转视频这个大众最常用的功能上,领先优势扩大到了50分以上。

唯一能阻挡它的,可能只有它自己——在榜单登顶后,这个没有任何身份标识的模型悄然撤下了测试接口,只留下几张社交媒体上疯狂传播的截图,和一个让全球极客百思不得其解的问题:它到底是谁家的?

解码“快乐马”:不仅画面好,它还会“看嘴型”

虽然没发论文,但技术社区通过对蛛丝马迹的深挖,拼凑出了Happy Horse让大厂坐立不安的硬实力。如果用一句话总结:它试图把做视频这件事,从“剪辑”彻底变成“一键生成带音效的微电影”。

第一,它很“轴”,但“轴”出了新高度。目前主流的AI视频模型,处理文字、画面、声音是分开的几条流水线,最后再拼起来。Happy Horse采用了一种极其激进的“单流Transformer架构”,简单说就是让文字、画面、声音在同一个算法锅里搅和,互相之间完全理解意图。这带来的直接好处是:音效、背景音乐甚至人物说话的口型,全是模型一次性算出来的,不存在“音画不同步”的尴尬。这种“端到端音视频联合生成”的能力,正是业界公认的下一个主战场。

第二,它很“快”。现在很多模型生成几秒视频要跑上百步算法,Happy Horse只用8步去噪。官方数据显示,在高端显卡上,生成一段5秒的1080P带同步音频视频,只需约38秒。这省下的不只是时间,更是白花花的算力成本,意味着离“实时生成”又近了一大步。

第三,它懂“市场”。模型对中、英、日、韩等6种语言的唇形同步做了精细调校。对于做跨境电商、做短剧出海的内容创作者来说,这种多语言原生支持简直就是量身定做的生产力工具。

身份谜团:一场全网“福尔摩斯”的推理狂欢

全网都在当福尔摩斯,而这件事最有趣的地方恰恰在于——到目前为止,没有任何一方站出来认领。

Happy Horse的匿名空降,引发了一场全球范围内的推理竞赛。有人从模型的命名风格推断其亚洲血统,有人在GitHub和学术论文里搜索所有与“horse”相关的项目,还有人试图从测试接口的IP地址寻找蛛丝马迹。

从技术特征倒推,有几个线索相对清晰:模型对中文、日语、韩语的唇形支持极为出色,说明研发团队大概率有东亚背景,且在电商、内容出海等场景上有明确的落地意图。而能够支撑起15B参数级别模型训练的算力规模,也绝非小团队能够轻易负担。

一种声音认为,这或许是某个大厂的“匿名侦察兵”——过去一年里,GPT-4 Turbo、Claude 3.5 Sonnet、Gemini 2.0 Flash都走过“先匿名打榜、再正式发布”的流程。如果这个规律再次应验,Happy Horse很可能在未来几周内以某个正式名字回归。

另一种更浪漫的猜测是:这是一个没有历史包袱的独立团队,用一种“光脚的不怕穿鞋的”姿态,向巨头们展示了什么叫真正的技术突破。

而无论幕后推手是谁,一个共识正在形成:Happy Horse代表的技术路线——“单流Transformer加极简去噪”——已经被验证为一条通往SOTA的可行路径。这对于整个开源社区而言,都是一个重大利好。

行业的震动:能力天花板再次被刷新

Happy Horse的出现,真正触动行业神经的,不是多了一个竞争对手,而是它清晰地传递了一个信号:AI视频生成的能力上限,远远没到天花板。

在Happy Horse空降之前,Seedance 2.0、Veo 3、Sora 2这些头部产品彼此咬得很紧,给人一种“大家水平差不多,再卷也就这样了”的错觉。但这60分的代差级领先,像一盆冷水浇醒了所有人——原来之前看到的所谓“最强”,不过是大家都没拿出真本事。

它将迫使所有头部厂商重新审视自己的技术栈:音视频联合预训练要不要做?推理步数能不能再压缩?多语言原生支持是不是刚需?

对于内容创作者来说,这更是一个值得期待的信号。AI短剧的多语言批量生成、跨境广告的一键配音、老照片的精准动态修复——这些场景的落地速度,可能比预想的要快得多。

这匹“快乐马”,虽然暂时消失在公众视野,但它留下的72小时传说,已经足够让整个行业记住一个事实:在AI视频这场长跑中,真正的黑马,往往出现在最意想不到的时刻。好戏,才刚刚开始。