在翻译领域,生成性人工智能有一个巨大的机会,一家名为Panjaya的初创公司正在将这一概念提升到一个新的水平:一个超现实的基于生成性人工智能的视频配音工具,可以重现一个人用新语言说话的原始声音,同时视频和说话者的身体动作会自动调整,以自然地与新的语音模式相匹配。
据TechCrunch报道,在隐身三年后,这家初创公司推出了 BodyTalk,这是其产品的第一个版本,并获得了 950 万美元的首次外部融资。
Panjaya 是 Hilik Shani 和 Ariel Shalom 的创意结晶,这两位深度学习专家在以色列政府默默工作了大部分职业生涯,现分别担任该初创公司的总经理和首席技术官。他们在 2021 年放下了政府工作的帽子,带着创业的渴望,1.5 年前 Guy Piekarz 加入担任首席执行官。
Piekarz 并不是 Panjaya 的创始人,但他是一个值得拥有的知名人士:早在 2013 年,他将自己创办的一家初创公司出售给了苹果。该初创公司名为 Matcha,是一个在视频流发现和推荐方面的早期热门参与者,它是在苹果电视和流媒体战略的早期阶段被收购的,那时这些还只是传闻,而非实际产品。Matcha 是自筹资金的,以低价出售:$1000 万到$1500 万——考虑到苹果最终在流媒体方面的重大投资,这个价格算是相对 modest。
Piekarz 在苹果工作了近十年,负责 Apple TV 及其体育业务。随后,他通过 Viola Ventures(其投资者之一)认识了 Panjaya,其他投资者包括 R-Squared Ventures、JFrog 联合创始人兼首席执行官 Shlomi Ben Haim、Chris Rice、Guy Schory、Storm Ventures 的 Ryan Floyd、Riviera Partners 的 Ali Behnam 和 Oded Vardi。
“那时我已经离开了苹果,计划做一些完全不同的事情,”Piekarz 说。“然而,看到这项技术的演示让我大吃一惊,接下来的事情就成了历史。”
BodyTalk 有趣之处在于它同时将几种技术结合在一起,这些技术在合成媒体的不同方面发挥作用。
它始于基于音频的翻译,目前可以提供 29 种语言的翻译。然后,翻译以模仿原始说话者的声音进行播放,这反过来又与原始视频的一个版本相结合,在这个版本中,说话者的嘴唇和其他动作被修改以适应新的单词和短语。所有这些都是在用户将视频上传到平台后自动创建的,该平台还配备了包括进一步编辑工具的仪表板。未来的计划包括一个 API,以及更接近实时处理。(目前,BodyTalk 是“接近实时”的,处理视频需要几分钟,Piekarz 说。)
“我们在需要的地方使用最优秀的产品,”Piekarz 谈到公司使用第三方大型语言模型和其他工具时说。“而在市场上没有真正解决方案的地方,我们正在构建自己的人工智能模型。”
一个例子是公司的口型同步,他继续说道。“我们整个口型同步引擎是由我们的人工智能研究团队自主研发的,因为我们还没有找到能够达到我们想要支持的多个发言者、角度和所有业务用例的水平和质量的东西。”
目前它的重点仅在于 B2B;客户包括 JFrog 和 TED 媒体组织。该公司计划在媒体领域进一步扩展,特别是在体育、教育、营销、医疗保健和医学等领域。
生成的翻译视频非常奇怪,与深度伪造的效果相似,尽管皮卡兹对这个术语感到不快,因为多年来它已经获得了与初创公司目标市场完全相反的负面含义。
“‘深伪’不是我们感兴趣的东西,”他说。“我们希望避免整个名称。”相反,他说,可以将 Panjaya 视为“深真实类别”的一部分。
通过仅针对 B2B 市场,并控制谁可以访问其工具,该公司正在围绕技术创建“护栏”以防止滥用,他补充道。他还认为,从长远来看,将会开发更多工具,包括水印,以帮助检测任何视频是否被修改以创建合成媒体,无论是合法的还是恶意的。“我们绝对希望成为其中的一部分,而不是允许错误信息的传播,”他说。
不那么细致的条款
有许多初创公司在基于人工智能的视频翻译领域与 Panjaya 竞争,包括 Vimeo 和 ElevenLabs 等大牌,以及 Speechify 和 Synthesis 等小型公司。对他们来说,构建改善配音效果的方法感觉有点像逆流而泳。这是因为字幕已经成为当今视频消费的一个非常标准的部分。
在电视上,这有很多原因,比如扬声器差、我们忙碌生活中的背景噪音、含糊不清的演员、有限的制作预算以及更多的音效。CBS 在一项针对美国电视观众的调查中发现,超过一半的观众在“某些(21%)或全部(34%)时间”内开启了字幕。
但有些爱情标题只是因为它们读起来很有趣,而围绕这一点已经形成了一个完整的文化。
在社交媒体和其他应用程序中,字幕已被简单地融入体验中。以 TikTok 为例,从 2023 年 11 月开始,所有视频默认开启字幕。
尽管如此,国际上仍然存在一个巨大的配音内容市场,即使英语常被视为互联网的通用语,但来自像CSA这样的研究小组的证据表明,以母语提供的内容能够获得更好的参与度,尤其是在 B2B 环境中。Panjaya 的观点是,更自然的母语内容可能会表现得更好。
一些客户似乎支持这一理论。TED 表示,使用 Panjaya 工具进行配音的演讲观看次数增加了 115%,而这些翻译视频的完成率翻倍。
本文翻译自:TechCrunch, https://techcrunch.com/2024/11/08/led-by-a-founder-who-sold-a-video-startup-to-apple-panjaya-uses-deepfake-techniques-to-bite-into-video-dubbing/
编译:ChatGPT