英伟达新推出的人工智能音频发生器将带来前所未闻的声音

知新了了

2024-11-26 08:07发布于北京

英伟达（Nvidia）的Fugatto是为“电影或音频制作”而设计的，但它也可以产生像狗一样的萨克斯管嚎叫声。

英伟达想让你知道，你最奇怪的音频奇想现在都将是可能的。该公司最新的人工智能项目，连同它的人工智能NPC和游戏内聊天机器人，是一个名为“Fugatto”的文本到音频的人工智能。像其他模型一样，Nvidia AI音频可以从简单的描述中创建音轨，但这个程序也可以创建“从未听过的声音”，比如“萨克斯风的嚎叫”，不管这是什么意思。

在一篇博客文章中，英伟达声称其“声音的瑞士军刀”人工智能模型可以修改现有的声音或凭空创造整个音景。Fugatto实际上是冗长的“Foundational Generative Audio Transformer Opus 1.”的首字母缩写。它能够处理声音、音乐和背景噪音，并将它们全部制作成单个音轨。它还可以修改现有的声源。

把任何东西称为“从未听过的声音”都是愚蠢的，尤其是如果它来自人工智能。无论输出是什么，人工智能音频只是一个人工智能算法，它使用训练数据中的现有资源来提供接近提示的结果。英伟达表示，它的模型是独一无二的，因为它可以将训练期间分开的指令组合在一起，并“创造出前所未有的音景”。这意味着它可以叠加两种不同的音频效果来创造一些新的东西。在一段视频中，英伟达展示了它是如何将火车的声音转化为管弦乐的。它还可以制造出暴风雨的声音，逐渐消失在远处。

这些是我们以前从未见过的能力。除了演示“狗随着节拍吠叫的电子音乐”的提示外，Nvidia表示，其工具还可以对创建的声景进行“精细控制”。英伟达声称，视频的解说员是英伟达首席执行官黄仁勋的人工智能版本，但如果Fugatto制作了明显虚假的声音，那么在任何人将其用于下一个深度伪造项目之前，人工智能模型需要做更多的工作。

许多人工智能音频工具已经将文本提示转化为音轨。Adobe已经把自己的Project MusicGenAI Control工具卖给了无良的音乐人。Meta等大型科技公司已经将他们的音频模型推广到电影行业。上个月，Meta推出了Movie Gen，可以为人工智能生成的电影生成声景。

英伟达引用人工智能研究员罗哈纳·巴德拉尼的话说，这个模型“让我觉得自己有点像个艺术家”，当然，人工智能从现有的数千GB的音乐和音频数据中提取数据。英伟达没有透露其数据集的确切细节，只是说它包含“数百万用于训练的音频样本”。完整版的Fugatto是一个25亿个参数的模型，它是在英伟达自己著名的H100人工智能GPU库上训练的。

这对音效艺术家（foley artists）来说是个坏消息，他们已经把这种音频伪造变成了一种著名的艺术形式。该公司表示，Fugatto对于广告公司、视频游戏开发商或音乐家来说是一个有用的工具，他们希望在不做太多额外工作的情况下对自己的工作进行调整。尽管如此，硬币的另一面是所有那些会用它来创造“新资产”的人，也就是说，可能会给不断增长的堆增加更多的人工智能。

Fugatto的潜在用途不仅仅是为电影制作公司提供一个取代人类音频工程师的借口。英伟达声称，它可以在现有的音乐中删除或添加乐器。它还可以从现有的噪声源中隔离和修改特定的噪声。也许你可以为你的blasé合成器配乐生成空鼓节奏。但除了人工智能之外，没有其他东西生成的整个配乐并不是大多数人在购买电影票时支付的费用。

如果朋友们喜欢，敬请关注“知新了了”！

查看原图 93K