30秒就能完美复刻你的声音，这就是当今最强的中文AI语音克隆

数字生命卡兹克

2024-12-09 09:00发布于北京科技领域创作者

中文，在AI世界，好像突然一夜崛起了。

一直以来，AI绘图和AI声音，都有类似的痛点：

无法直出中文海报，以及克隆的中文声音几乎没法听。

而前者，随着上周的即梦v2.1，得到了很好的解决。后者，过往有N多产品试图去解决，但是解决的都很差。

闭源的有11labs，英文强到爆炸，中文几乎没法听总是一股子大佐味。开源的，有F5、GPT-sovits、ChatTTS等等，但是不仅本地部署使用困难，出来的情绪说实话，也不咋地。

而这个周末，中文的语音克隆痛点，我发现，被解决了。

幸福来的如此突然。

我直接给大家听一段我用克隆的AI唐国强老师，念满江红的语音。

震撼的我头皮发麻。

玩了将近2年的AI声音了，我也是第一次见，能用中文念诗，念的如此情绪饱满的AI声音。

而这，仅仅只需要，30秒的音频素材就可以。

给我30秒，我就可以，偷走你的声音。

这个AI语音，来自MiniMax的海螺AI。

嗯，就是那个把人物情绪表演拉满，在海外AI视频圈大杀特杀的海螺AI。

周末我打开海螺AI，准备跑几个case视频的时候，意外的发现，他们悄悄的居然在海外版上线了Audio模块。

今年1月我就写过一篇海螺AI声音克隆的文章，但是那时候，只能在AI助手上，克隆你自己。

而现在，可以克隆任何人了。

在火速体验完以后，我终于可以说：

这就是当今最强的，AI中文语音克隆，没有之一。

一周时间，AI绘图和AI声音，中文世界两开花。

这两年，你知道我们是怎么过来的吗。

突然有点泪目，兄弟们，过年了，真的。

海螺AI Audio网址在此：https://www.hailuo.ai/audio

最顶上左边的就是Audio，刚刚新上的声音功能，最右边那个就是之前爆火的Video。

最爽的是，目前免费，不要钱。

海螺AI的Audio用起来也非常的简单，最左边的侧边栏，分为两个tab。

第一个是Text to Speech（TTS），也就是你克隆完的声音模型可以在这个地方进行文字生成音频了。

第二个就是Voices，可以在里面进行声音的克隆。

我做个case，给大家详细演示一下。

我们先进入到Voices页面。

直接点那个“创建您的声音克隆”按钮，目前每个人可以免费创建3个声音。

你可以上传语音，也可以直接录音。

上传的语音最少上传10s的音频片段就可以克隆了，不过这个样本其实不是特别够，所以我一般推荐音频素材最好在30s左右，当然你也可以更长，不过一般不需要超过5分钟。

这里我直接去B站，扒了一段唐国强老师在《三国演义》里面的朗诵片段。

扒出来的声音素材是这样的，你们可以听一下。

情绪起伏很大，抑扬顿挫拉满，非常完美的原始素材。

直接上传到海螺AI里面去。

有个降噪选项，可选可不选，如果你的素材比较纯净干净，可以不用。开的话可以帮你把一些背景音什么的都剔除掉。

最后需要选一下原始素材的语言，海螺AI支持12种语言，分别是：

中文、粤语、英语、韩语、日语、印尼语、西语、葡语、法语、意大利语、俄语、德语。

你的原始素材的语言是什么样的，就选什么语言，克隆出来的声音模型就会得到最好的效果，比如我上传的这个唐国强老师的素材是中文的，就选中文就行。

很快，大概只要几十秒的时间，唐国强老师的声音，就克隆好了。

回到TTS界面。

点击此位置，就可以切换到刚刚克隆完的唐国强老师的声音模型。

我们直接，让唐国强老师，来念一首李白的《将进酒》吧。

这首诗我太喜欢了，《长安三万里》李白那一段上天入地，驾鹤登仙的演绎，更是将这首诗在我心中的地位，推向了最巅峰。

我们直接把《将进酒》的最后一段扔进去。

“主人何为言少钱，径须沽取对君酌。五花马，千金裘，呼儿将出换美酒，与尔同销万古愁。”

海螺有个非常牛逼的点是，可以支持切换情绪。

目前有六种情绪：开心、生气、悲伤、惊讶、恐惧、厌恶。

《将进酒》的最后一段，在我的认知里，虽然一种愤慨，有一种激昂，但是底层情绪，确是悲凉的。

我只要一瞬，却也要让这世间，看到我这一瞬的光辉。

所以，在海螺AI的情感选择上，我选了悲伤。

点击生成，几秒钟的时间，一段语音，就出现在了你的面前。

为了更加形象的展示，我把这段音频做了个照片驱动对口型，视频看起来更直观一些。

又比如，我们可以再克隆一个林黛玉的声音。

让她来催一催鲜虾包。

这声音，直接人麻了。

林黛玉的声音和情绪，都被还原到了极致。

而这句话，如果让11labs克隆林黛玉的声音来念呢，我给你们听一下，有多么的鬼畜。

这就是我在文章开头，说的一股子大佐味。

不是说11labs不好，11labs一直以来是世界上公认的最强的AI声音产品，但是在中文表现上，真的是没法用的状态。

而这一次，海螺AI挺身而出，终于，补足了中文领域几乎是空白的短板，把中文的声音克隆的音色相似度和情绪，推上了巅峰。

成功率也极高，我想说的是，我上面所有的case，全部是一遍直出，没有抽过一次卡，这点，真的难能可贵。

再给大家看一个影视飓风TIM的例子。

影视飓风是我最喜欢以及最崇拜的频道，没有之一。相信看过影视飓风的观众也都无数次听过TIM那句：

“Hello大家好，我是TIM，欢迎收看影视飓风。”

而这一次，我们让AI来说这句话，让大家听听，海螺AI的复刻有多么的强。

注意，为了避免拟合，所以我在上传到海螺AI的30秒TIM的素材里，是没有这句开场白的，都是他在聊一些别的东西。

AI直出如下，让李四维化身TIM：

跟我记忆中已经听过无数次的TIM的开场白，没有任何区别。

这就是现在海螺AI，能达到的程度。

这就是现在，最强的AI中文声音克隆，没有之一。

作为一个见证了这两年AI发展的亲历者，这一周的感受格外强烈。

从即梦让中文海报一夜之间"通关"，到海螺AI让中文语音克隆达到了前所未有的高度，我仿佛看到了中文AI能力的爆发时刻。

想想两年前，我们还在为中文大模型和国际巨头的差距而焦虑。

那时的AI世界，几乎是英语的独角戏。

中文的存在感，就像是一个可有可无的配角。

但现在，这个局面正在被改写。

当我们能用AI轻松制作出中文海报，当唐国强老师的声音能被完美克隆，当林黛玉的语气都能被精准还原。

也许，这就是属于中文世界的AI时代的序章。

而这一切，才刚刚开始。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克