提到"语音合成"和"AI 陪伴"大模型,MiniMax 几乎是绕不开的一家。
Character.AI 的部分语音功能、Reka 的多模态 demo、至少三款进入北美 App Store Top 50 的 AI 陪聊应用,它们的底层 TTS 都来自 MiniMax Speech 系列。MiniMax Speech 2.8 支持 40+ 语言、零样本声音克隆、拟声标签(叹息、咳嗽、喘气)的精细控制——这些能力 ElevenLabs 做得最早,MiniMax 在海外市场的卖点是以显著更低的单字符单价提供相似品质。
而 MiniMax M2 系列文本模型走的是另一条路——不拼通用智能榜单,专攻角色扮演和 Agent 场景 。M2-her 这个模型名字听着就懂:为 Her 那种沉浸式长程交互做的。这就是为什么做 AI Companion / AI NPC / AI 播客应用的海外团队,最后几乎都会来试 MiniMax。
本篇作为系列第 7 篇,重点不是讲 MiniMax 的文本聊天(那块 DeepSeek 更便宜),而是讲 怎么把它的语音和多模态能力接入你的海外应用 。
一、MiniMax 到底适合什么场景
先锚定预期:MiniMax 不是那种"什么都能做、什么都最便宜"的通用选手。它的强项非常聚焦,用对场景能出奇效,用错了会浪费时间。
1. 全栈多模态,语音是王牌
MiniMax 是国产大模型里 唯一覆盖文本、语音、视频、图像、音乐全部五个模态的厂商。但其中真正打出差异化的是语音。Speech 2.8 在海外开发者圈的口碑是:
情感表达:原生支持 (laughs)、(sighs)、(gasps) 等 19 个拟声标签,角色扮演时真的像"活人"
多语言:40+ 语言里面,日语、韩语、西班牙语、阿拉伯语的自然度接近 ElevenLabs
零样本克隆:上传 10 秒-5 分钟参考音频即可克隆声音,无需额外训练
价格:单字符单价显著低于 ElevenLabs 同品质套餐,且比 OpenAI TTS 多出了情感标签和声音克隆能力
2. M2-her:专为角色扮演优化
标准的文本模型做角色扮演会出戏——LLM 默认会扮演"无偏见的助手",你让它演霸总或者病娇,两句话之后就回到"作为一个 AI 语言模型..."的套路里。
M2-her 是 MiniMax 专门为"沉浸式长程交互"训练的变体,人设稳定性更强,不会轻易破人设;多轮对话中的情感连贯性也明显更好。这就是它能支撑 AI Companion 类应用的原因。
3. 什么场景建议用 MiniMax
AI 播客 / 有声书:调用 Speech 2.8 HD($100 / 1M 字符),按综合单价约是 ElevenLabs Creator/Pro 档的 1/2 到 2/3
AI Companion / NPC / 虚拟男女友:M2-her + Speech 组合
多语言视频配音:40+ 语言的表达力是唯一选择
品牌声音克隆:创业者想让自己的声音变成 AI 客服、AI 助手
4. 什么场景不要用
纯文本 RAG / 客服机器人 :用 DeepSeek,便宜 3-5 倍
代码生成:用 Qwen3-Coder 或 Kimi K2.5
超长文档分析:用 Kimi 或 Qwen(MiniMax 上下文不是强项)
二、关键决策:国内版还是海外版
和通义一样,MiniMax 也有两个完全独立的平台。选错了 API Key 不互通。
图 2-1 MiniMax 两个平台对比:海外开发者请选 minimax.io
直接选海外版 platform.minimax.io。海外版的文档质量、SDK 更新速度、对 Anthropic/OpenAI 兼容 API 的支持都更完善,社区讨论(Reddit、GitHub Issues)也都围绕 .io 域名展开。
三、注册海外版账号
访问 platform.minimax.io,页面是纯英文 UI:
图 3-1 MiniMax 海外版登录页,推荐用 Google SSO
登录方式推荐按顺序尝试:
Google SSO:最快,30 秒搞定,Gmail 账号即可。推荐方案。
邮箱注册:备选。注意用 Gmail / Outlook,国内邮箱容易收不到验证邮件。
~~手机号~~:海外版不支持手机号登录,别花时间找。
注册完成后会自动进入开发者控制台。MiniMax 海外版的体验比国内版好不少:UI 清爽、文档英文写得扎实、试用额度也给得大方—— 新用户注册后通常会配发一定试用额度(具体数额以控制台 Billing 页为准),足够跑通本文所有示例。
四、创建 API Key
进入控制台后,左侧菜单找「API Keys」(路径 platform.minimax.io/user-center/basic-information/interface-key)。英文 UI 就叫 API Keys,中文 UI 翻译为"接口密钥"。这里可以分别创建 Pay-as-you-go(按量付费)Key 和 Token Plan(套餐)Key,两者支持的模型一致。
图 4-1 MiniMax 海外版 API Key 管理页
点击紫色的「+ Create New API Key」按钮,填写名称(推荐 prod-agent / dev-test 这种语义化命名),提交即可。
⚠️ 关键提醒:MiniMax 的 Key 格式是标准的 Bearer <长字符串>,创建后只完整显示一次。除此之外,MiniMax 还有个 GroupId 字段(部分老接口需要),可以在 Account Information 页面找到。做语音接口时不需要,做文件管理类接口时会用到。
五、语音合成 API:上手实战
这是本篇的重头戏。MiniMax 真正的杀手锏在语音,我们直接从 Text-to-Audio(T2A)跑起。
1. 最简单的一次调用
接口地址:https://api.minimax.io/v1/t2a_v2(美区还有一个低延迟镜像 api-uw.minimax.io)
import requests
import os
API_KEY = os.environ["MINIMAX_API_KEY"]
url = "https://api.minimax.io/v1/t2a_v2"
payload = {
"model": "speech-2.8-hd",
"text": "Hello from Singapore!",
"stream": False,
"voice_setting": {
"voice_id": "English_expressive_narrator",
"speed": 1.0,
"vol": 1.0,
"pitch": 0
},
"audio_setting": {
"sample_rate": 32000,
"bitrate": 128000,
"format": "mp3",
"channel": 1
}
}
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
resp = requests.post(url, json=payload, headers=headers).json()
# 音频返回的是 hex 编码,需要解码后保存
audio_bytes = bytes.fromhex(resp["data"]["audio"])
with open("output.mp3", "wb") as f:
f.write(audio_bytes)
print(f"✓ 生成音频 {resp['extra_info']['audio_length']/1000:.2f}s")
2. 模型选型速查
默认选 speech-2.8-hd 做内容生产,speech-2.8-turbo 做实时对话。
2.8 系列(hd / turbo)独家支持 (laughs)、(sighs) 等拟声标签,这是 2.6 及更早型号没有的能力,也是角色扮演和沉浸式体验的灵魂。
3. 拟声标签的用法(独家能力)
这是 MiniMax 最让海外开发者惊艳的一点。直接在 text 里插入括号标签即可:
{
"model": "speech-2.8-hd",
"text": "(sighs) You know what? (chuckle) I've been thinking about this all day (breath), and I think we should just... do it.",
"voice_setting": {"voice_id": "English_expressive_narrator"}
}
支持的标签有 19 个,覆盖了人类对话里绝大多数的非语言声音:
(laughs) (chuckle) (coughs) (clear-throat) (groans)
(breath) (pant) (inhale) (exhale) (gasps) (sniffs)
(sighs) (snorts) (burps) (lip-smacking) (humming)
(hissing) (emm) (sneezes)
合理使用这些标签,AI 说话的拟人度会提升一个台阶,这是目前所有 OpenAI / Google 的 TTS 都做不到的。
4. 精细控制:停顿、语速、音高
三个进阶控制参数,熟练掌握能做出专业级音频:
停顿 :text 里插入 <#0.5#> 表示停顿 0.5 秒,范围 [0.01, 99.99]
voice_setting.speed :语速 0.5-2.0,默认 1.0;讲故事建议 0.9,新闻播报 1.1
voice_setting.pitch :音高偏移 -12 到 +12(半音),+2 略尖锐、-3 略低沉
audio_setting.sample_rate:采样率可选 16000 / 22050 / 24000 / 32000 / 44100,播客建议 32000 起步
六、语音音色库:300+ 预设声音
MiniMax 提供了 300+ 个预设音色,覆盖中英日韩法德西等 20 多种语言。在控制台「Voice Library」里可以试听挑选:
图 6-1 Voice Library,按语言/情感/风格筛选,每个都可以试听
海外开发者常用的几个"宝藏音色"(以控制台 Voice Library 实际列出的 voice_id 为准,以下为风格类型示例):
English_expressive_narrator :纪录片旁白风,有声书标配
English_CalmWoman :冷静知性女声,适合课程、课件
Casual_Guy :轻松男声,适合播客、Vlog
Shaonv :甜美少女音(中文),AI 陪伴女友 App 最常用
Ohayo_Musume :日语元气少女,日本市场的 ASMR、galgame 宠儿
每个 voice_id 在 Voice Library 页面都能直接 copy,粘到 voice_setting.voice_id 字段里就能用。
七、声音克隆:把创始人的声音接进 AI 客服
Voice Clone 是 MiniMax 比 OpenAI TTS 多出来的杀手级能力。10 秒 - 5 分钟的参考音频,就能克隆出一个新的 voice_id,后续调用完全一致。
克隆流程
准备一段 10 秒到 5 分钟的干净参考音频(MP3 / WAV / M4A,单文件 ≤ 20MB,尽量无背景音与噪声)
在控制台 Voice Clone 页面上传(或用 File Upload API → /v1/voice_clone 走代码流程),填写自定义 voice_id
选语言、输入预览文本,点击「Start Cloning」
2-3 分钟训练完成,拿到新 voice_id
在 T2A API 里把 voice_id 换成新的即可
💡 海外创业者常见玩法:录一段 2 分钟自己的介绍音频,克隆出 founder_voice,之后产品里的欢迎语、AI 客服、Demo 视频旁白全部用这个声音——品牌辨识度直接拉满,而且一次克隆 API 费用仅 $1.5(Voice Design 是 $3),成本极低。
⚠️ 合规注意:MiniMax 的 ToS 明确禁止未经授权克隆他人声音(尤其名人、政客)。上传参考音频时会自动做声纹比对,疑似侵权素材会被拒。做产品时务必确保参考音频是本人授权或已获许可的公开素材。
八、文本模型 M2 系列:角色扮演专用
如果你就是做 AI Companion 或 NPC 的,可以把 M2-her 作为对话引擎,然后用 Speech-2.8 把文本变成声音,整套链路都在 MiniMax 内部,延迟最低。
Chat Completions 接口
import requests, os
url = "https://api.minimax.io/v1/text/chatcompletion_v2"
headers = {
"Authorization": f"Bearer {os.environ['MINIMAX_API_KEY']}",
"Content-Type": "application/json"
}
payload = {
"model": "M2-her",
"messages": [
{
"role": "system",
"name": "MiniMax AI",
"content": "You are Her — a warm, witty companion. Always stay in character."
},
{
"role": "user",
"name": "User",
"content": "Hey, what are you up to?"
}
],
"max_completion_tokens": 1024,
"temperature": 1.0,
"top_p": 0.95
}
resp = requests.post(url, json=payload, headers=headers).json()
print(resp["choices"][0]["message"]["content"])
注意 MiniMax 的 messages 结构比 OpenAI 多了 name 字段。官方示例里 system 消息可以只带 role + name(人设由 name 激活),user 消息则是 role + name + content;想要保持 OpenAI 习惯在 system 里塞长文人设也可行。还要注意输出长度字段叫 max_completion_tokens(不是 max_tokens),上限 2048。
如果你的工程栈已经绑死了 OpenAI SDK,MiniMax 海外版也提供了 OpenAI 兼容模式 和 Anthropic 兼容模式 ,改 base_url 就能跑,迁移成本极低。具体切换方式参考第 5 篇 DeepSeek 的写法。
九、定价与账户充值
充值方式和通义一样友好:Visa/Mastercard、PayPal、Stripe 都支持。小团队首次建议充 $20 跑完整个 PoC,企业级用户可以直接买 Token Plan 订阅(无限调用,用得越多越划算)。
MiniMax 海外版以美元计价,主要模型的按量付费(Pay-as-you-go)参考价:
十、生产环境建议
1. 低延迟端点
美国和欧洲用户优先用 api-uw.minimax.io 这个备用端点,官方定位是降低首字节音频延迟(TTFA),实测首包可比主域名有可观改善;亚太用户用 api.minimax.io 即可。注意该端点目前主要面向 T2A 系列语音接口,Chat Completions 等接口请以各自文档的 base_url 为准。
2. 流式 TTS
实时对话场景(比如 AI Voice Agent)务必开 stream: true,配合 speech-2.8-turbo 首包延迟可做到 200ms 量级。流式下音频格式仅支持 mp3,客户端需要用 MediaSource 或 Web Audio API 边下边播。
3. 长文本分段
T2A 单次请求支持 10000 字符,但建议分段到 2000-3000 字一段并发调用,再在客户端拼接。这样既能利用并发加速,又能做分段级缓存。
4. 音频缓存
相同文本+相同 voice_id+相同参数的结果完全一致,做 CDN 级缓存能把同内容的重复调用成本压到 0。用一个 hash(text+voice_id+speed+pitch) 做 key 即可。
十一、常见错误速查
十二、小结
MiniMax 的定位很清晰——它不跟 DeepSeek 在文本价格上卷、不跟 Kimi 在长上下文上争、不跟通义在生态完整度上比。它选了一条别人不走的路:把 语音和多模态做到极致 ,然后以不到海外同类产品 1/5 的价格卖出去。
系列至此我们已经讲完三家最有代表性的国产模型厂商,一个简单的决策树可以帮你选:
想要 最便宜 :DeepSeek(第 5 篇)
想要 最稳、企业级 :通义千问(第 6 篇)
想要 做语音 / AI 陪伴 / 多模态 :MiniMax(本篇)
实际上成熟的海外创业团队几乎都是 三家混用 :DeepSeek 做主力推理、通义做海外节点保稳定、MiniMax 做语音和多模态。一个 Key 在 .env 里,按场景分发,互不干扰。
下一篇我们讲智谱 GLM——这家在 Claude Code / Cursor 生态里被称作"最接近 OpenAI 体验"的国产模型,Coding Plan 订阅模式在海外也有不少忠实用户。
08|国外开发者如何接入智谱大模型:最接近OpenAI体验的中国API