60s、12句话、六个人、还是文言文
猜猜这里面有ai配音吗?
答案是全是ai,一点真人都没有。。。
一段时间没看,AI把配音调成啥样了?
2024年之前11Labs几乎是全球TTS(文本转语音)模型的代名词。
今天MiniMax语音的配音,不仅在中文、粤语,英语甚至更多国的语言都能和11Labs打得有来有回,稳压它一头。
所以接下来,我会从语音合成、多角色配音、情绪调节、多语种表现四个维度来横评MiniMax语音和11Labs,用实测案例说话,给出AI配音现阶段的版本之子。Here we go!
🔗 www.minimaxi.com/audio

01|语音合成
我们先从基本盘讲起,到底什么是基础语音合成的“合格线”?
三个字:像真人。
“像真人”不等于“念得准”,还要包含以下几个维度:
- 字音是否准确(尤其是中文的多音字)
- 语调是否自然(有没有念稿子的生硬感)
- 停顿是否得体(是不是一刀切地空一秒)
- 最后一个是“语感”——能不能当个戏精。
所以,先来个中文绕口令热热身吧。
四是四,十是十,十四是十四,四十是四十。司小四和史小世,四月十四上集市。
这把我11labs用的是他们最新的 Eleven V3 模型(刷卡成功),用最强 vs 最强。
这中文能力还是有明显的区别。11labs还是特别像学了很久的老外开始挑战绕口令,语速慢而且停顿很长,有一种我听他说话咋这么费劲的感觉。
而MiniMax语音对这个绕口令熟练的简直就像天天起来晨读的播音人。。。
为了彰显我的公平性,我们来一个英文的复杂句再对比一下。
“The anthropologist thoroughly thought through the theories, though they seemed thoroughly thoughtless.”
英语还是各大模型的舒适区,一个英音一个美音听起来都挺舒服的,语调很自然,停顿位置很适宜,这局打平。
看到这,我就又想整活了,那如果是中英混杂,两位又该如何应对?
我差点以为自己手机没流量了,这一卡一卡的感觉。在Eleven V3里是不能调节语速的,这就是说我抽卡都很有可能抽不到她讲话快一点的版本。这个一字一顿的感觉,真的听感不是很舒适。
MiniMax语音不仅中英丝滑切换,而且丝毫不影响正常阅读的语速和停顿位置,听起来超流畅。
最后我们再来上点难度,来,演员请就位。
戏感,是考验一个语音模型的终极关卡,这涉及到了最终我们能不能将这一段音频投入制作使用,甚至直接决定了我日后会不会在需要配音时第一时间打开这个工具。
先来段熟悉的雷雨场景,其实按照上面的中文表现能力来说,这个表演是为难11labs了,到底是谁教你的一个大模型说话一股子弯弯腔啊,真的很机车诶。MiniMax 语音还是一如既往优秀,我现在已经可以直接拿来给AI短剧、AI影片配音了。
为了彰显公平,再来表演一个哈姆雷特独白吧。
讲道理,非英语母语的话确实比较难听出来这里的表演成分,我这个大耳朵听出来11labs这个声音是蛮有磁性的,但更像是朗诵,MiniMax的声音停顿感会更有情绪一点。
02|音色设计
基础对比看完了,我们来看一个进阶功能。因为平时做一些剧情视频的时候,经常会涉及到有一些不同的角色。
这些角色的年龄、性别、身份、性格不同,会让他们的音色也染上本人的特质。
就像电视剧里那样,你一听就知道这个人大概什么个什么性格。MiniMax 语音和 11labs 现在都支持文本设计音色:


用起来很简单,只需要一句话的文字提示语描述声音的特征,再给一个试听文本就可以听到效果了。
先看 MiniMax 语音 的效果表现如何:
-
儿童动画片中的可爱小孩,声音稚嫩尖细,充满童趣和夸张的语气。
-
沉浸在游戏中的兴奋男性玩家,声音激动,语速快,不时发出感叹或指令。
-
男声;低沉略沙哑;京腔浓郁;语速缓慢、带口语儿化音
这几个音色还都挺在那个场景中的,年轻性格都对得上,尤其是最后的京腔儿,京味儿虽然没有做到那么百分百十足,但是也有个六七成,关键是那儿化音都说出来了啊,这就很灵魂。
谁懂广东人对普通话的执念啊。。。
再来看看 11labs, 我们同样设计几个类似的音色:
-
A tiny, high-pitched female voice of a mouse with an adorable, squeaky timbre. Light and airy tone with a playful, mischievous energy. Speaking at a quick, excited pace with frequent giggles and animated inflections.
-
Strict special forces instructor, male voice; deep and powerful; fast speaking speed; high-pitched emotions, shouting
-
A wise old scholar, a man in his seventies, with a hoarse and low voice, carrying a bookish and vicissitudes of life.
吐槽一下,真的太容易触发Plicy了。。。

声音的话可以看到它能设计一些比较戏剧性的角色,音色效果不错很有角色感,但有时容易语速过快,可能需要在提示语中限制一下。
03|情绪调节
语音合成里最魔鬼的环节是什么?
我投情绪调节一票。
大家都知道,很多模型能“说话”,但说得“激动”或者“哽咽”就不太行。
MiniMax 选择内置好常见的,它不是让我去调节语速、语调、夸张度,而是提供了8个情绪,点哪一个,就给你展现哪种情绪。

所以这次我给 MiniMax 语音一句提示语,分别展示不同情绪,大家听一下,其实是能够感受到 MiniMax 语音 在提示语中的情绪变化的,而且还可以灵活的去调整语速、声调和音量。
然后我们再看看11labs,首先 V3是不能调节情绪的,只能手动调一个叫“stability”的滑块,但这个调半天,也不知道出来的是“愤怒”还是“喜悦”,因为它没有标注情绪。而且不同语言之间对滑块的响应也不一致,调出来的结果基本靠抽卡。
这一点上,MiniMax真的赢得非常干净。
04|多语种能力
目前MiniMax 语音和11labs都支持多国语种,然后其实我们也能看到现在一些AI影片对于粤语的能力也有需求,毕竟看得人多了场景多了,需求就大了。
所以多语种这里,我们首先看看粤语这块两家的对比。
不得不说 MiniMax语音 这个粤语好对味儿啊,有种电影即视感,语气、速度、还有句末那个轻声,很真实。11lbas这个就是也不错,但是语速有点慢,还有点AI味儿。
然后我们再试试多国语言混搭,看看会不会扰乱这两位的系统。
三国语言是都切换成功了,但是第二次切换回中文的时候,11labs明显变回老外口音了。。。有点搞笑,感觉摸到了什么bug。
最后聊聊积分。
很多人说现在AI越来越贵,用AI做内容反而不划算了。
但在Minimax 语音,进来就送1万积分,官方说法是两个中文消耗1积分,基本1万积分就能免费做12分钟的音频了。
进阶的玩法更是有非常多种的选择可以匹配消耗需求。如果有长期配音需求的话可以看看声贝充值,同样价格有基础会员的两倍积分,有效期延24倍,还是挺香的。


而11Labs呢?早有人就说了。。。

所以你懂的,我这一周用下来,MiniMax语音的性价比是真高。
写在最后
在写这篇文章的后半期,我更多是想找一个能表达我的声音。
作为一个创作者,我的表达是靠视频、靠画面、靠文案。但有时候,语句里的停顿、哽咽、留白才是真正能把情绪打到观众心里的那一秒,
尤其是在中文这个属于我们的母语领域。
之前我在11Labs上“听过过很多中文句子”,但听不出感情;
现在我在MiniMax 上“能生成很多人”,
他们每一句话,都好像不想是“朗读”,而是在“沟通”。
我也想把这种感觉分享给你,
也许下一次,
你听到一个特别自然的旁白,
或者一段起鸡皮疙瘩的剧情配音,
说不定,
就是 MiniMax 带给你的。
@ 作者 / 阿汤 & 卡尔
(文:卡尔的AI沃茨)