用AI给包浆电视剧配音，MiniMax语音还是比11Labs强太多了

60s、12句话、六个人、还是文言文

猜猜这里面有ai配音吗？

答案是全是ai，一点真人都没有。。。

一段时间没看，AI把配音调成啥样了？

2024年之前11Labs几乎是全球TTS（文本转语音）模型的代名词。

今天MiniMax语音的配音，不仅在中文、粤语，英语甚至更多国的语言都能和11Labs打得有来有回，稳压它一头。

所以接下来，我会从语音合成、多角色配音、情绪调节、多语种表现四个维度来横评MiniMax语音和11Labs，用实测案例说话，给出AI配音现阶段的版本之子。Here we go！

PS：文章内能放入的音频文件有限，下面所有的对比音频都是前半段是MiniMax语音效果，后半段为11labs效果。如果想要听高音质的原音频的话，照例公众号回复“AI配音”就行。

🔗 www.minimaxi.com/audio

01｜语音合成

我们先从基本盘讲起，到底什么是基础语音合成的“合格线”？

三个字：像真人。

“像真人”不等于“念得准”，还要包含以下几个维度：

字音是否准确（尤其是中文的多音字）
语调是否自然（有没有念稿子的生硬感）
停顿是否得体（是不是一刀切地空一秒）
最后一个是“语感”——能不能当个戏精。

所以，先来个中文绕口令热热身吧。

四是四，十是十，十四是十四，四十是四十。司小四和史小世，四月十四上集市。

这把我11labs用的是他们最新的 Eleven V3 模型（刷卡成功），用最强 vs 最强。

这中文能力还是有明显的区别。11labs还是特别像学了很久的老外开始挑战绕口令，语速慢而且停顿很长，有一种我听他说话咋这么费劲的感觉。

而MiniMax语音对这个绕口令熟练的简直就像天天起来晨读的播音人。。。

为了彰显我的公平性，我们来一个英文的复杂句再对比一下。

“The anthropologist thoroughly thought through the theories, though they seemed thoroughly thoughtless.”

英语还是各大模型的舒适区，一个英音一个美音听起来都挺舒服的，语调很自然，停顿位置很适宜，这局打平。

看到这，我就又想整活了，那如果是中英混杂，两位又该如何应对？

量子纠缠quantum entanglement是一种量子力学现象，当两个粒子纠缠时，无论它们相隔多远，改变一个粒子的状态会instantaneously影响另一个。

我差点以为自己手机没流量了，这一卡一卡的感觉。在Eleven V3里是不能调节语速的，这就是说我抽卡都很有可能抽不到她讲话快一点的版本。这个一字一顿的感觉，真的听感不是很舒适。

MiniMax语音不仅中英丝滑切换，而且丝毫不影响正常阅读的语速和停顿位置，听起来超流畅。

最后我们再来上点难度，来，演员请就位。

戏感，是考验一个语音模型的终极关卡，这涉及到了最终我们能不能将这一段音频投入制作使用，甚至直接决定了我日后会不会在需要配音时第一时间打开这个工具。

这屋子闷得很……我像关在笼子里的野兽！周萍，你明明知道我爱你，为什么还要这样折磨我？

先来段熟悉的雷雨场景，其实按照上面的中文表现能力来说，这个表演是为难11labs了，到底是谁教你的一个大模型说话一股子弯弯腔啊，真的很机车诶。MiniMax 语音还是一如既往优秀，我现在已经可以直接拿来给AI短剧、AI影片配音了。

To be, or not to be: that is the question. Whether ’tis nobler in the mind to suffer… or to take arms against a sea of troubles.

为了彰显公平，再来表演一个哈姆雷特独白吧。

讲道理，非英语母语的话确实比较难听出来这里的表演成分，我这个大耳朵听出来11labs这个声音是蛮有磁性的，但更像是朗诵，MiniMax的声音停顿感会更有情绪一点。

02｜音色设计

基础对比看完了，我们来看一个进阶功能。因为平时做一些剧情视频的时候，经常会涉及到有一些不同的角色。

这些角色的年龄、性别、身份、性格不同，会让他们的音色也染上本人的特质。

就像电视剧里那样，你一听就知道这个人大概什么个什么性格。MiniMax 语音和 11labs 现在都支持文本设计音色：

用起来很简单，只需要一句话的文字提示语描述声音的特征，再给一个试听文本就可以听到效果了。

先看 MiniMax 语音的效果表现如何：

儿童动画片中的可爱小孩，声音稚嫩尖细，充满童趣和夸张的语气。
沉浸在游戏中的兴奋男性玩家，声音激动，语速快，不时发出感叹或指令。
男声；低沉略沙哑；京腔浓郁；语速缓慢、带口语儿化音

这几个音色还都挺在那个场景中的，年轻性格都对得上，尤其是最后的京腔儿，京味儿虽然没有做到那么百分百十足，但是也有个六七成，关键是那儿化音都说出来了啊，这就很灵魂。

谁懂广东人对普通话的执念啊。。。

再来看看 11labs，我们同样设计几个类似的音色：

A tiny, high-pitched female voice of a mouse with an adorable, squeaky timbre. Light and airy tone with a playful, mischievous energy. Speaking at a quick, excited pace with frequent giggles and animated inflections.
Strict special forces instructor, male voice; deep and powerful; fast speaking speed; high-pitched emotions, shouting
A wise old scholar, a man in his seventies, with a hoarse and low voice, carrying a bookish and vicissitudes of life.

吐槽一下，真的太容易触发Plicy了。。。

声音的话可以看到它能设计一些比较戏剧性的角色，音色效果不错很有角色感，但有时容易语速过快，可能需要在提示语中限制一下。

03｜情绪调节

语音合成里最魔鬼的环节是什么？

我投情绪调节一票。

大家都知道，很多模型能“说话”，但说得“激动”或者“哽咽”就不太行。

MiniMax 选择内置好常见的，它不是让我去调节语速、语调、夸张度，而是提供了8个情绪，点哪一个，就给你展现哪种情绪。

所以这次我给 MiniMax 语音一句提示语，分别展示不同情绪，大家听一下，其实是能够感受到 MiniMax 语音在提示语中的情绪变化的，而且还可以灵活的去调整语速、声调和音量。

然后我们再看看11labs，首先 V3是不能调节情绪的，只能手动调一个叫“stability”的滑块，但这个调半天，也不知道出来的是“愤怒”还是“喜悦”，因为它没有标注情绪。而且不同语言之间对滑块的响应也不一致，调出来的结果基本靠抽卡。

这一点上，MiniMax真的赢得非常干净。

04｜多语种能力

目前MiniMax 语音和11labs都支持多国语种，然后其实我们也能看到现在一些AI影片对于粤语的能力也有需求，毕竟看得人多了场景多了，需求就大了。

所以多语种这里，我们首先看看粤语这块两家的对比。

我几时冇理解过你？系你自己唔肯开声啫！有咩心事都係扼埋喺心入面，日日返工到通顶，我同个女等你食饭等到几多次？你而家嘅样，同你阿爸有咩分别？你唔系成日话自己唔会变成佢咁咩？

不得不说 MiniMax语音这个粤语好对味儿啊，有种电影即视感，语气、速度、还有句末那个轻声，很真实。11lbas这个就是也不错，但是语速有点慢，还有点AI味儿。

然后我们再试试多国语言混搭，看看会不会扰乱这两位的系统。

尊敬的客户，您购买的德国进口汽车即将到货。Your German imported vehicle will arrive next week. 根据协议，您需要在到货前完成剩余款项支付。Bitte beachten Sie, dass alle Zahlungen vor der Lieferung abgeschlossen sein müssen.

三国语言是都切换成功了，但是第二次切换回中文的时候，11labs明显变回老外口音了。。。有点搞笑，感觉摸到了什么bug。

最后聊聊积分。

很多人说现在AI越来越贵，用AI做内容反而不划算了。

但在Minimax 语音，进来就送1万积分，官方说法是两个中文消耗1积分，基本1万积分就能免费做12分钟的音频了。

进阶的玩法更是有非常多种的选择可以匹配消耗需求。如果有长期配音需求的话可以看看声贝充值，同样价格有基础会员的两倍积分，有效期延24倍，还是挺香的。

而11Labs呢？早有人就说了。。。

所以你懂的，我这一周用下来，MiniMax语音的性价比是真高。

写在最后

在写这篇文章的后半期，我更多是想找一个能表达我的声音。

作为一个创作者，我的表达是靠视频、靠画面、靠文案。但有时候，语句里的停顿、哽咽、留白才是真正能把情绪打到观众心里的那一秒，

尤其是在中文这个属于我们的母语领域。

之前我在11Labs上“听过过很多中文句子”，但听不出感情；

现在我在MiniMax 上“能生成很多人”，

他们每一句话，都好像不想是“朗读”，而是在“沟通”。

我也想把这种感觉分享给你，

也许下一次，

你听到一个特别自然的旁白，

或者一段起鸡皮疙瘩的剧情配音，

说不定，

就是 MiniMax 带给你的。

@ 作者 / 阿汤 & 卡尔

（文：卡尔的AI沃茨）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

01｜语音合成

02｜音色设计

03｜情绪调节

04｜多语种能力

写在最后

发表评论 取消回复

发表评论取消回复