用AI给包浆电视剧配音,MiniMax语音还是比11Labs强太多了




60s、12句话、六个人、还是文言文

猜猜这里面有ai配音吗?

答案是全是ai,一点真人都没有。。。

一段时间没看,AI把配音调成啥样了?

2024年之前11Labs几乎是全球TTS(文本转语音)模型的代名词。

今天MiniMax语音的配音,不仅在中文、粤语,英语甚至更多国的语言都能和11Labs打得有来有回,稳压它一头。

所以接下来,我会从语音合成、多角色配音、情绪调节、多语种表现四个维度来横评MiniMax语音和11Labs,用实测案例说话,给出AI配音现阶段的版本之子。Here we go!

PS:文章内能放入的音频文件有限,下面所有的对比音频都是前半段是MiniMax语音效果,后半段为11labs效果。如果想要听高音质的原音频的话,照例公众号回复“AI配音”就行。

🔗 www.minimaxi.com/audio



 01|语音合成 

我们先从基本盘讲起,到底什么是基础语音合成的“合格线”?

三个字:像真人。

“像真人”不等于“念得准”,还要包含以下几个维度:

  • 字音是否准确(尤其是中文的多音字)
  • 语调是否自然(有没有念稿子的生硬感)
  • 停顿是否得体(是不是一刀切地空一秒)
  • 最后一个是“语感”——能不能当个戏精。

所以,先来个中文绕口令热热身吧。

四是四,十是十,十四是十四,四十是四十。司小四和史小世,四月十四上集市。


这把我11labs用的是他们最新的 Eleven V3 模型(刷卡成功),用最强 vs 最强。

这中文能力还是有明显的区别。11labs还是特别像学了很久的老外开始挑战绕口令,语速慢而且停顿很长,有一种我听他说话咋这么费劲的感觉。

而MiniMax语音对这个绕口令熟练的简直就像天天起来晨读的播音人。。。

为了彰显我的公平性,我们来一个英文的复杂句再对比一下。

“The anthropologist thoroughly thought through the theories, though they seemed thoroughly thoughtless.”

英语还是各大模型的舒适区,一个英音一个美音听起来都挺舒服的,语调很自然,停顿位置很适宜,这局打平。

看到这,我就又想整活了,那如果是中英混杂,两位又该如何应对?

量子纠缠quantum entanglement是一种量子力学现象,当两个粒子纠缠时,无论它们相隔多远,改变一个粒子的状态会instantaneously影响另一个。


我差点以为自己手机没流量了,这一卡一卡的感觉。在Eleven V3里是不能调节语速的,这就是说我抽卡都很有可能抽不到她讲话快一点的版本。这个一字一顿的感觉,真的听感不是很舒适。

MiniMax语音不仅中英丝滑切换,而且丝毫不影响正常阅读的语速和停顿位置,听起来超流畅。

最后我们再来上点难度,来,演员请就位。

戏感,是考验一个语音模型的终极关卡,这涉及到了最终我们能不能将这一段音频投入制作使用,甚至直接决定了我日后会不会在需要配音时第一时间打开这个工具。

这屋子闷得很……我像关在笼子里的野兽!周萍,你明明知道我爱你,为什么还要这样折磨我?


先来段熟悉的雷雨场景,其实按照上面的中文表现能力来说,这个表演是为难11labs了,到底是谁教你的一个大模型说话一股子弯弯腔啊,真的很机车诶。MiniMax 语音还是一如既往优秀,我现在已经可以直接拿来给AI短剧、AI影片配音了。

To be, or not to be: that is the question. Whether ’tis nobler in the mind to suffer… or to take arms against a sea of troubles.

为了彰显公平,再来表演一个哈姆雷特独白吧。

讲道理,非英语母语的话确实比较难听出来这里的表演成分,我这个大耳朵听出来11labs这个声音是蛮有磁性的,但更像是朗诵,MiniMax的声音停顿感会更有情绪一点。


 02|音色设计 

基础对比看完了,我们来看一个进阶功能。因为平时做一些剧情视频的时候,经常会涉及到有一些不同的角色。

这些角色的年龄、性别、身份、性格不同,会让他们的音色也染上本人的特质。

就像电视剧里那样,你一听就知道这个人大概什么个什么性格。MiniMax 语音和 11labs 现在都支持文本设计音色:



用起来很简单,只需要一句话的文字提示语描述声音的特征,再给一个试听文本就可以听到效果了。

先看 MiniMax 语音 的效果表现如何:

  • 儿童动画片中的可爱小孩,声音稚嫩尖细,充满童趣和夸张的语气。

  • 沉浸在游戏中的兴奋男性玩家,声音激动,语速快,不时发出感叹或指令。

  • 男声;低沉略沙哑;京腔浓郁;语速缓慢、带口语儿化音

这几个音色还都挺在那个场景中的,年轻性格都对得上,尤其是最后的京腔儿,京味儿虽然没有做到那么百分百十足,但是也有个六七成,关键是那儿化音都说出来了啊,这就很灵魂。

谁懂广东人对普通话的执念啊。。。

再来看看 11labs, 我们同样设计几个类似的音色:

  • A tiny, high-pitched female voice of a mouse with an adorable, squeaky timbre. Light and airy tone with a playful, mischievous energy. Speaking at a quick, excited pace with frequent giggles and animated inflections. 

  • Strict special forces instructor, male voice; deep and powerful; fast speaking speed; high-pitched emotions, shouting

  • A wise old scholar, a man in his seventies, with a hoarse and low voice, carrying a bookish and vicissitudes of life.

吐槽一下,真的太容易触发Plicy了。。。


声音的话可以看到它能设计一些比较戏剧性的角色,音色效果不错很有角色感,但有时容易语速过快,可能需要在提示语中限制一下。


 03|情绪调节 

语音合成里最魔鬼的环节是什么?

我投情绪调节一票。

大家都知道,很多模型能“说话”,但说得“激动”或者“哽咽”就不太行。

MiniMax 选择内置好常见的,它不是让我去调节语速、语调、夸张度,而是提供了8个情绪,点哪一个,就给你展现哪种情绪。

所以这次我给 MiniMax 语音一句提示语,分别展示不同情绪,大家听一下,其实是能够感受到 MiniMax 语音 在提示语中的情绪变化的,而且还可以灵活的去调整语速、声调和音量。

然后我们再看看11labs,首先 V3是不能调节情绪的,只能手动调一个叫“stability”的滑块,但这个调半天,也不知道出来的是“愤怒”还是“喜悦”,因为它没有标注情绪。而且不同语言之间对滑块的响应也不一致,调出来的结果基本靠抽卡。

这一点上,MiniMax真的赢得非常干净。


 04|多语种能力 

目前MiniMax 语音和11labs都支持多国语种,然后其实我们也能看到现在一些AI影片对于粤语的能力也有需求,毕竟看得人多了场景多了,需求就大了。

所以多语种这里,我们首先看看粤语这块两家的对比。

我几时冇理解过你?系你自己唔肯开声啫!有咩心事都係扼埋喺心入面,日日返工到通顶,我同个女等你食饭等到几多次?你而家嘅样,同你阿爸有咩分别?你唔系成日话自己唔会变成佢咁咩?

不得不说 MiniMax语音 这个粤语好对味儿啊,有种电影即视感,语气、速度、还有句末那个轻声,很真实。11lbas这个就是也不错,但是语速有点慢,还有点AI味儿。

然后我们再试试多国语言混搭,看看会不会扰乱这两位的系统。

尊敬的客户,您购买的德国进口汽车即将到货。Your German imported vehicle will arrive next week. 根据协议,您需要在到货前完成剩余款项支付。Bitte beachten Sie, dass alle Zahlungen vor der Lieferung abgeschlossen sein müssen. 

三国语言是都切换成功了,但是第二次切换回中文的时候,11labs明显变回老外口音了。。。有点搞笑,感觉摸到了什么bug。

最后聊聊积分。

很多人说现在AI越来越贵,用AI做内容反而不划算了。

但在Minimax 语音,进来就送1万积分,官方说法是两个中文消耗1积分,基本1万积分就能免费做12分钟的音频了。

进阶的玩法更是有非常多种的选择可以匹配消耗需求。如果有长期配音需求的话可以看看声贝充值,同样价格有基础会员的两倍积分,有效期延24倍,还是挺香的。



而11Labs呢?早有人就说了。。。


所以你懂的,我这一周用下来,MiniMax语音的性价比是真高。


写在最后

在写这篇文章的后半期,我更多是想找一个能表达我的声音。

作为一个创作者,我的表达是靠视频、靠画面、靠文案。但有时候,语句里的停顿、哽咽、留白才是真正能把情绪打到观众心里的那一秒,

尤其是在中文这个属于我们的母语领域。

之前我在11Labs上“听过过很多中文句子”,但听不出感情;

现在我在MiniMax 上“能生成很多人”,

他们每一句话,都好像不想是“朗读”,而是在“沟通”。

我也想把这种感觉分享给你,

也许下一次,

你听到一个特别自然的旁白,

或者一段起鸡皮疙瘩的剧情配音,

说不定,

就是 MiniMax 带给你的。

@ 作者 / 阿汤 & 卡尔 


(文:卡尔的AI沃茨)

发表评论