在线教程 CSM 驾到,统统闪开!更鲜活的语音生成,从此告别延迟呆板机械味

作者:大头

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源

「CSM 对话语音生成模型 Demo」教程现已上线至 HyperAI超神经官网,快来一探究竟!

与 AI 语音助手聊天时,总感觉哪里怪怪的。它们对问题应答自如,可就是少了点「人味」。语调呆板、停顿突兀,时不时还在莫名其妙的地方卡顿,这种似人非人的违和感,其实就是「恐怖谷效应」在作祟。当 AI 语音与人类语音相似度颇高却又未达到完美一致时,用户便会感到不适。

近期,由 Sesame 团队推出的语音生成模型 CSM (Conversational Speech Model) 在众多语音模型中脱颖而出。该模型采用 Llama 主干架构和轻量级音频解码器,结合端到端 Transformer 框架,能够根据文本和音频输入生成 RVQ 音频代码,进而输出流畅自然、饱含情感的语音,打造出可以带给用户情感需求的语音助手。

相比传统 AI 语音生成模型,CSM 的功能远不止是简单的生成音频:

*更强的情感理解能力:能够深入剖析语境,并灵活的调整语气、声调。

*更自然的对话节奏:对停顿、强调、打断等细节进行精细优化,让交谈更流畅。

*几乎零延迟的体验:高效的推理架构,让语音生成更接近实时,提升交互效率。

小编就用 CSM 生成了一段英文对话,语气自然随性,仿佛两位老友在惬意的唠嗑,毫无人机感。

*对话内容:

Hey how are you doing.

Pretty good, pretty good.

I’m great, so happy to be speaking to you.

Me too, this is some cool stuff huh?

Yeah, I’ve been reading more about speech generation, and it really seems like context is important.

Definitely.


「CSM 对话语音生成模型 Demo」教程现已上线至 HyperAI超神经官网,快来一探究竟!

教程地址:

https://go.hyper.ai/e0HQn

Demo 运行

1. 登录 hyper.ai,在「教程」页面,选择「CSM 对话语音生成模型 Demo」,点击「在线运行此教程」。

2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3. 选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr

4. 等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

选择或上传个人音频,输入对话内容,点击「Generate conversation」即可生成对话。

*默认情况下,将由 Speaker A 开启首轮发言,随后 Speaker A 与 Speaker B 交替进行对话交流(目前仅支持英文内容生成)。

小编尝试生成了一段对话,CSM 呈现出的「活人感」扑面而来。大家能分清这到底是 AI 在说话还是真人在交流吗?

*对话内容:

Hey how are you doing.

Pretty good, pretty good.

I’m great, so happy to be speaking to you.

Me too, this is some cool stuff huh?

Yeah, I’ve been reading more about speech generation, and it really seems like context is important.

Definitely.

 往期推荐 

“阅读原文”,免费获取海量数据集资源!

(文:HyperAI超神经)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往