在线教程 CSM 驾到，统统闪开！更鲜活的语音生成，从此告别延迟呆板机械味

作者：大头

编辑：李宝珠

转载请联系本公众号获得授权，并标明来源

「CSM 对话语音生成模型 Demo」教程现已上线至 HyperAI超神经官网，快来一探究竟！

与 AI 语音助手聊天时，总感觉哪里怪怪的。它们对问题应答自如，可就是少了点「人味」。语调呆板、停顿突兀，时不时还在莫名其妙的地方卡顿，这种似人非人的违和感，其实就是「恐怖谷效应」在作祟。当 AI 语音与人类语音相似度颇高却又未达到完美一致时，用户便会感到不适。

近期，由 Sesame 团队推出的语音生成模型 CSM (Conversational Speech Model) 在众多语音模型中脱颖而出。该模型采用 Llama 主干架构和轻量级音频解码器，结合端到端 Transformer 框架，能够根据文本和音频输入生成 RVQ 音频代码，进而输出流畅自然、饱含情感的语音，打造出可以带给用户情感需求的语音助手。

相比传统 AI 语音生成模型，CSM 的功能远不止是简单的生成音频：

*更强的情感理解能力：能够深入剖析语境，并灵活的调整语气、声调。

*更自然的对话节奏：对停顿、强调、打断等细节进行精细优化，让交谈更流畅。

*几乎零延迟的体验：高效的推理架构，让语音生成更接近实时，提升交互效率。

小编就用 CSM 生成了一段英文对话，语气自然随性，仿佛两位老友在惬意的唠嗑，毫无人机感。

*对话内容：

Hey how are you doing.

Pretty good, pretty good.

I’m great, so happy to be speaking to you.

Me too, this is some cool stuff huh?

Yeah, I’ve been reading more about speech generation, and it really seems like context is important.

Definitely.