语音模型平台Cartesia获6400万美元，只需3秒克隆语音

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

语音模型平台Cartesia在官网宣布，获得6400万美元A轮融资，本次由Kleiner Perkins领投。

同时Cartesia推出了最新语音模型Sonic 2.0和Sonic Turbo，克隆语音仅需要3秒，而延迟最高只有90毫秒，是目前最强语音模型之一。

语音克隆是 Sonic 2.0 的一大亮点功能。只需3秒音频片段，就能瞬间克隆出声音，并且通过微调，还能处理长达数小时的数据。在克隆过程中，能精准捕捉并保留说话者独特的口音、背景音、情感以及其他各种细微的发声特征。

例如，克隆一位带有特定口音的人说话时，不仅能完美还原口音，还能让克隆语音带有与原音频相似的情感色彩和背景环境音效，使克隆出的声音与原始声音几乎一模一样，为众多对语音精准度要求高的应用场景提供了有力支持。

Sonic 2.0 支持 15 种语言，并且能够正确处理长文本和复杂文本，包括人名、电子邮件地址、电话号码和地址等。这种强大的文本处理能力使其能够应对各种复杂的语音生成需求，无论是多语言的新闻播报还是个性化的语音助手，都能轻松应对。

此外，Sonic 2.0 还支持将任何语音本地化到任何语言，并提供对口音的精细控制，进一步增强了其在多语言环境中的适用性。

在应用场景方面，Sonic 2.0 的适用性非常广泛。在内容创作领域，它能为创作者提供丰富多样的语音选择，帮助他们打造出更具吸引力的内容，无论是视频配音、播客旁白，还是新闻、出版行业的内容朗读，都能凭借其逼真的语音效果吸引观众和读者。

在客户服务领域，利用 Sonic 2.0 创建的 AI 语音智能体，能够以自然、真实的语音与客户交流，处理各种复杂问题，提升客户满意度。

在游戏行业，可以为游戏角色赋予生动逼真的语音，增强游戏的沉浸感和故事性。在医疗保健领域，其生成的让患者信任的语音，可用于辅助医疗信息的传达、健康提醒等。此外，在物流自动化、招聘中的 AI 语音面试、内容本地化配音、无障碍信息获取等众多领域，Sonic 2.0 都能打造丰富的语音场景。

除了Sonic 2.0，Cartesia 还推出了 Sonic Turbo，这是市场上最快的语音生成模型之一，延迟仅为 40 毫秒。同样支持15 种语言、多种口音和语音克隆。

目前，已经有超过5万家企业在使用Cartesia的产品，例如，Adobe 和 Meta 等科技巨头正在利用 Sonic 2.0 的低延迟和高自然度的语音生成能力来提升产品体验。

Spotify和 TikTok 等内容平台也在探索 Sonic 2.0 的商业潜力。Spotify 通过 Sonic 2.0 为播客和音频内容生成更加自然的语音，而 TikTok 则利用其语音克隆能力，为用户提供个性化的语音特效和创意工具。

Captions的联合创始人兼首席执行官表示，通过新的资金进一步完善其语音AI模型，集成语音转换器和填充编辑等新功能，并推动流媒体架构和设备推理方面的进步。未来，语音AI将变得无处不在，实时AI生成的语音将越来越多地为从呼叫中心到虚拟助理等各种应用提供技术支持。

（文：AIGC开放社区）