速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成

图片来源:Nari

两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。

合成语音工具的市场巨大,并且还在不断增长。ElevenLabs 是最大的参与者之一,但不乏挑战者(参见 PlayAISesame 等)。投资者认为这些工具具有巨大的潜力。 

根据 PitchBook 的数据 ,开发语音 AI 技术的初创公司去年筹集了超过 3.98 亿美元的风险投资。

Nari Labs 是新发布模型背后的团队,总部位于韩国的联合创始人之一 Toby Kim 表示,他和他的同事在三个月前开始学习语音 AI。受 NotebookLM 的启发,他们希望创建一个模型,该模型可以更好地控制生成的声音和脚本中的自由度

Kim 说,他们使用了 Google 的 TPU Research Cloud 计划来训练 Nari 的模型 Dia,该计划为研究人员提供了对该公司 TPU AI 芯片的免费访问。Dia 有 16 亿个参数,可以从脚本中生成对话,让用户自定义说话者的语气并插入不流畅、咳嗽、大笑和其他非语言线索。

参数是模型用于进行预测的内部变量。通常,参数越多的模型性能越好。

Dia 可从 AI 开发平台 Hugging Face 和 GitHub 获得,可以在大多数具有至少 10GB VRAM 的现代 PC 上运行。除非提示使用预期样式的描述,否则它会生成随机语音,但它也可以克隆人员的语音。

 TechCrunch 通过 Nari 的网络演示对 Dia 进行的简短测试中,Dia 运行得相当不错,可以毫无怨言地生成关于任何主题的双向聊天。语音质量似乎与其他工具相比具有竞争力,而语音克隆功能是这位记者尝试过的最简单的功能之一。

然而,与许多语音生成器一样Dia 几乎没有提供任何保护措施。制作虚假信息或诈骗录音很容易。

在 Dia 的项目页面上,Nari 不鼓励滥用该模型来冒充、欺骗或以其他方式参与非法活动,但该组织表示它不对滥用负责。

Nari 也没有透露它抓取了哪些数据来训练 DiaDia 可能是使用受版权保护的内容开发的。

Hacker News 的一位评论者指出,一个样本听起来像 NPR “Planet Money”播客的主持人。在受版权保护的内容上训练模型是一种普遍但法律上可疑的做法。一些 AI 公司声称合理使用使他们免于承担责任,而权利持有人则声称合理使用不适用于培训。

无论如何,Kim 表示,Nari 的计划是在 Dia 和更大的未来模型之上创建一个具有社交方面的合成语音平台。Nari 还打算发布一份 Dia 的技术报告,并将该模型的支持扩展到英语以外的语言。


参考资料

https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/

编译:ChatGPT

——-

(文:Z Potentials)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往