语音语言模型归档 - 每时AI

VITA-Audio：一款高效的语音语言模型，能够快速生成音频和文本内容

2025年5月10日8时作者 NLP工程化

VITA-Audio是一款高效的语音语言模型，显著降低音频生成延迟至53毫秒，并提升推理速度3-4倍。训练数据包含20万小时音频，已开源。

24小时，一块GPU，就能训练出顶级语音模型

2025年2月27日16时作者 NLP工程化

本文提出了Slam训练秘诀，在单张GPU和24小时资源限制下高效训练高质量语音语言模型，显著提升AI研究效率。