新加坡科技设计大学归档

Nvidia开源AI文本转音效模型，只要3.7秒就能生成30秒的音效，影视配音将越来越简单。

2025年1月10日23时作者开源AI项目落地

文章介绍了TangoFlux，一款由新加坡科技设计大学和NVIDIA联合开发的高效文本到音频生成模型。它能在单个A40 GPU上仅用3.7秒生成长达30秒的高质量音频，展示了优越性能，并详细阐述了其技术特点，包括高效的生成能力、流匹配与直流量化流技术以及Clap排名偏好优化（CRPO）等。

2025年1月9日23时作者开源AI项目落地

TangoFlux是由新加坡科技设计大学和NVIDIA联合开发的高效文本到音频生成模型，能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。该模型采用流匹配框架，并引入了CRPO技术提升生成音频与文本描述的匹配度。