长时生成优化技术归档

AI音频生成重要突破！超10秒精准可控免训练，清华×生数科技最新研究被ACM顶会收录

2025年7月24日8时作者智东西

清华大学与生数科技合作研发的FreeAudio系统突破10秒时长限制，实现精准时间控制和长时音频生成，3大核心技术包括LLM规划、解耦与聚合注意力控制及上下文潜变量合成等。该系统在多项指标上得分最优，在主观评估中质量最高。未来或将在Vidu产品端上线，并计划进一步探索更长时间段的音频生成技术。