FreeAudio团队 投稿
量子位 | 公众号 QbitAI
文生音频系统最新突破,实现精确时间控制与90秒长时音频生成!
想象一下,给AI发一段复杂指令生成音频:
0-10秒要有森林风吹声;0-4秒,鸟儿鸣叫;4-6秒,木头燃烧;6-16秒,动物踩在干树叶上的脚步声;10-16秒,蟋蟀鸣叫;16-19秒,猫头鹰鸣叫;17-26秒,溪水流淌。
现在它真能做到每个声音都卡准时间点,请听:
不论是长时间生成还是短时间都轻松拿捏:
1-3秒,狼嚎声;0-8秒,蟋蟀鸣叫声。
各种器物以及人的声响也都能复刻:
0-8秒,柔和的原声吉他拨弦奠定了节奏;8-16秒,男声加入,伴随着吉他的音乐唱歌;16-22秒,人声情绪高涨,而吉他声则保持稳定的背景;22-26秒,歌曲略微柔和,轻柔的吉他声持续演奏。

以前要实现这种效果非常难,要么时间控不准,要么时长撑不过10秒。但现在,来自清华大学、生数科技的新成果FreeAudio直接把这变成了现实。
更猛的是,它不用额外训练,靠一套“免训练”方法就突破了行业瓶颈,可基于自然语言文本与时间提示实现精确的时间控制与长时音频生成。
实验中,在10秒时间控制的生成任务中,FreeAudio相较以往的免训练方法具有显著提升,且在无需任何时间对齐的音频-文本训练数据的情况下,取得了可与最先进基于训练方法媲美的效果。
此外,FreeAudio首次在长时音频生成任务中实现了时间控制,在大幅降低计算开销的同时,仍表现出与训练式方法相当的性能。
据了解,FreeAudio系统未来或考虑在Vidu产品端上线。该工作目前也已被ACM Multimedia 2025录用,并被AC推荐为Oral录取。
ACM MM是计算机多媒体领域的国际顶级会议,也是中国计算机学会(CCF)推荐的多媒体领域唯一A类国际学术会议,今年将于10月27日至31日在爱尔兰都柏林举行。

下面来看研究细节。
FreeAudio到底长啥样?
论文中提到,尽管现有的T2A生成模型取得了令人瞩目的进展,但在实现精确的时间控制和长时段连贯生成方面仍面临诸多挑战:
一是大多数公开可用的音频数据集长度较短(通常约为10秒),且仅提供粗粒度的标签或字幕级注释。
这限制了模型对细粒度时间控制和长时音频生成能力的学习与建模。同时,训练或微调用于时间控制和长时生成的大规模扩散模型,需要大量的计算资源与工程成本。
二是现有方法通常通过引入事件及其时间戳作为条件,增强模型的时间控制能力。
然而,这类方法普遍依赖于预定义的事件类别,难以适应开放式的自然语言描述,因而在实际应用中存在可扩展性差、泛化能力弱的问题。
为了应对上述挑战,本文提出FreeAudio,一种无需额外训练即可同时支持时间控制与长时生成的文本到音频框架。
该方法利用LLM对时间结构进行规划,将文本与时间提示解析为一系列互不重叠的时间窗口,并为每个窗口生成适配的自然语言描述。随后,FreeAudio依次生成各时间片段的音频内容,并通过上下文融合与参考引导机制实现最终的长时音频合成。
具体来看,FreeAudio以预训练的10秒可变长DiT-based T2A扩散模型为基础,引入音频总时长作为独立条件输入。目标是在无需训练的前提下实现时间控制与长时音频生成。
时间可控音频生成分为LLM Planning和Decoupling&Aggregating Attention Control模块:

在时间可控音频生成方面,FreeAudio首先借助LLM的Chain-of-Thought(CoT)思维链推理规划能力,将文本提示和时间提示解析为一系列不重叠的时间窗口,再将每个时间窗口对应的一组事件重述为适合T2A模型生成的文本提示。
Decoupling&Aggregating Attention Control模块由两个子机制组成,分别针对局部对齐与全局融合问题进行建模:
-
Decoupling Attention Control将原始Latent查询按照时间窗口划分,并仅在Cross-Attention模块中激活与当前时间窗口对应的子提示。
-
Aggregating Attention Control则负责在Self-Attention与Cross-Attention模块中融合子提示生成的关键区域,按照时间顺序拼接为完整输出,并与全局Latent进行插值融合。
另外,长时音频生成的整体架构如下图:

在长时音频生成方面,面对现有T2A模型推理长度有限(通常为10秒以内)的挑战,FreeAudio将任意时长的目标音频任务拆解为多个子片段,并采用两项关键技术协同保障整段音频的时序连贯与语义一致:
-
Contextual Latent Composition:在每一步扩散采样中对相邻片段的潜变量进行上下文融合,尤其在片段重叠区域采用双向拼接策略,有效提升跨段过渡的平滑性;
-
Reference Guidance:在自注意力模块中引入参考片段特征,作为全局参考,提升长音频在风格、音色与叙事连贯性方面的整体一致性;
最后,在波形重建阶段,对相邻片段的重叠区域进行去重裁剪,仅保留一次有效副本,保证生成音频在时域上的连续性与声学上的自然性。
实验效果如何?
在时间可控音频生成实验中,FreeAudio在AudioCondition测试集上显著优于现有主流方法,全面提升了时间对齐精度与音频质量。
在客观指标方面,FreeAudio在事件级对齐(Eb)、片段级准确率(At)、FAD、KL以及CLAP相似度等多个关键维度均达到最优或次优表现,兼顾了时间控制能力与整体音频质量,并进一步展示了FreeAudio在十类声音事件上的Eb与At表现。
在主观评估中,FreeAudio同样获得了最高的时间一致性与音频可听性评分。
进一步的消融实验表明,Decoupling&Aggregating Attention Control中的两个融合超参数在控制粒度与全局语义保持之间实现了良好平衡,有效提升了系统的可控性和听感稳定性。

在长时音频生成任务中,FreeAudio在AudioCaps和MusicCaps数据集上展现出优越的扩展性与稳定性。

在10秒、26秒和90秒的生成长度,FreeAudio始终在多个指标上表现出色,充分验证了其对不同时长的生成能力。
同时,主观评估结果显示,FreeAudio在音质、连贯性与风格一致性等维度均取得最好效果。

总之,本文提出了FreeAudio,一种新颖的免训练T2A生成框架,在时间条件控制的文本到音频生成任务中展现出优越的性能。
此前生数科技联合清华大学推出的文生音效系统,在全球范围内首个实现了10秒内的精准时间控制商业落地系统,支持独立时间窗音效生成。其标志性功能——多音轨时间窗精准可控(如独立设定动物鸣叫/环境声的时间区间),已通过生数科技Vidu平台落地商用,成为业内领先产业级解决方案。
此次推出的FreeAudio系统更是实现全球首个突破10秒时长限制,解锁了10秒以上场景的文生音效时间精准可控,凭借自主创新的技术方案,解决行业痛点:
-
避免音效版权风险,解决音效匹配难题 -
大幅降低音效制作成本 -
支持多音轨秒级对齐(如环境声+动物鸣叫精准叠加)
FreeAudio系统为音效制作提供了灵活、精准的专业技术解决方案,为专业级影视音效制作打下了坚实技术基础。
未来,团队表示将进一步探索结合自然语言事件描述的训练式时间控制文本到音频生成系统,以提升时间对齐精度和音频生成质量。
在长时音频生成方面,团队计划研究支持更长时长甚至无限长生成的机制,进一步拓展模型的生成范围与稳定性。
此外,团队也希望将本方法拓展至空间音频生成等方向,以支持更多样的听觉场景。
论文链接:https://arxiv.org/abs/2507.08557
Demo链接:https://freeaudio.github.io/FreeAudio/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)