AI音频生成重要突破!超10秒精准可控免训练,清华×生数科技最新研究被ACM顶会收录
清华大学与生数科技合作研发的FreeAudio系统突破10秒时长限制,实现精准时间控制和长时音频生成,3大核心技术包括LLM规划、解耦与聚合注意力控制及上下文潜变量合成等。该系统在多项指标上得分最优,在主观评估中质量最高。未来或将在Vidu产品端上线,并计划进一步探索更长时间段的音频生成技术。
清华大学与生数科技合作研发的FreeAudio系统突破10秒时长限制,实现精准时间控制和长时音频生成,3大核心技术包括LLM规划、解耦与聚合注意力控制及上下文潜变量合成等。该系统在多项指标上得分最优,在主观评估中质量最高。未来或将在Vidu产品端上线,并计划进一步探索更长时间段的音频生成技术。
文生音频系统FreeAudio实现精确时间控制与90秒长时音频生成,相比现有方法具有显著提升。它无需额外训练即可同时支持时间和长时生成,并在多个指标上优于主流方法。
本文介绍了国内CVC在人工智能领域的投资情况,主要分为互联网平台企业、AI企业及其他行业的头部公司三大类。腾讯、百度等传统巨头长期坚定投资AI,而京东、字节跳动等中途“下车”。智谱AI旗下的星连资本成为后来者居上代表,投资总量迅速增至28起。腾讯在AI领域的投资数量近年来有所减少,而百度则积极扩展至A轮投资。
AI视频生成领军公司生数科技在B端快速取得多项合作进展,并在多个领域实现爆发式增长。其Vidu模型已登顶文生视频全球榜单双第一,同时覆盖泛互娱、动漫短剧、广告营销等多个重点领域,成为行业头部覆盖率第一的公司。
生数科技Vidu Q1发布,支持仅两张图片和一段文本提示生成高清5秒1080p视频,并提供高保真音效功能,支持精细化时间控制和多段音效叠加。该模型在提示词保真度、帧连贯性及渲染效率上表现突出,成本低至每秒0.3元。
多模态生成技术推动AI视频创作新阶段,生数科技产品副总裁廖谦分享了其对于多模态大模型终局的看法及应用场景。视频生成领域迎来黄金发展期,预计2024年将出现重大突破。
原字节跳动AI大将骆怡航加入生数科技担任CEO,全面负责公司研发、产品、商业化及团队管理工作。唐家渝仍保留总裁一职,专注于战略发展和品牌等核心职能。