腾讯祭出开源核弹！LeVo音乐生成模型，媲美Suno，支持零样本风格迁移，歌词完美匹配

音乐生成领域迎来重磅突破！腾讯AI Lab最新开源了一款高保真音乐生成模型：LeVo。

近年来，大型语言模型（LLMs）和语音模型的进步显著提升了音乐生成，特别是在歌词到歌曲的生成方面。

然而，现有方法在歌曲的复杂结构和高质量数据的稀缺性上仍面临挑战，导致音质、音乐性、指令遵循和声乐-乐器和谐方面的局限性。

所以为了解决这些挑战，腾讯AI实验室引入了 LeVo，一个基于LM的框架，由LeLM和音乐编解码器组成。

LeLM能够并行建模两种类型的标记：混合标记，代表人声和伴奏的混合音频，以实现人声-乐器和谐，以及双轨标记，分别编码人声和伴奏，用于高质量歌曲生成。

它采用两个仅解码器的Transformer和一个模块化扩展训练策略，以防止不同标记类型之间的干扰。

为了进一步增强音乐性和指令遵循，还引入了一种基于直接偏好优化（DPO）的多偏好对齐方法。该方法通过半自动数据构建过程和DPO微调处理多样化的用户偏好。

实验结果表明，LeVo在客观和主观指标上均优于现有方法。

LeVo支持零样本风格迁移，可根据参考音频或文本描述生成特定风格和情感的歌曲。支持中英文歌曲生成，歌词匹配度方面超Suno等闭源模型。

核心功能

• 高保真歌曲生成：支持中英文歌词，生成48kHz立体声音频，音质媲美Suno。
• 零样本风格迁移：根据参考音频提取风格、节奏、音色，生成类似歌曲。
• 文本控制生成：通过描述（如“男声、悲伤、流行、钢琴/鼓”）控制歌曲风格和情感。
• 双轨建模：支持混合令牌（人声+伴奏）和双轨令牌（分开编码人声和伴奏），确保人声-乐器和谐。
• 模块化训练：使用双解码器Transformer和模块化扩展训练策略，避免令牌干扰。

快速部署

如果想直接体验的，官方有部署好的Hugging Face应用空间，可直接访问试用。

对于有本地部署需求的可按照下面步骤进行。部署环境要求：Python>=3.8.12和CUDA>=11.8。

克隆项目：

git clone https://github.com/tencent-ailab/SongGeneration.git

安装依赖：

pip install -r requirements.txt --no-deps
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.6.3/flash_attn-2.6.3+cu118torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

也可以通过Docker快速部署启动：

docker pull juhayna/song-generation-levo:v0.1
docker run -it --gpus all --network=host juhayna/song-generation-levo:v0.1 /bin/bash

同时开源社区已有搭建对接好的ComfyUI工作流供使用：

https://github.com/smthemex/ComfyUI_SongGeneration

对于输入格式，都有严格的结构，可以参考 sample/lyrics.jsonl 示例文件和项目文档进行操作（由于指南内容相对过多，这里就省略了）。

适用场景

LeVo的高保真和灵活控制让它适用于多种场景：

• 短视频BGM：生成流行/爵士背景音乐，适配抖音、YouTube。
• 歌曲Demo：快速生成中英文歌曲草稿，音乐人试水创意。
• 游戏音效：为RPG生成“悲伤钢琴”主题曲。
• 播客配乐：定制“温暖男声”开场曲，提升氛围。
• 风格实验：用参考音频迁移爵士到摇滚，探索新流派。

写在最后

LeVo 的开源代码和权重，也会降低音乐生成门槛，对于更多音乐数据训练提供进一步研究。

双轨建模和DPO优化确保高保真输出，零样本风格迁移满足多样化创作需求。

也相信腾讯AI Lab未来对于优化LeVo有更加深入的计划，比如：更长音乐生成、更多语言扩展、实时生成等方面。

国产大模型（多模态、语音、音乐等）正在一步步走向世界，国产AI也必将走向全世界，在此为他们点个赞。

GitHub 项目地址：https://github.com/tencent-ailab/songgeneration/

HF 体验地址：https://huggingface.co/spaces/tencent/SongGeneration

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

核心功能

快速部署

适用场景

写在最后

发表评论 取消回复

发表评论取消回复