效率飙升10倍!开源AI视频剪辑工具,DeepSeek+豆包驱动,语义搜索+智能分段!

PreenCut 是一款基于AI的视频剪辑工具,支持高精度语音转录、智能分段、自然语言搜索等功能,通过可视化操作界面实现本地部署和批量处理。它适合教育内容整理、影视后期制作等多种场景。

字节开源了一款多主体视频模型!掩码黑科技解锁多主体丝滑控制!

字节跳动MAGREF项目通过掩码引导机制实现了连贯多主体视频生成,支持单人、多人及人物+物品组合。该框架采用像素级通道拼接和区域感知动态掩码技术,生成自然流畅的多主体视频。

21.7K 标星的开源TTS!FishAudio开源情感语音核弹:200万小时炼成“声优AI”!

FishAudio团队发布了全新的OpenAudio S1语音模型,在TTS-Arena榜单上荣登第一名。该模型基于200万小时音频数据训练,支持50+情感标记和多种语言,提供了旗舰版S1(4B参数)和开源版S1-mini(0.5B参数)。

告别天价API账单!开源Chatterbox语音服务器上线,隐私与效率双赢!

Chatterbox-TTS-Server 是一款基于Resemble AI的TTS模型的开源自托管语音合成服务器,提供Web UI、声音克隆、长文本处理等功能,并支持GPU加速和Docker部署。它适用于网站文章朗读、播客生成等场景。

轻量级语音模型Vui开源,支持本地部署,笑声停顿全拟真,4万小时练出人类对话感!

近日,Fluxions-AI团队开源了一款轻量级设备端语音对话模型Vui,能够生成流畅且逼真的自然对话,并模拟语气词、笑声和犹豫等非语言元素,适用于智能助手、播客生成及客服AI等多种场景。