月之暗面最新开源模型!Kimi-Audio:革新多模态音频处理,统一音频理解、生成与对话!
Kimi-Audio 是一款由 Moonshot AI 开源的音频基础模型,基于 Qwen 2.5-7B 构建,支持 ASR、AQA、SER 等多种任务,具有高效流式生成和开源评估工具包等特性。
Kimi-Audio 是一款由 Moonshot AI 开源的音频基础模型,基于 Qwen 2.5-7B 构建,支持 ASR、AQA、SER 等多种任务,具有高效流式生成和开源评估工具包等特性。
一款名为Suna的开源项目通过自然语言对话和多种功能(如浏览器自动化、文件管理、网络爬虫和API集成)帮助用户简化复杂任务。支持市场调研、行程规划等,并提供本地部署指南。
NodeRAG 是一种基于异构图的 RAG 增强系统,通过结构化关系网整合文本、数据等多元信息,显著提升检索精准度和生成质量。它支持增量式更新,细粒度检索,并提供可视化和Web界面。
由Nari Labs开发的Dia-1.6B因其逼真的对话生成能力而受到关注,仅开源两天便在GitHub收获了6.5K+Star。它支持多角色对话、拟人化表达、零样本声纹克隆等功能,并且运行效率高,音质媲美ElevenLabs和Sesame。
一款名为WatermarkRemover-AI的开源AI水印移除工具利用微软Florence-2模型和LaMA模型精准识别并修复水印,支持单张图片与批量处理,效果自然且惊艳。
一款免费、开源的音乐创作与编辑工具OpenUtau,兼容UTAU库和采样器,支持VSQX导入等强大功能,适用于Windows、macOS和Linux。
一款名为BiliNote的AI视频笔记助手,支持B站、YouTube等平台视频链接输入,自动提取内容并生成Markdown格式笔记,利用Fast-Whisper和OpenAI等模型提升效率。
ControlNet 作者张吕敏(Liyuan Zhang)发布FramePack技术,让普通RTX3060笔记本也能生成高质量长视频,仅需6GB显存。FramePack提出了一种逐帧预测架构,解决了遗忘与漂移问题,大幅提升连贯性和质量,现已在GitHub上获得3.2K星。