开源星探
12K Star 适配多场景!MarkItDown:微软开源多格式文档处理工具,轻松将文件转为 Markdown 格式!
一款多功能文档处理工具MarkItDown由微软开源提供,支持PDF、Office文档、图片、音频等多种格式文件转换为Markdown格式,具备OCR文字识别、语音转文字等功能。适用于文档批量处理、索引检索和数据分析等场景。
今日软荐:MSST WebUI:一个集成了音源分离训练框架和 UVR(终极人声消除器)的强大 Web 界面。
MSST 是一款集成了音源分离训练框架和UVR(终极人声消除器)的强大Web界面工具,提供直观的用户界面、灵活的自定义处理流程以及多种预训练模型支持,满足音频爱好者和专业工作者的需求。
西工大与微软等开源AI说唱模型!Freestyler:让AI成为你的说唱歌手!
西北工业大学与微软等团队联合推出开源项目Freestyler,能根据歌词和伴奏直接生成自然流畅的说唱人声,模仿指定歌手音色。
高质量表情动图生成!用一张照片和音频,即能生成会说话的表情视频。
ComfyUI-IF_MemoAvatar是一款基于MEMO技术的插件,通过分析面部特征和音频生成富有表现力的表情丰富的动态视频。它支持Windows和Linux用户使用,并具备高质量视频输出、情感表达转移等特色功能。