开源 AI 音视频图文创作神器!一键音视频转文档,支持主流自媒体平台图文风格转换!
AI-Media2Doc是一款支持本地部署的音视频转图文工具,一键生成多种风格文档如公众号文章、小红书文案等,无需依赖FFmpeg。
AI-Media2Doc是一款支持本地部署的音视频转图文工具,一键生成多种风格文档如公众号文章、小红书文案等,无需依赖FFmpeg。
语音交互技术的进步改变了人机对话方式。Maitrix团队发布了全双工、低延迟的Voila开源AI端到端语音模型,支持多语言识别与翻译,并提供了多种个性化角色设置功能。
英伟达发布Parakeet TDT 0.6B V2开源语音识别模型,参数仅600M,平均词错误率(WER)6.05%,可在1秒内完成60分钟音频转录,支持英文,已入驻Hugging Face Open ASR榜单首位。
一款专为Zotero设计的翻译插件zotero-pdf2zh能一键将英文论文翻译成中文,并保留公式和图表。支持多种翻译引擎,提供高质量翻译服务和优化排版功能。
Mad-Professor 是一款开源 AI 学术论文阅读工具,支持 PDF 处理、AI 翻译、智能问答和语音交互等功能,通过个性化角色提供沉浸式学习体验。
一键将GitHub/GitLab仓库转换为交互式Wiki文档,生成结构化文档和Mermaid图表,让开发者快速掌握项目全貌。
一款名为Aero-1-Audio的新型音频模型发布,参数仅有1.5B但性能出色,支持长音频处理、语音识别和音频理解任务。训练时间短且资源占用低,适用于语音助手、实时转写等场景。
Snapdrop 是一个基于浏览器的局域网文件传输工具,无需安装、注册或额外客户端。它利用 WebRTC 和 WebSocket 技术实现跨平台文件共享,安全且匿名,支持多种设备之间的即时文件传输。
多智能体系统正在成为复杂任务自动化的关键工具。Rowboat 是一款基于 OpenAI 的 Agents SDK 的 AI 驱动的多Agent构建器,支持自然语言描述需求生成工作流,并提供丰富的 API 和 SDK 支持。
FastMCP 是一个专门为开发 MCP 服务器和客户端设计的开源 Python 框架。它简化了 MCP 工具开发、加速了服务器搭建,并支持多种 LLM 客户端,只需几行代码即可构建 MCP 服务器或客户端。