开源星探，作者每时AI

开源 AI 音视频图文创作神器！一键音视频转文档，支持主流自媒体平台图文风格转换！

2025年5月9日8时作者开源星探

AI-Media2Doc是一款支持本地部署的音视频转图文工具，一键生成多种风格文档如公众号文章、小红书文案等，无需依赖FFmpeg。

2025年5月8日8时作者开源星探

语音交互技术的进步改变了人机对话方式。Maitrix团队发布了全双工、低延迟的Voila开源AI端到端语音模型，支持多语言识别与翻译，并提供了多种个性化角色设置功能。

2025年5月7日8时作者开源星探

英伟达发布Parakeet TDT 0.6B V2开源语音识别模型，参数仅600M，平均词错误率（WER）6.05%，可在1秒内完成60分钟音频转录，支持英文，已入驻Hugging Face Open ASR榜单首位。

2025年5月5日8时作者开源星探

一款专为Zotero设计的翻译插件zotero-pdf2zh能一键将英文论文翻译成中文，并保留公式和图表。支持多种翻译引擎，提供高质量翻译服务和优化排版功能。

2025年5月4日8时作者开源星探

Mad-Professor 是一款开源 AI 学术论文阅读工具，支持 PDF 处理、AI 翻译、智能问答和语音交互等功能，通过个性化角色提供沉浸式学习体验。

2025年5月3日8时作者开源星探

一键将GitHub/GitLab仓库转换为交互式Wiki文档，生成结构化文档和Mermaid图表，让开发者快速掌握项目全貌。

2025年5月2日8时作者开源星探

一款名为Aero-1-Audio的新型音频模型发布，参数仅有1.5B但性能出色，支持长音频处理、语音识别和音频理解任务。训练时间短且资源占用低，适用于语音助手、实时转写等场景。

2025年5月1日8时作者开源星探

Snapdrop 是一个基于浏览器的局域网文件传输工具，无需安装、注册或额外客户端。它利用 WebRTC 和 WebSocket 技术实现跨平台文件共享，安全且匿名，支持多种设备之间的即时文件传输。

2025年4月30日23时作者开源星探

多智能体系统正在成为复杂任务自动化的关键工具。Rowboat 是一款基于 OpenAI 的 Agents SDK 的 AI 驱动的多Agent构建器，支持自然语言描述需求生成工作流，并提供丰富的 API 和 SDK 支持。

2025年4月29日8时作者开源星探

FastMCP 是一个专门为开发 MCP 服务器和客户端设计的开源 Python 框架。它简化了 MCP 工具开发、加速了服务器搭建，并支持多种 LLM 客户端，只需几行代码即可构建 MCP 服务器或客户端。