新型开源端到端 AI 语音模型!Voila:195ms 超低延迟引领全双工对话!

语音交互技术的进步改变了人机对话方式。Maitrix团队发布了全双工、低延迟的Voila开源AI端到端语音模型,支持多语言识别与翻译,并提供了多种个性化角色设置功能。

英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

英伟达发布Parakeet TDT 0.6B V2开源语音识别模型,参数仅600M,平均词错误率(WER)6.05%,可在1秒内完成60分钟音频转录,支持英文,已入驻Hugging Face Open ASR榜单首位。

2.3K 标星!开源AI多智能体构建器,轻松打造复杂工作流,MCP集成!

多智能体系统正在成为复杂任务自动化的关键工具。Rowboat 是一款基于 OpenAI 的 Agents SDK 的 AI 驱动的多Agent构建器,支持自然语言描述需求生成工作流,并提供丰富的 API 和 SDK 支持。