英伟达开源6亿参数的语音识别模型Parakeet TDT 0.6B V2
英伟达开源Parakeet TDT 0.6B V2语音识别模型,RTFx 3380排名榜首,具备精准时间戳、智能标点和特殊场景识别能力,支持多种应用场景。
英伟达开源Parakeet TDT 0.6B V2语音识别模型,RTFx 3380排名榜首,具备精准时间戳、智能标点和特殊场景识别能力,支持多种应用场景。
AI-Media2Doc是一款支持本地部署的音视频转图文工具,一键生成多种风格文档如公众号文章、小红书文案等,无需依赖FFmpeg。
OpenAI CEO Sam Altman宣布Instacart CEO Fidji Simo加入OpenAI担任应用部门CEO。Fidji Simo此前是OpenAI董事会成员,她将负责领导新整合的应用部门,加速技术的产品化、规模化和商业化进程。
SGLang团队在开源技术博客中介绍了如何优化DeepSeek模型,在96个H100 GPU上实现了显著性能提升。通过引入PD分解、TBO以及专家重新平衡等策略,提高了预填充和解码阶段的吞吐量,并减少了不平衡现象对性能的影响。
对比开源自动化工具n8n和Dify,n8n适用于复杂工作流自动化,涵盖多种第三方集成;而Dify侧重AI应用开发,原生支持LLM。选择取决于具体需求和团队背景。
多家车企调整智能驾驶宣传口径,小米汽车将‘智驾’修改为辅助驾驶。工信部要求车企明确功能边界并禁止夸大宣传,强调驾驶员必须全程参与控制。此次更名背后反映行业责任与安全的博弈,旨在重建公众对智能驾驶技术的信任。
苹果高管预测未来十年iPhone可能成为历史,引发网友讨论和猜测。话题包括智能眼镜、Neuralink脑机接口技术等替代方案。
HeyGen发布的Avatar IV模型能通过一张照片、一段脚本和声音生成逼真数字人,支持多角度图像输入,不仅能说还能唱。新引擎根据语音节奏自动生成表情和动作,应用场景广泛。