首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
Voxtral 是由 Mistral AI 开源的首个语音智能模型系列,包含 24B 参数和 3B 参数的 Voxtral Small 和 Voxtral Mini。它支持长音频转录、语义理解以及多语言处理,并能根据语音触发 API 或生成摘要。成本不到同类闭源方案的一半,适用于企业生产环境部署。
Voxtral 是由 Mistral AI 开源的首个语音智能模型系列,包含 24B 参数和 3B 参数的 Voxtral Small 和 Voxtral Mini。它支持长音频转录、语义理解以及多语言处理,并能根据语音触发 API 或生成摘要。成本不到同类闭源方案的一半,适用于企业生产环境部署。
AlphaFold因获得诺奖而声名大噪,但其原型早在2016年就已提出。Vladimir Golkov在NeurIPS上发表的研究揭示了利用深度神经网络预测蛋白质接触图的方法。AI学术大佬如Yann LeCun和Pierre Baldi指出,在DeepMind之前已有使用深度学习进行类似工作的研究,强调科学探索的传承与发展的重要性。
PhysRig是UIUC与Stability AI联合提出的一种新的角色动画技术,通过引入可微分物理模拟替代传统LBS方法,显著提升了角色动画的真实感,解决了体积丢失和变形伪影问题。
2015年发表的Batch Normalization论文在ICML 2025会议上荣获时间检验奖。这篇开创性工作极大地推动了深层神经网络的训练和应用,是深度学习发展史上的里程碑。
微软微调出高质量合成数据的Phi-4-mini-Flash-Reasoning 3B模型,采用SambaY解码器架构支持64K上下文长度,提供逻辑密集型任务高性能。
过去半年,开源Agent在解决复杂问题上屡屡受挫,而阿里通义发布的WebSailor模型通过构造L3级别合成数据和DUPO精调算法大幅提升训练效果,为开源Agent挑战闭源系统提供了新思路。