沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

新智元报道
莱斯大学、约翰霍普金斯大学以及英伟达的研究人员提出了一种新的AI训练范式ViGaL,通过让7B参数的多模态模型玩简单街机游戏来培养其跨领域的推理能力。研究发现,这种模型不仅在复杂的数学和几何任务上超过了GPT-4o等顶级闭源大模型,还保持了较强的通用视觉能力。

突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star

港大、camel-ai 等机构提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试上取得69.70%准确率,超越多家商业系统和开源方案。该研究将系统分解为规划器、协调器和工作节点三个核心组件,通过解耦设计实现跨领域迁移,并采用两阶段优化训练策略提升规划器能力。

MiniMax开源首个推理模型!456B参数,性能超DeepSeek-R1,技术报告公开

MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,参数规模4560亿,在复杂的软件工程、工具使用和长上下文任务方面优于DeepSeek-R1。研究人员使用512块H800训练三周,成本约385.9万元。