网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
DeepSeek新版R1-0528在编程能力测试中表现突出,能在网页编程上击败Claude Opus 4。实测显示其能快速生成太阳系动画、AGI主题网站及俄罗斯方块游戏代码,并且对国内用户更为友好。
DeepSeek新版R1-0528在编程能力测试中表现突出,能在网页编程上击败Claude Opus 4。实测显示其能快速生成太阳系动画、AGI主题网站及俄罗斯方块游戏代码,并且对国内用户更为友好。
新智元报道
莱斯大学、约翰霍普金斯大学以及英伟达的研究人员提出了一种新的AI训练范式ViGaL,通过让7B参数的多模态模型玩简单街机游戏来培养其跨领域的推理能力。研究发现,这种模型不仅在复杂的数学和几何任务上超过了GPT-4o等顶级闭源大模型,还保持了较强的通用视觉能力。
港大、camel-ai 等机构提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试上取得69.70%准确率,超越多家商业系统和开源方案。该研究将系统分解为规划器、协调器和工作节点三个核心组件,通过解耦设计实现跨领域迁移,并采用两阶段优化训练策略提升规划器能力。
MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,参数规模4560亿,在复杂的软件工程、工具使用和长上下文任务方面优于DeepSeek-R1。研究人员使用512块H800训练三周,成本约385.9万元。