大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 MathFusion
MathFusion团队提出了一种新的方法,通过指令融合增强大语言模型解决数学问题的能力。仅使用45K的合成指令,在多个基准测试中平均准确率提升了18.0个百分点。MathFusion通过顺序、并列和条件三种融合策略将不同数学问题巧妙结合生成新问题,显著提升模型性能与数据效率,并在in-domain和out-of-domain基准测试中均表现出优越表现。
MathFusion团队提出了一种新的方法,通过指令融合增强大语言模型解决数学问题的能力。仅使用45K的合成指令,在多个基准测试中平均准确率提升了18.0个百分点。MathFusion通过顺序、并列和条件三种融合策略将不同数学问题巧妙结合生成新问题,显著提升模型性能与数据效率,并在in-domain和out-of-domain基准测试中均表现出优越表现。
lexandr Wang)并获得了 Scale AI 的股份。
• 谈判开始时
Meta
与
Sc
上海人工智能实验室与中国人民大学提出GRA框架,通过多人协作机制让小模型协同生成高质量训练数据,其生成的数据质量媲美甚至优于单个大型语言模型。
编程新王DeepSeek-R1成功晋级,与Gemini 2.5 Pro、Claude Opus 4并列第一。AI领域进展迅速,OpenAI仍占主导地位,谷歌和Meta也有增长机会。
Clay
28岁的Jenny Wang在科技行业工作多年,开发了一款个人造型助手Alta,帮助用户根据预算、生活方式、天气和日程安排选择穿搭与购物。她最近宣布获得Menlo Ventures领投的1100万美元种子轮融资,并计划通过AI技术提供个性化虚拟形象试穿建议。
DeepSeek新版R1-0528在编程能力测试中表现突出,能在网页编程上击败Claude Opus 4。实测显示其能快速生成太阳系动画、AGI主题网站及俄罗斯方块游戏代码,并且对国内用户更为友好。
新智元报道
莱斯大学、约翰霍普金斯大学以及英伟达的研究人员提出了一种新的AI训练范式ViGaL,通过让7B参数的多模态模型玩简单街机游戏来培养其跨领域的推理能力。研究发现,这种模型不仅在复杂的数学和几何任务上超过了GPT-4o等顶级闭源大模型,还保持了较强的通用视觉能力。
港大、camel-ai 等机构提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试上取得69.70%准确率,超越多家商业系统和开源方案。该研究将系统分解为规划器、协调器和工作节点三个核心组件,通过解耦设计实现跨领域迁移,并采用两阶段优化训练策略提升规划器能力。