大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背  MathFusion

MathFusion团队提出了一种新的方法,通过指令融合增强大语言模型解决数学问题的能力。仅使用45K的合成指令,在多个基准测试中平均准确率提升了18.0个百分点。MathFusion通过顺序、并列和条件三种融合策略将不同数学问题巧妙结合生成新问题,显著提升模型性能与数据效率,并在in-domain和out-of-domain基准测试中均表现出优越表现。

不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B

上海人工智能实验室与中国人民大学提出GRA框架,通过多人协作机制让小模型协同生成高质量训练数据,其生成的数据质量媲美甚至优于单个大型语言模型。

速递|哈佛工程师辍学创业5年,AI衣橱Alta获1100万美元种子轮融资

Clay
28岁的Jenny Wang在科技行业工作多年,开发了一款个人造型助手Alta,帮助用户根据预算、生活方式、天气和日程安排选择穿搭与购物。她最近宣布获得Menlo Ventures领投的1100万美元种子轮融资,并计划通过AI技术提供个性化虚拟形象试穿建议。

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

新智元报道
莱斯大学、约翰霍普金斯大学以及英伟达的研究人员提出了一种新的AI训练范式ViGaL,通过让7B参数的多模态模型玩简单街机游戏来培养其跨领域的推理能力。研究发现,这种模型不仅在复杂的数学和几何任务上超过了GPT-4o等顶级闭源大模型,还保持了较强的通用视觉能力。

突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star

港大、camel-ai 等机构提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试上取得69.70%准确率,超越多家商业系统和开源方案。该研究将系统分解为规划器、协调器和工作节点三个核心组件,通过解耦设计实现跨领域迁移,并采用两阶段优化训练策略提升规划器能力。