100行代码打造迷你编程Agent:能修复65%真实项目bug,适配所有大模型

全新开源项目mini-SWE-agent仅用100行Python代码,实现轻量级编程代理,兼容所有主流语言模型。其架构简洁,仅需基础命令即可运行,支持本地终端部署和使用。它能在SWE-bench上解决约65%的问题,相比原版几乎相同水平。

普林斯顿团队领衔发布最强开源数学定理证明模型:32B性能大幅超越前代SOTA DeepSeek 671B

普林斯顿大学联合多所顶尖机构推出Goedel-Prover-V2模型,实现形式化数学推理的新突破。该模型在MiniF2测试集上性能超越DeepSeek-Prover-671B和Kimina-Prover-72B。

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

中国人民大学等机构的研究者提出MoCa框架,通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能,在多种任务上优于现有模型。

人类打辩论不如GPT-4?!Nature子刊:900人实战演练,AI胜率64.4%,还更会说服人

研究发现,GPT-4提前知晓对手个人信息的情况下,在辩论中胜率高达64.4%,且说服效果提升81.2%。研究还表明低、中强度话题更易被GPT-4影响,而人类则重情感互动。

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

论文提出MMaDA,首个系统性探索扩散架构的多模态基础模型,实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色,并通过混合长链思维微调和统一策略梯度优化提升性能。

52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解

谷歌Gemini 2.5 Pro在模型训练和推理优化方面取得突破,Vlad Feinberg揭秘其核心技术。通过经典扩展定律、推理优化扩展定律以及知识蒸馏技术,谷歌找到了最优解,在资源有限的情况下实现了性能提升。