ICML2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

多模态理解与生成新方法ThinkDiff在ICML2025上提出,仅需少量数据和计算资源,让扩散模型具备推理能力,并通过视觉-语言训练和掩码策略传递VLM的多模态推理能力,大幅提高图像生成质量。

普林斯顿团队领衔发布最强开源数学定理证明模型:32B性能大幅超越前代SOTA DeepSeek 671B

普林斯顿大学联合多所顶尖机构推出Goedel-Prover-V2模型,实现形式化数学推理的新突破。该模型在MiniF2测试集上性能超越DeepSeek-Prover-671B和Kimina-Prover-72B。

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文提出首个大模型推理任务可靠性基准ReliableMath,揭示现有模型在处理无法解问题时的缺陷,并设计了用于评估可靠性的方法和数据集。通过实验分析发现,使用指令性提示可以显著提高模型对不可解问题的回答准确性及可靠性,但小模型仍存在提升空间。