一招将模型推理能力暴拉12%,开源版o3 指日可待?!

一位研究人员利用周末时间将谷歌PaliGemma2-3B-448px模型性能提升了18%,展示了小型化AI模型的强大潜力。该研究通过使用Gemini 2.0 Flash Thinking的能力,增强了基础模型在识别和推理任务中的表现。

12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究

Google DeepMind联合研究者发现不同模型组的智能体在游戏中表现出不同的合作倾向。Claude与Sonnet偏好合作,而GPT-4o则倾向于自私。实验通过引入惩罚机制来探索模型的合作行为影响。

见证历史!AI想的科研idea,真被人类写成论文发表了

AI提出的想法被人类写成论文。一篇关于神经网络中的最小描述长度与’grokking’现象关系的研究,揭示了训练过程中模型复杂性的动态变化,并提出了基于失真压缩的新方法来衡量神经网络的复杂性。

限定120分钟科研挑战,o1和Claude表现超越人类

人类VS AI的科研能力大比拼:基于Claude 3.5 Sonnet和o1-preview构建的智能体2小时内表现远超人类专家,但随着时间增加,人类专家的表现更为显著。研究显示AI更适合处理大量并行的短期任务,而人类更适应复杂长时间的研究。