0%通过率!Code神话泡沫!LiveCodeBenchPro发布!

MLNLP社区是国内知名的人工智能与自然语言处理学术社群,旨在促进跨学科交流合作。近期,该团队揭穿了大模型在编程比赛中表现不佳的事实,并提出了改进方法以提升AI能力。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

本文介绍了一项研究,发现大多数语言模型缺乏人类的工作记忆能力。通过三组实验测试,表明模型在猜数字、是非问答和数学魔术任务中均无法有效保留信息。

AI辩论能力碾压人类,81.7%概率让你信服!研究登Nature子刊

一项新研究表明,大模型在在线辩论中比人类更具说服力。该研究指出,在了解对手个人信息的情况下,使用GPT-4的参与者有更高的概率改变观点。研究还显示,大模型写作风格具有显著特征,易被察觉。专家呼吁加强监管,防止大模型用于操纵舆论。

10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

上海人工智能实验室联合团队提出Avengers框架,通过四个轻量步骤集合多个小型模型实现复杂任务的高效解决。结果证明,在无需额外训练的情况下,Avengers框架能够达到甚至在某些方面超越顶尖大型模型的水平。