53% 归档 - 每时AI

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

2025年6月18日23时作者量子位

参赛大模型全军覆没，通通0分。LiveCodeBench Pro测试揭示了LLMs在算法逻辑深度上的不足，尽管表现最佳的模型在中等难度题上的一次通过率仅53%。

2025年5月5日23时作者机器之心

研究人员提出了一种自我改进编码智能体（SICA），能够编辑自己的代码库，并在成本、速度和基准性能方面进行自我改进，该研究展示了自我参照式元智能体编程的可行性。

2025年3月31日16时作者新智元

两家期刊实验表明，给评审人员约250美元报酬能加快评审速度而不降低质量。但专家警告，这可能改变科研生态并带来新问题。