编程测试归档

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

2025年6月18日23时作者量子位

参赛大模型全军覆没，通通0分。LiveCodeBench Pro测试揭示了LLMs在算法逻辑深度上的不足，尽管表现最佳的模型在中等难度题上的一次通过率仅53%。

2025年5月11日16时作者量子位

华为与中科院提出DEER模型，通过动态提前退出推理机制，在保持精度的同时显著缩短大模型的思维链长度。

2025年2月26日14时作者 AI先锋官

作者发布了一篇关于QwQ-Max-Preview推理模型的文章，这是继QwQ-32B-Preview之后通义千问团队推出的又一新模型。文章介绍了该模型的基础模型为Qwen2.5-Max，并展示了其在编程、数学等任务中的强大表现。