奥数级不等式证明归档

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

2025年6月19日16时作者量子位

29个顶级大模型在不等式证明任务上的能力被首次系统评估，研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。