AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT 2025年6月19日16时 作者 量子位 29个顶级大模型在不等式证明任务上的能力被首次系统评估,研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。