大语言模型离“数学证明高手”还有多远?斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准 2025年7月17日16时 作者 AI前线 ,这些模型真的理解了推理过程吗?还是只是看起来“像那么回事”就蒙出来的? 不等式问题是检验模型“真会
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗? 2025年5月12日16时 作者 机器之心 CoRT(Chain-of-Recursive-Thoughts)结合递归思考与自我批判,提升语言模型推理能力。两周内GitHub星标数突破2k。