FormalMATH 归档

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

2025年5月7日23时作者量子位

香港中文大学等机构联合推出FormalMATH基准测试，包含5560道经过验证的数学题。尽管大语言模型在自然语言处理和代码生成领域表现优异，但在数学定理证明任务中成功率仅为16.46%。研究提出了一套三阶段过滤框架用于自动形式化和语义一致性检测，并分析了现有LLM证明器的表现，发现代数较强而微积分较弱，存在滥用自动化策略的问题。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31