自动定理证明者归档

形式化证明迈向多模态，MLLM正确率仅4%！港科大等推出全新基准

2025年6月18日8时作者新智元

香港科技大学推出MATP-BENCH基准测试集，评估多模态大模型在处理包含图像和文本的几何定理证明中的能力。实验发现尽管模型在将图文信息转化为形式化定理方面有一定能力，在构建完整证明时面临复杂逻辑推理和辅助线构造等重大挑战。