形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准
香港科技大学推出MATP-BENCH基准测试集,评估多模态大模型在处理包含图像和文本的几何定理证明中的能力。实验发现尽管模型在将图文信息转化为形式化定理方面有一定能力,在构建完整证明时面临复杂逻辑推理和辅助线构造等重大挑战。
香港科技大学推出MATP-BENCH基准测试集,评估多模态大模型在处理包含图像和文本的几何定理证明中的能力。实验发现尽管模型在将图文信息转化为形式化定理方面有一定能力,在构建完整证明时面临复杂逻辑推理和辅助线构造等重大挑战。