面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文提出首个大模型推理任务可靠性基准ReliableMath,揭示现有模型在处理无法解问题时的缺陷,并设计了用于评估可靠性的方法和数据集。通过实验分析发现,使用指令性提示可以显著提高模型对不可解问题的回答准确性及可靠性,但小模型仍存在提升空间。

快慢Reasoning综述!

MLNLP社区致力于促进国内外NLP学术与产业发展间的交流合作。文章介绍了一种双层效率优化框架,包括可控计算(L1)和自适应计算(L2),通过大量实验揭示了语言模型在复杂推理任务中的低效性问题,并提出了一系列解决方案以提升其效能。