实证:现在的LLM根本不会Reasoning!

MLNLP社区致力于推动国内外自然语言处理领域的学术与行业发展。最新论文指出,热门的大推理模型可能只是在’表演思考’。该论文通过特定谜题揭示了这类模型的问题复杂度上限,并提出了改进方向。

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

大模型在数学推理和解答题上表现参差不齐,多数模型在图像识别方面仍存在问题。总体来看,大模型在复杂推理、严谨论证及多步骤计算能力上有较大提升空间。

一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成

该综述全面调研了3D场景生成领域,将现有方法划分为四大类,并揭示了不同方法在可控性、真实性、效率与一致性之间的权衡,提出了高质量数据瓶颈和评估缺乏统一标准等四大挑战及未来发展方向。

扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反

扩散语言模型在某些关键场景下可能不如自回归模型高效。基于理论分析和实验结果,研究提出应根据任务需求选择合适的目标衡量指标(如流畅度或序列级别准确性和逻辑正确性),从而为实践中如何使用扩散语言模型提供指导。