如今的Reasoning模型都不具备批判性思维!简单问题, Overthinking!离谱

MLNLP社区是一个国际化的机器学习与自然语言处理社区,致力于促进学术界、产业界及爱好者间的交流合作。最新研究表明,大型语言模型在遇到缺乏关键信息的问题时容易陷入无效思考。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

最新研究揭示了大模型解决常见英语谜题的局限性,如DeepSeek R1常常放弃给出错误答案。研究人员创建了一个包含近600个问题的新基准测试,并发现在使用超过3000个令牌后继续推理对提升准确率帮助不大。