决策能力归档

谷歌发现LLM是Greedy Agent，提出用RL调教出理性决策

MLNLP社区是国内外知名的机器学习与自然语言处理社区，旨在促进学术界、产业界和爱好者的交流与进步。最新论文揭示了大模型决策中的三大缺陷，并通过强化学习微调结合思维链技术提升其决策能力。

MLNLP社区致力于促进机器学习与自然语言处理领域的学术交流与进步。文章介绍了如何解决大型推理模型（LRMs）带来的冗余思考问题，包括字数预算、双系统切换、模型路由等方法，并探讨了未来高效推理的发展方向。

2025年2月8日12时作者新智元

MVoT。新方法可以边推理，边「想象」，同时利用文本和图像信息学习，在实验中比CoT拥有更好的可解释