打破“思考陷阱”:DuP-PO算法让AI推理更高效

MLNLP社区致力于促进国内外自然语言处理与机器学习领域内的交流合作。近期,一篇名为《Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model》的论文探讨了大型推理模型在简单任务中的过度思考问题,并提出了一种新算法DuP-PO以提高模型效率。

大型语言模型的“推理升级”:自适应策略让AI更聪明

MLNLP社区发布了一篇关于提升大型语言模型复杂推理能力的研究论文《MixtureofReasoning》。文章提出一种新的训练框架MoR,使模型能够自主选择和应用多种推理策略,显著提升了模型在多个数据集上的表现。

多模态数学推理新突破:多样化视角让模型“开窍”!

MLNLP社区发布了关于多模态数学推理的研究论文《Multimodal Mathematical Reasoning with Diverse Solving Perspective》。该研究提出了一种新的数据集MathV-DP,以及基于Qwen-VL模型的Qwen-VL-DP,旨在提升大型多模态语言模型在数学推理任务中的表现,并强调了从多样化的解题视角学习的重要性。