自然语言处理
实证:现在的LLM根本不会Reasoning!
MLNLP社区致力于推动国内外自然语言处理领域的学术与行业发展。最新论文指出,热门的大推理模型可能只是在’表演思考’。该论文通过特定谜题揭示了这类模型的问题复杂度上限,并提出了改进方向。
ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。
低调升级,实力暴涨!新版 DeepSeek R1,成了 o3 和 Gemini 2.5 的最强平替
DeepSeek R1 推出升级版,推理能力增强、幻觉率下降、支持函数调用,并引入8B小模型辅助教学。新版性能提升显著,已超越开源之王Qwen3。