ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。
本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。
谷歌Gemini 2.5 Pro在模型训练和推理优化方面取得突破,Vlad Feinberg揭秘其核心技术。通过经典扩展定律、推理优化扩展定律以及知识蒸馏技术,谷歌找到了最优解,在资源有限的情况下实现了性能提升。
MLNLP社区是国内外知名的人工智能社区,致力于促进学术交流。该领域内的三篇论文讨论了强化学习在大模型训练中的作用,并指出模型的推理能力大部分已在预训练阶段形成,RL更多起到优化选择路径的作用。
清华大学研究指出,强化学习虽能提升大模型在特定任务上的表现,但可能并未拓展其整体推理能力边界。研究通过pass@k评估发现基础模型在高尝试机会下也能追上甚至超越经过强化学习训练的模型。这表明当前RL技术主要提升的是采样效率而非新解法生成。
文章介绍了Gemma-3和DeepSeek V3在参数量上的对比,并指出模型效果不仅仅取决于参数大小。通过详细解释Dense和MoE架构的区别及其实际应用效果,强调了参数数量并不能直接反映模型性能优劣的观点。同时讨论了知识蒸馏技术如何让小模型继承大模型的能力,而不仅仅是关注模型的规模大小。
OpenAI的o1和DeepSeek的R1模型在复杂领域达到人类专家水平,AlphaDrive提出一种强化学习和推理训练框架用于自动驾驶规划,显著提升规划准确率并降低成本。
港科大Harry Yang团队联合Everlyn AI提出LightGen模型,仅需8张GPU训练即可实现近SOTA的高质量图像生成效果。该模型采用数据蒸馏和直接偏好优化策略,显著降低了数据规模与计算资源需求。
2025年中国AI产业逐浪者榜单启动征集,旨在评选在多领域创新和落地的先锋企业。涵盖AI芯片、算力基础设施、大模型等七个子领域,要求公司主营业务属上述细分领域的非上市公司,并满足成立时间、融资情况及商业化进展等条件。