学术热点归档 - 每时AI

GRPO=高级版拒绝采样？强化学习祛魅时刻：负样本“去芜存菁”才是关键！

2025年5月20日16时作者 PaperWeekly

PO 这样的算法虽然主流，但它需要额外的网络（critic network），搞得比较复杂和麻烦。

ICLR 2025 阿里等提出LLaVA-MoD，用MoE+蒸馏训练轻量化多模态大模型

2025年3月7日16时作者 PaperWeekly

小模型的网络结构，并提出 Dense-to-Sparse 蒸馏框架，结合两阶段蒸馏策略（模仿蒸馏+偏

WWW 2025 TAMU、UIUC等提出全新因素链框架，用于论文-评审人匹配

2025年3月5日23时作者 PaperWeekly

提交数量的迅速增加，我们越来越依赖有效的论文-评审人匹配模型。此前在这一领域的研究考虑了多种因素来评

从谱范数梯度到新式权重衰减的思考

2025年1月14日8时作者 PaperWeekly

©PaperWeekly 原创 · 作者 |
苏剑林
单位 |
科学空间
研究方向 |
NLP、神经