GRPO=高级版拒绝采样?强化学习祛魅时刻:负样本“去芜存菁”才是关键! 2025年5月20日16时 作者 PaperWeekly PO 这样的算法虽然主流,但它需要额外的网络(critic network),搞得比较复杂和麻烦。
ICLR 2025 阿里等提出LLaVA-MoD,用MoE+蒸馏训练轻量化多模态大模型 2025年3月7日16时 作者 PaperWeekly 小模型的网络结构,并提出 Dense-to-Sparse 蒸馏框架,结合两阶段蒸馏策略(模仿蒸馏+偏
WWW 2025 TAMU、UIUC等提出全新因素链框架,用于论文-评审人匹配 2025年3月5日23时 作者 PaperWeekly 提交数量的迅速增加,我们越来越依赖有效的论文-评审人匹配模型。此前在这一领域的研究考虑了多种因素来评