投稿通道归档

GRPO=高级版拒绝采样？强化学习祛魅时刻：负样本“去芜存菁”才是关键！

2025年5月20日16时作者 PaperWeekly

PO 这样的算法虽然主流，但它需要额外的网络（critic network），搞得比较复杂和麻烦。

2025年3月27日23时作者 PaperWeekly

ue Mining”
提出在聚类过程中引入用户交互，通过询问少量高价值样本的类别从属关系，有效缓解了

2024年12月3日14时作者 PaperWeekly

研究问题
当前的 Large Vision Models 多为直接从自然语言处理架构改编，但这些模型