助理微信归档 - 每时AI

SFT+RL双阶训练突破LLM自我监督！人大DeepCritic实现AI批判自主进化

2025年6月8日8时作者 PaperWeekly

nguage Models
论文链接：
https://arxiv.org/abs/2505.006