强化学习推理现状 — 理解 GRPO 以及从推理模型论文中获得的新见解 下午11时 2025/04/20 作者 NLP工程化 Sebastian Raschka 分享了关于强化学习推理现状的文章内容,包括理解推理模型、RLHF 基础知识、PPO 算法介绍及 GRPO 的应用等,并探讨了训练推理模型的经验和研究论文。
Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告) 下午4时 2025/04/16 作者 机器之心 业内人已在询问「这个魔法般模型」的出处。 有人对模型效果颇为认可,好奇如何体验。 神秘模型 Moga