GPT-3归档 - 每时AI

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

下午4时 2025/03/24 作者机器之心

设计 RLHF 的奖励模型时也是一样。
我们知道，一个 RLHF 算法是否成功的一大关键在于其奖励模

上午8时 2025/03/14 作者 NLP工程化

国内外研究者综述了LLM的后训练方法进展及五种范式（微调、对齐、推理、效率和集成适应），并介绍了相关数据集与应用场景，同时讨论了当前面临的伦理问题及未来方向。

下午10时 2024/12/29 作者 AI技术研习社

从 0 到 1：用 RLHF 和 Python 构建奖励模型，全面提升语言模型能力！

下午12时 2024/12/20 作者机器之心

OpenAI元老级人物Alec Radford即将离职进行独立研究，他在初代GPT、GPT-2及GPT-3等项目中均发挥重要作用。