RLHF 归档 - 第2页共2页

用Python实现RLHF奖励模型构建，全方位提升模型表现！

2024年12月29日22时作者 AI技术研习社

从 0 到 1：用 RLHF 和 Python 构建奖励模型，全面提升语言模型能力！

2024年12月13日16时作者智能涌现

姜旭，OpenAI前资深算法负责人，参与多项GPT-4开发项目。2023年离开OpenAI后创建“亮源新创”，专注于具身智能陪伴机器人领域。

2024年12月13日16时作者机器人开放社区

江旭离开OpenAI后创立亮源新创，专注于开发具身智能陪伴机器人应用于家庭服务、医疗康养及教育培训等领域。

2024年12月1日13时作者机器之心

知名AI学者Andrej Karpathy认为，大型语言模型的对话回答主要是模仿人工标注数据的结果，并非真正的人工智能。他批评了RLHF（奖励学习强化学习）的方法。