OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙 下午4时 2025/04/20 作者 新智元 在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。 满血o3更强
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need 下午4时 2025/03/24 作者 机器之心 设计 RLHF 的奖励模型时也是一样。 我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模
小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化 下午11时 2025/03/12 作者 AI前线 术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型应用的快速发展。整
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了? 下午2时 2025/02/28 作者 AI进修生 ainee,欢 迎阅读本期新文章。 Sam Altman刚刚宣布:GPT-4.5 准备好了。 好消息
Anthropic秘密「混合模型」 Claude 4首曝细节,硬刚GPT-5!深度推理模型来了 下午12时 2025/02/14 作者 新智元 的AI——语言模型与可控推理能力相结合的混合模型。模型包括一个独特的「滑动条」功能,它赋予开发者对计
用Python实现RLHF奖励模型构建,全方位提升模型表现! 下午10时 2024/12/29 作者 AI技术研习社 从 0 到 1:用 RLHF 和 Python 构建奖励模型,全面提升语言模型能力!
OpenAI前资深算法负责人姜旭创建「亮源新创」,打造具身智能陪伴机器人 |智涌独家 下午4时 2024/12/13 作者 智能涌现 姜旭,OpenAI前资深算法负责人,参与多项GPT-4开发项目。2023年离开OpenAI后创建“亮源新创”,专注于具身智能陪伴机器人领域。
OpenAI前资深算法负责人”江旭”创建具身智能陪伴机器人公司 下午4时 2024/12/13 作者 机器人开放社区 江旭离开OpenAI后创立亮源新创,专注于开发具身智能陪伴机器人应用于家庭服务、医疗康养及教育培训等领域。