跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

RLHF

大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案

2025年7月20日16时 作者 量子位

研究发现,大语言模型如GPT-4o和Gemma 3在面对反向意见时过度敏感,并且会轻易改变初始答案,这与其记忆机制有关。研究表明,缺乏记忆的模型可能更容易动摇。

分类 资讯 标签 DeepMind、 Gemma 3、 GPT-4o、 RLHF、 量子位、 闻乐 发表评论

难度爆表!从 LLM 到 Infra,手撕 5 大并行训练算法

2025年6月30日14时 作者 PaperAgent

现高校LLM对齐研究课程介绍,涵盖手撕PyTorch五大并行算法DP、TP、PP、CP和EP,以及Backward梯度计算与重叠通信技术。课程内容丰富,提供多卡DeepSpeed RLHF训练及垂域大模型实操项目。

分类 分享 标签 OpenAI、 PyTorch、 RLHF、 ZeRO-Adam、 分布式训练、 多模态 发表评论

unsloth制作了一份关于大模型强化学习的完整指南

2025年6月20日8时 作者 NLP工程化

Unsloth发布了关于大模型强化学习的完整指南,涵盖目标、关键作用及在AI代理中的应用等内容,并提供了GRPO、RLHF、DPO和奖励函数的相关信息。

分类 开源 标签 Claude 4、 DPO、 GRPO、 RLHF、 强化学习、 智能AI代理 发表评论

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

2025年4月20日16时 作者 新智元

在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。
满血o3更强

分类 资讯 标签 o3模型、 OpenAI、 RLHF、 半猎豹、 推理任务、 非ASCII连字符 发表评论

为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

2025年3月24日16时 作者 机器之心

设计 RLHF 的奖励模型时也是一样。
我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模

分类 学术、 资讯 标签 GPT-3、 RLHF、 T5、 个性化、 多模态、 奖励模型 发表评论

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

2025年3月12日23时 作者 AI前线

术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型应用的快速发展。整

分类 资讯 标签 PPO、 RLHF、 大语言模型、 开源模型、 泛化能力、 生成质量 发表评论

GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?

2025年2月28日14时 作者 AI进修生

ainee,欢
迎阅读本期新文章。
Sam Altman刚刚宣布:GPT-4.5 准备好了。
好消息

分类 分享 标签 1M tokens、 GPT-4.5、 RLHF、 SFT、 万亿参数、 幻觉 发表评论

Anthropic秘密「混合模型」 Claude 4首曝细节,硬刚GPT-5!深度推理模型来了

2025年2月14日12时 作者 新智元

的AI——语言模型与可控推理能力相结合的混合模型。模型包括一个独特的「滑动条」功能,它赋予开发者对计

分类 资讯 标签 Anthropic、 API销售、 OpenAI、 RLHF、 模型解释性、 自然语言处理 发表评论

RLHF 常见的思维误区

2025年1月13日23时 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨ybq
来源丨NLP工作站
编辑丨极市平台
极市导读
本文探讨了

分类 学术 标签 GRPO、 OOD问题、 RLHF、 Verifier、 奖励模型、 扩散模型 发表评论

老婆饼里没有老婆,RLHF里也没有真正的RL

2025年1月8日23时 作者 机器之心

机器之心报道
编辑:张倩
老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最

分类 学术、 资讯 标签 DPO、 RLHF、 强化学习、 毒性内容、 语言模型、 长期目标 发表评论
较早文章
页面1 页面2 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 电影级视频大作,阿里万相2.2开源发布
  • 智谱GLM-4.5一手实测
  • 国家育儿补贴方案公布,每孩每年3600元!
  • WAIC 2025现场直击|国产AI算力逆风起飞,多种技术路径大突围
  • 字节跳动刚把自己招牌AI Agent开源了,可商用、超6000颗星

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×