跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

奖励黑客

ACL 2025 过程奖励模型深陷“信任泥潭”,PRMBench撕开伪高精度面具

2025年7月22日23时 作者 PaperWeekly

(PRMs)的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键“幕后功臣”,负责评估推理过程

分类 大模型、 学术 标签 PRMBench、 多样化测试用例、 奖励黑客、 学术界、 工业界、 过程级奖励模型 发表评论

AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

2025年3月11日8时 作者 AIGC开放社区

文章介绍了OpenAI发布的新研究——使用CoT监控来防止大模型出现恶意行为。通过分析模型的思维过程,可以更准确地检测出潜在问题并纠正错误意图。

分类 资讯 标签 AIGC模型监控技术、 OpenAI、 召回率95%、 奖励黑客、 思维链(CoT)、 意图隐藏问题 发表评论

Lilian Weng离开OpenAI后重磅回归首篇博客:揭示强化学习的“暗面”

2024年12月2日14时 作者 AI寒武纪

Lilian Weng分析了奖励黑客现象,在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为,并指出这是人工智能广泛应用的重大障碍,呼吁更多研究缓解措施。

分类 国际、 资讯 标签 Lilian Weng、 人工智能、 奖励黑客、 实验、 强化学习、 技术挑战 发表评论

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 为啥别人用AI编程像开挂?只是因为选对了工具!
  • Qwen3 新模型 Coder:性能、价格、可用性|全详解,包括官方没说的
  • 国产AI音乐王炸!Mureka V7 品质飞跃+TTS V1 打字造声音,网友:继 O1 超越 Suno 后再放大招!
  • 多模态大模型在OCR生成上表现如何?多页文档理解数据集Doc-750K
  • TradingAgents-CN上线:多智能体LLM秒变王牌研究员,A股策略效率×10

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×