跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B

2025年4月4日23时 作者 AI寒武纪

DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT,通过增加推理计算量实现了有效的推理时扩展,并显著提升了LLM的性能。

分类 国际、 资讯 标签 DeepSeek、 Meta RM、 在线强化学习、 强化学习、 清华大学、 逐点生成式奖励建模 发表评论

250多篇论文,上海AI Lab综述推理大模型高效思考

2025年4月4日16时 作者 机器之心

oning Models,LRMs)通过加长「思考链」(Chain-of-Thought,CoT)在

分类 学术、 资讯 标签 CoT问题、 RAG、 RL奖励、 强化学习、 语言模型、 预训练 发表评论

马斯克又秀人形机器人:擎天柱实现稳步行走

2025年4月3日23时 作者 财联社AI daily

马斯克发布特斯拉人形机器人擎天柱最新视频展示类人行走能力,并介绍其采用强化学习训练方案,未来目标是年产超5万台应用于工厂场景及计划2026年登陆火星。

分类 资讯 标签 1万至1.2万台、 3万美元、 工业场景、 强化学习、 擎天柱、 特斯拉 发表评论

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

2025年4月3日16时 作者 新智元

谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务,标志着AI向通用人工智能(AGI)又迈进了一步。

分类 资讯 标签 DeepMind、 DreamerV3、 世界模型、 强化学习、 通用人工智能、 钻石收集 发表评论

Agent性能优化技术总结及DeeResearch用于Github项目搜索实现思路

2025年4月3日14时 作者 老刘说NLP

智谱AutoGLM沉思,都引起了大家的关注。
这其实引出来一个观点,关于Agent研发重心。文章(h

分类 大模型 标签 LLM、 参数驱动、 多智能体协作、 强化学习、 微调优化、 无参数优化 发表评论

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

2025年4月2日11时 作者 新智元

:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,

分类 资讯 标签 USAMO、 人工智能、 创造性思维、 强化学习、 数学推理、 逻辑缺陷 发表评论

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

2025年4月1日23时 作者 机器之心

对策略优化)。
不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 c

分类 学术、 资讯 标签 CPPO、 分布外推理、 剪枝率、 多GPU、 多线程、 强化学习 发表评论

自动学会工具解题,RL扩展催化奥数能力激增17%

2025年4月1日23时 作者 机器之心

用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

分类 学术、 资讯 标签 ToRL、 复杂推理、 开源实现、 强化学习、 性能提升、 数学模型 发表评论

独家|对话蚂蚁 Ling 团队:聊聊用国产卡降本这回事儿

2025年3月31日16时 作者 AI前线

-Plus(中文名称为“百灵”),并发布了技术论文《Every Flop Counts》。其中 Li

分类 资讯 标签 AReaL、 Ling、 大型语言模型、 大模型、 强化学习、 技术共享 发表评论

智谱上线AutoGLM沉思,OpenAI不再独享Deep Research

2025年3月31日14时 作者 卡尔的AI沃茨

nAI 专属了
智谱全量上了有 AutoGLM 能力的 Deep Research,
AutoGLM

分类 分享 标签 AutoGLM沉思、 GLM-Z1-Air、 GLM-Z1-Rumination、 开源、 强化学习、 智谱清言 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面24 页面25 页面26 … 页面46 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 10 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 9 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×