跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

上午11时 2025/04/06 作者 机器之心

lama 4,这是其 Llama 家族的最新成员。
该系列包括 Llama 4 Scout、Llam

分类 学术、 资讯 标签 2880亿参数、 Llama-4 Behemoth、 Llama-4 Scout、 Meta、 上下文长度1000万token、 强化学习 发表评论

Deepresearch核心技术:如何通过强化学习增强推理大模型搜索规划及反馈能力?

下午2时 2025/04/05 作者 老刘说NLP

复现和应用越来越多,也对大模型的规划能力有了越来越多的要求。
假设大模型能力很强,我们可以使用
Co

分类 大模型 标签 F1分数、 GRPO算法、 Instruct-GPT、 Qwen2.5-7B-Instruct、 强化学习、 老刘 发表评论

R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B

下午11时 2025/04/04 作者 AI寒武纪

DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT,通过增加推理计算量实现了有效的推理时扩展,并显著提升了LLM的性能。

分类 国际、 资讯 标签 DeepSeek、 Meta RM、 在线强化学习、 强化学习、 清华大学、 逐点生成式奖励建模 发表评论

250多篇论文,上海AI Lab综述推理大模型高效思考

下午4时 2025/04/04 作者 机器之心

oning Models,LRMs)通过加长「思考链」(Chain-of-Thought,CoT)在

分类 学术、 资讯 标签 CoT问题、 RAG、 RL奖励、 强化学习、 语言模型、 预训练 发表评论

马斯克又秀人形机器人:擎天柱实现稳步行走

下午11时 2025/04/03 作者 财联社AI daily

马斯克发布特斯拉人形机器人擎天柱最新视频展示类人行走能力,并介绍其采用强化学习训练方案,未来目标是年产超5万台应用于工厂场景及计划2026年登陆火星。

分类 资讯 标签 1万至1.2万台、 3万美元、 工业场景、 强化学习、 擎天柱、 特斯拉 发表评论

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

下午4时 2025/04/03 作者 新智元

谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务,标志着AI向通用人工智能(AGI)又迈进了一步。

分类 资讯 标签 DeepMind、 DreamerV3、 世界模型、 强化学习、 通用人工智能、 钻石收集 发表评论

Agent性能优化技术总结及DeeResearch用于Github项目搜索实现思路

下午2时 2025/04/03 作者 老刘说NLP

智谱AutoGLM沉思,都引起了大家的关注。
这其实引出来一个观点,关于Agent研发重心。文章(h

分类 大模型 标签 LLM、 参数驱动、 多智能体协作、 强化学习、 微调优化、 无参数优化 发表评论

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

上午11时 2025/04/02 作者 新智元

:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,

分类 资讯 标签 USAMO、 人工智能、 创造性思维、 强化学习、 数学推理、 逻辑缺陷 发表评论

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

下午11时 2025/04/01 作者 机器之心

对策略优化)。
不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 c

分类 学术、 资讯 标签 CPPO、 分布外推理、 剪枝率、 多GPU、 多线程、 强化学习 发表评论

自动学会工具解题,RL扩展催化奥数能力激增17%

下午11时 2025/04/01 作者 机器之心

用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

分类 学术、 资讯 标签 ToRL、 复杂推理、 开源实现、 强化学习、 性能提升、 数学模型 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面8 页面9 页面10 … 页面30 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

近期文章

  • AI也需要”记笔记”:Karpathy从Claude 1.6万字提示词中看到的未来
  • Anthropic 联创Jack Clark 畅谈AGI:AI正在影响我们的经济增长
  • 75页哈工大多模态推理大模型最新综述:感知、推理、思考与规划
  • 一文深入了解 MCP 服务开发的细节
  • yyds!一个大模型的新方向,彻底爆发了!!

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×