跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

Llama4凌晨突然发布!以超高性价比开启原生多模态AI和开源MoE的新时代,并公开训练策略!

下午2时 2025/04/06 作者 GiantPandaCV

Llama 4
系列中的首批模型,这些模型将使人们能够构建更个性化的多模态体验。
Llama 4 S

分类 学术 标签 2万亿参数、 Llama 4、 Meta公司、 图像理解、 多模态性、 强化学习 发表评论

Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

上午11时 2025/04/06 作者 机器之心

lama 4,这是其 Llama 家族的最新成员。
该系列包括 Llama 4 Scout、Llam

分类 学术、 资讯 标签 2880亿参数、 Llama-4 Behemoth、 Llama-4 Scout、 Meta、 上下文长度1000万token、 强化学习 发表评论

Deepresearch核心技术:如何通过强化学习增强推理大模型搜索规划及反馈能力?

下午2时 2025/04/05 作者 老刘说NLP

复现和应用越来越多,也对大模型的规划能力有了越来越多的要求。
假设大模型能力很强,我们可以使用
Co

分类 大模型 标签 F1分数、 GRPO算法、 Instruct-GPT、 Qwen2.5-7B-Instruct、 强化学习、 老刘 发表评论

R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B

下午11时 2025/04/04 作者 AI寒武纪

DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT,通过增加推理计算量实现了有效的推理时扩展,并显著提升了LLM的性能。

分类 国际、 资讯 标签 DeepSeek、 Meta RM、 在线强化学习、 强化学习、 清华大学、 逐点生成式奖励建模 发表评论

250多篇论文,上海AI Lab综述推理大模型高效思考

下午4时 2025/04/04 作者 机器之心

oning Models,LRMs)通过加长「思考链」(Chain-of-Thought,CoT)在

分类 学术、 资讯 标签 CoT问题、 RAG、 RL奖励、 强化学习、 语言模型、 预训练 发表评论

马斯克又秀人形机器人:擎天柱实现稳步行走

下午11时 2025/04/03 作者 财联社AI daily

马斯克发布特斯拉人形机器人擎天柱最新视频展示类人行走能力,并介绍其采用强化学习训练方案,未来目标是年产超5万台应用于工厂场景及计划2026年登陆火星。

分类 资讯 标签 1万至1.2万台、 3万美元、 工业场景、 强化学习、 擎天柱、 特斯拉 发表评论

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

下午4时 2025/04/03 作者 新智元

谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务,标志着AI向通用人工智能(AGI)又迈进了一步。

分类 资讯 标签 DeepMind、 DreamerV3、 世界模型、 强化学习、 通用人工智能、 钻石收集 发表评论

Agent性能优化技术总结及DeeResearch用于Github项目搜索实现思路

下午2时 2025/04/03 作者 老刘说NLP

智谱AutoGLM沉思,都引起了大家的关注。
这其实引出来一个观点,关于Agent研发重心。文章(h

分类 大模型 标签 LLM、 参数驱动、 多智能体协作、 强化学习、 微调优化、 无参数优化 发表评论

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

上午11时 2025/04/02 作者 新智元

:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,

分类 资讯 标签 USAMO、 人工智能、 创造性思维、 强化学习、 数学推理、 逻辑缺陷 发表评论

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

下午11时 2025/04/01 作者 机器之心

对策略优化)。
不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 c

分类 学术、 资讯 标签 CPPO、 分布外推理、 剪枝率、 多GPU、 多线程、 强化学习 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面8 页面9 页面10 … 页面30 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

近期文章

  • 走进杭州“六小龙”等AI先锋企业,解码AI商业新动能|2025杭州AI创变营来啦
  • 国产AI智能体竞逐海外!Manus推出数据分析师、思维导图,Genspark上线AI表格、幻灯片
  • “由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
  • 王兴兴放话“人形机器人订单爆了” 受制于产能
  • 王兴兴:很多人形机器人企业爆单了,宇树科技非常缺人!

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×