跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

上午11时 2025/04/14 作者 机器之心

了突飞猛进的进展。
在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效?什么无效

分类 学术、 资讯 标签 强化学习、 数学推理模型、 监督微调、 相关主题、 答疑、 讨论 发表评论

Vision-R1:激发多模态大模型的推理能力

下午11时 2025/04/13 作者 极市干货

uanlan.zhihu.com/p/29618155786
编辑丨极市平台
极市导读
实验表明
,

分类 学术 标签 PTST、 Vision-R1、 冷启动策略、 强化学习、 数理推理、 硬格式-结果奖励 发表评论

ChatGPT 全局记忆上线,xAI 开放 Grok 3 API,Llama 4 惹争议! AI Weekly 4.7-13

下午2时 2025/04/13 作者 AI信息Gap

户推出全局记忆功能,模型可自动调用历史对话,增强个性化体验。
2️⃣
🚫 GPT-4 即将退役
:4

分类 国际、 大模型 标签 VAPO框架、 大型语言模型、 工作效率、 强化学习、 木易、 特定领域 发表评论

LLM Reasoning能力最近大跃进?不,都是「水分」!

下午2时 2025/04/13 作者 机器学习算法与自然语言处理

MLNLP社区是国内外知名的语言模型与自然语言处理社区。该文章探讨了大模型推理能力评估中的「玄学因素」,并提出建议以避免此类问题。

分类 学术 标签 A Sober Look at Progress、 强化学习、 机器学习、 玄学因素、 监督微调、 自然语言处理 发表评论

R1 的一些认知:4 个经典误区

下午2时 2025/04/13 作者 机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进

分类 学术 标签 PPO、 前沿研究、 多智能体系统、 强化学习、 数据增强、 训练稳定性 发表评论

RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

上午11时 2025/04/13 作者 机器之心

近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性,同时使用强化学习提升LLM性能。然而,当前强化学习算法仍有改进空间,奖励稀疏性是主要难点之一。

分类 学术、 资讯 标签 DeepSeek、 scaling laws、 强化学习、 推理阶段、 清华大学、 通用奖励模型 发表评论

字节跳动刚发布 Seed-Thinking-v1.5 的技术细节报告

上午8时 2025/04/12 作者 NLP工程化

字节跳动发布Seed-Thinking-v1.5技术细节报告,其性能接近Gemini-2.5-Pro和O3-mini-high水平。

分类 开源 标签 DeepSeek-R1、 Gemini-2.5-Pro、 o3-mini-high、 Seed-Thinking-v1.5、 字节跳动、 强化学习 发表评论

强化学习发展这十年

上午8时 2025/04/12 作者 极市干货

文章回顾了强化学习过去十年的发展历程,从经典定义到多子领域扩展,并探讨了未来可能的发展趋势和与其他机器学习分支的关系。

分类 学术 标签 争议性研究、 发展历程、 强化学习、 智能体、 机器学习、 环境交互 发表评论

多模态RAG及多模态R1推理中如何为不同的视觉数据生成描述Caption?OMNICAPTIONER实现思路

下午2时 2025/04/10 作者 老刘说NLP

度依赖开源,开源大多数只能赶凑合,能快速上线,但是带来的风险是会黑盒化,不可控。我们如果要开发自己的

分类 大模型 标签 MoE语言模型、 MoonViT、 SigLIP-SO-400M、 强化学习、 老刘、 长上下文激活 发表评论

视频推理的R1时刻!港中文、清华推出首个Video-R1,7B模型竟超GPT-4o?

下午4时 2025/04/09 作者 PaperWeekly

港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1,该模型通过引入时序建模和混合训练机制,在权威测试中击败了GPT-4o。

分类 大模型、 学术 标签 T-GRPO训练算法、 强化学习、 清华团队、 港中文、 视频空间推理测试、 高质量数据集 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面6 页面7 页面8 … 页面30 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

近期文章

  • VS Code 1.100 重磅发布:AI 功能全面升级,开发体验大幅提升!
  • Qwen微调干货!对话、指令、Function Call、思考链数据集构造全流程揭秘!
  • 给MCP加上RAG,工具准确率提升200%,起飞~
  • 2025,我们又一次用AI,交了个朋友。
  • 五月组队学习,开设青少年编程课程!

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×