跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

DeepSeek 发布类似OpenAI o1的推理模型:DeepSeek R1

下午11时 2025/01/20 作者 NLP工程化

DeepSeek发布R1系列推理模型,媲美O1-preview,在数学和编程竞赛中表现优异,目前仅支持网页使用,正式版将开源。

分类 开源 标签 DeepSeek、 强化学习、 思维链长度、 模型开源、 正式版、 网页使用 发表评论

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

下午11时 2025/01/20 作者 机器之心

机器之心报道
机器之心编辑部
春节前最后一周,能媲美 Open AI 满血版 o1(Full Ver

分类 学术、 资讯 标签 kimi、 OpenAIo1模型、 在线镜像下降法、 多模态理解、 强化学习、 长上下文scaling 发表评论

一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

下午11时 2025/01/20 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨猫先生
来源丨魔方AI空间
编辑丨极市平台
极市导读
本文从强化

分类 学术 标签 多模态、 大语言模型、 强化学习、 扩散模型、 极市平台、 视觉模型 发表评论

爆料!OpenAI 内部早已突破AGI第 4 level?

下午11时 2025/01/17 作者 AGI Hunt

Riley Coyote在社交媒体上透露OpenAI可能已经达到了AGI第4级。这引发了科技圈广泛讨论,有人担忧超级智能系统可能会基于不真实的数据训练而带来的潜在风险。

分类 分享 标签 1000亿、 OpenAI内部秘密、 Riley Coyote、 强化学习、 社交媒体、 超级智能 发表评论

游戏结束了?OpenAI可能已经突破,跨过起飞的最后临界阈值

下午4时 2025/01/17 作者 机器之心

OpenAI 的研究引发热议,有人认为其可能已经突破临界点,达到可以自我递归改进的程度。

分类 学术、 资讯 标签 OpenAI、 不可阻挡、 优化算法、 强化学习、 自我递归改进、 魔法 发表评论

能看AI推理过程的端到端自动驾驶,理想在走一条前所未有的路

下午11时 2025/01/16 作者 机器之心

机器之心报道
作者:泽南
城市、高速一体化,从车位到车位的全程自动。
最近一段时间,随着新车型和新技

分类 学术、 资讯 标签 Orin-X、 强化学习、 理想汽车、 端到端学习、 通用人工智能、 高性能算力 1 条评论

OpenAI被曝重组机器人团队,4年前缺钱缺数据,如今要做硬件布局了

下午4时 2025/01/12 作者 机器之心

OpenAI 正在重组其机器人团队,招聘电子感知工程师、机器人机械设计工程师和技术项目经理等职位。目标是开发通用、自适应和安全的机器人。

分类 学术、 资讯 标签 OpenAI、 Zaremba、 强化学习、 招聘活动、 数据来源、 机器人团队 发表评论

迈向System 2推理,100页论文硬核讲述Meta-CoT

下午4时 2025/01/11 作者 机器之心

机器之心报道
机器之心编辑部
Meta-CoT 通过显式建模生成特定思维链(CoT)所需的底层推理过

分类 学术、 资讯 标签 LLMs性能提升、 Meta-CoT、 上下文搜索、 复杂任务表现、 强化学习、 过程奖励模型 发表评论

月之暗面Kimi创始人杨植麟:通过强化学习的scaling是AI发展的方向

下午11时 2025/01/08 作者 财联社AI daily

2025年,随着强化学习的持续发展,AI将具备思考能力并能处理更复杂任务。

分类 资讯 标签 具备思考的能力、 强化学习、 更难、 月之暗面Kimi、 杨植麟、 通过强化学习的scaling 发表评论

老婆饼里没有老婆,RLHF里也没有真正的RL

下午11时 2025/01/08 作者 机器之心

机器之心报道
编辑:张倩
老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最

分类 学术、 资讯 标签 DPO、 RLHF、 强化学习、 毒性内容、 语言模型、 长期目标 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面25 页面26 页面27 … 页面30 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

近期文章

  • 不看这藏师傅篇深度拆解,你永远不知道Lovart AI有多可怕(有邀请码)
  • ContextGem文档结构化数据提取框架剖析及UniversalRAG路由多模态检索思路
  • 仅靠 AI 就比独立医生好 4 倍?OpenAI HealthBench 数据震撼,o3 太强了!
  • 知行科技:全资子公司拟收购小工匠机器人大部分股份|每日并购
  • 美团战投领投、美团龙珠跟投自变量机器人|投资速递

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×