跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

揭秘监督微调(SFT):语言模型性能跃升的秘密武器!

2024年12月19日14时 作者 AI技术研习社

大型语言模型(LLMs)的训练通常分为多个阶段,包括预训练和后续的微调阶段。虽然预训练成本高昂(通常

分类 大模型 标签 BERT-base-uncased、 DataCollatorWithPadding、 Python、 强化学习、 监督微调、 训练参数 发表评论

震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短

2024年12月19日14时 作者 机器之心

大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。

分类 学术、 资讯 标签 Anthropic、 Claude、 伪对齐、 大模型、 强化学习、 有害查询 发表评论

当 Kimi 戴上眼镜之后

2024年12月18日12时 作者 特工宇宙

特工少女特工小鹏特工西风:Kimi同学通过强化学习技术提升了k1模型的能力,包括数学、物理和图像理解等方面。她的成绩超越了OpenAI o1、GPT-4o和Claude 3.5 Sonnet等模型,展示了视觉思考版的优势。

分类 分享 标签 强化学习、 思维链CoT、 数理化成绩、 特工小鹏、 特工西风、 视觉思考模型 发表评论

宇树机器人强化学习代码全面开源,还有训练到仿真和实操手把手教学

2024年12月17日14时 作者 量子位

宇树机器人开源强化学习代码支持MuJoCo仿真,并能迁移到实体机器运行。此项目名为RL GYM,包含详细教程与数据集,还发布了Point-LIO算法的源码。

分类 资讯 标签 5种操作、 MuJoCo模拟仿真、 宇树团队、 开源代码、 强化学习、 训练数据集 发表评论

Kimi版o1实装上线,这里是我们的一手测试↑

2024年12月16日22时 作者 量子位

Kimi新模型k1发布即上线可用,视觉与推理能力出众。基于强化学习,k1能够深入理解图片信息并进行思维链推理,涵盖数学、物理及化学题。数理化实测中表现出色,超越OpenAI等模型。

分类 资讯 标签 k1、 kimi、 强化学习、 手写稿、 推理测试、 数学能力 发表评论

Kimi视觉思考模型 k1:可拍照解题,会给出解答过程

2024年12月16日18时 作者 多知

Kimi发布视觉思考模型k1,支持拍照解题并提供全过程解答。该模型在数学、物理等基础科学领域表现优于OpenAI o1、GPT-4等标杆模型。

分类 资讯 标签 k1模型、 kimi、 openai o1、 强化学习、 数学问题、 科学领域 发表评论

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

2024年12月16日18时 作者 新智元

MAPLE实验室提出通过强化学习优化扩散模型和流匹配模型的多步去噪过程,实现用更少步骤生成高质量图像,并显著减少约50%推理步数。

分类 资讯 标签 MAPLE实验室、 去噪过程、 图像生成模型、 强化学习、 扩散和流匹配、 时间预测模块 发表评论

与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀

2024年12月16日16时 作者 机器之心

机器之心报道
编辑:杜伟、小舟
这几天,学术圈的小伙伴肯定都很关注正在加拿大温哥华举办的机器学习顶会

分类 学术、 资讯 标签 Neurips 2024、 商业化算法团队、 广告出价、 强化学习、 快手、 生成模型 发表评论

波士顿动力机器人创始人Marc Raibert:基于大语言模型的人形机器人任务能力相比人类有差距|2024T-EDGE

2024年12月16日12时 作者 钛媒体AGI

12月6日-7日,2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。2024 T-E

分类 资讯 标签 Ultra Mobile Vehicle、 人工智能研究所、 人机交互、 强化学习、 模拟仿真、 贝尔实验室 发表评论

NeurIPS 2024|视频生成模型是世界模型吗?iVideoGPT: 交互式视频GPT,一种可扩展的世界模型

2024年12月15日8时 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨吴佳龙
来源丨THUML
编辑丨极市平台
极市导读
本文提出一种

分类 学术 标签 iVideoGPT、 Transformer、 强化学习、 视频生成、 预测控制、 预训练 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面43 页面44 页面45 页面46 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 10 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 9 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×