跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

温度控制

苹果出手!改进GRPO,让dLLM也能高效强化学习

2025年6月27日16时 作者 机器之心

。
不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(maske

分类 学术、 资讯 标签 coupled-GRPO、 LOO 优势估计、 去耦基线方法、 扩散语言模型、 温度控制、 马尔可夫决策过程 发表评论

模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板

2025年4月29日16时 作者 PaperWeekly

仿学习只学不练、强化学习只练不学”的传统壁垒。
论文标题:
Learning to Reason u

分类 大模型、 学术 标签 LUFFY、 复杂推理、 强化学习、 模仿学习、 温度控制、 离策略 发表评论

从任何文本中提取知识图谱的AI工具kg-gen

2025年2月20日12时 作者 GitHubStore

本输入,还可以处理对话格式的消息。
为什么生成知识图谱?
kg-gen
如果你想:
创建一个图来辅助

分类 开源 标签 API 密钥、 GPT-4o、 OpenAI、 模型生成、 消息处理、 温度控制 发表评论

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 登Nature子刊,基于基因测序和机器学习的废水流行病学评估,病毒检出时间最高提前4周
  • 全景相机DJI Osmo 360:大疆的新“电子茅台”?
  • 谷歌开源高效文本提取 Python 库LangExtract
  • AI实时金融研究助手rallies-cli,智能文档提取与格式转换DocStrange
  • 对话深言科技岂凡超 :AI打破人与信息的关系,语鲸想帮你对抗焦虑

2025 年 8 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 7 月    

归档

  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×