强化学习归档 - 第7页共46页

OpenAI 4 名王牌研究员“叛变”，Meta 上亿美元的签约奖金终于花出去了

2025年6月28日16时作者 AI前线

Meta 招募四名前 OpenAI 研究人员加入其超级智能实验室，该实验室旨在开发超越人类表现的 AI 模型。

2025年6月28日11时作者硅星人Pro

个AI Agent。
最近，Kimi Researcher（深度研究）开启内测。根据官方介绍，其定位

2025年6月27日23时作者机器之心

。
不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（maske

2025年6月27日16时作者量子位

阿里发布WebDancer，作为端到端自主信息搜索智能体。它能实现复杂任务如网页遍历、信息搜索和问答，并已开源训练框架。通过四阶段训练范式提升推理、工具使用及泛化能力，已在GAIA和WebWalkerQA上取得显著成绩。

2025年6月27日16时作者机器之心

基于强化学习训练的视觉语言模型成功在开放GUI环境中进行了自我探索，提升了智能体的交互能力。该研究展示了如何结合探索奖励、世界模型和GRPO强化学习来增强智能体的探索效率，并通过经验流蒸馏技术进一步提升了其自主性。

2025年6月27日8时作者 AIGC开放社区

专注于AIGC领域的专业社区报道Meta挖角OpenAI顶级研究员Trapit Bansal加入其新成立的AI超级智能部门。Bansal此前在OpenAI工作多年，并曾是o1模型的基础贡献者之一。

2025年6月26日16时作者钛媒体AGI

足围观。
这辆钱德勒轿车作为“主角”，后座装载着一套无线电接收装置，车顶还架设着醒目的夸张天线。更令

2025年6月26日8时作者机器之心

间关系、多对象属性及复杂组合的指令时，仍面临挑战。
针对此，来自香港大学 MMLab、香港中文大学

2025年6月24日23时作者机器之心

本文提出了一种名为ToMAP的新模型，它结合了心智理论机制以增强语言模型在说服任务中的表现。通过引入反驳预测器和态度预测器两大模块，ToMAP能够预判对方可能提出的反论点并评估其态度变化，从而实现更具个性化、灵活性和逻辑性的说服过程。

2025年6月24日23时作者 PaperWeekly

下，
MiMo-VL
与
Seed-VL
两大系统在后训练链条上的策略博弈，展现了当前业界对指令对齐