强化学习归档 - 第18页共46页

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

2025年5月5日16时作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

2025年5月3日16时作者量子位

首个纯多模态开源LLM Perceptrion-R1在视觉任务上取得显著成果，优化感知策略提升MLLM能力边界。

2025年5月2日16时作者新智元

南加州大学团队利用LoRA+强化学习在AIME 24数学基准测试上实现超过20%的性能提升，成本仅为9美元。研究发现LoRA模型中减少计算反而能带来更好的性能。

2025年5月1日14时作者小兵的AI视界

北京航空航天大学推出的小尺寸视频推理模型TinyLLaVA-Video-R1通过强化学习显著提升了小规模模型的性能，并开源了权重、代码和训练数据。该模型参数量不超过4B，在多个基准测试中表现优异，具备强大的多模态理解能力和可解释性生成能力。

2025年5月1日11时作者量子位

上汽大众与Momenta在2025年上海车展上宣布合作，标志着中国汽车从’技术输血’到’智能造血’的历史性转变。这次合作被视为合资车企的里程碑时刻，预示着中国汽车标准将走向全球引领。

2025年5月1日11时作者机器之心

键。
近日，一份围绕 LLM 后训练的综述报告收获了不少好评，其整理相关论文和工具的资源库已经收获了

2025年4月30日23时作者 Founder Park

模型
在融合了 tool use 能力后，模型表现已经覆盖了 Agent 产品常用的 use ca

2025年4月30日23时作者新智元

清华聘任前谷歌DeepMind科学家Alex Lamb为助理教授，美国AI人才反向流动加速。此前他曾看低中国AI研究，现选择加入清华大学。多位美国AI专家表示考虑离开，特朗普政府的移民政策加剧了这一趋势，中国正成为AI人才的主要目的地。

2025年4月30日16时作者机器之心

一，一直是研究的焦点，许多的 AI 前沿人才对 AI 推理的效率进行研究。
高昂的计算成本和复杂的硬