强化学习归档 - 第13页共46页

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

2025年5月27日16时作者量子位

阿里开源的QwenLong-L1模型在HuggingFace今日热门论文第二，其32B参数版本性能优秀。对比基础模型，QwenLong-L1通过回溯和验证机制成功处理了长文本推理中的干扰信息问题，准确计算了金融文档中涉及优先票据发行成本与第一年利息支出合并的总资本成本。

One RL to See Them All？一个强化学习统一视觉-语言任务！

2025年5月27日16时作者机器之心

理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

2025年5月26日23时作者机器之心

扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中

万字长文总结！Reasoning模型的强化学习实现路径

2025年5月26日14时作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

刷新世界记录！40B模型+20万亿token，散户组团挑战算力霸权

2025年5月26日11时作者新智元

在区块链技术的支持下，Nous Research的Psyche平台成功实现了去中心化的分布式训练。通过DisTrO优化器和Solana区块链协议，Psyche能够在保持高度同步的同时降低带宽需求，并验证了容错能力和加速训练的能力。这不仅展示了区块链作为解决计算资源分配和协调问题的有效工具，也为未来大规模、去中心化机器学习模型的部署铺平了道路。

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

2025年5月26日11时作者机器之心

微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人

Qlib：可能是目前业内最完整的 AI 量化投资平台

2025年5月26日8时作者 NLP工程化

微软开源项目Qlib，覆盖因子挖掘、风险建模等AI量化投资流程，支持Transformer、LSTM等多种模型，提供一键自动化研究工具，适合金融AI开发者学习。

UC Berkeley最新VideoMimic的框架：基于视觉模仿学习的类人机器人跨环境控制策略生成方法

2025年5月25日23时作者机器人大讲堂

近日UC Berkeley大学研究人员提出VideoMimic框架，通过观看普通视频自动生成类人机器人的控制策略。无需复杂传感器数据或手工奖励函数，机器人能在多种环境下执行任务。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31