强化学习归档 - 第24页共46页

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！

2025年4月8日23时作者机器之心

本身不够好
。
尤其在专业搜索场景（如文献、数据库查询）中，用户往往无法用精确、完整的表达描述他们

2025年4月8日8时作者 AIGC开放社区

阿里巴巴通义实验室开源多模态情感识别模型R1-Omni，采用强化学习与可验证奖励（RLVR），在MAFW和DFEW数据集上分别取得40.04%和56.27%的WAR。该方法避免了复杂奖励模型依赖问题，通过直接利用任务内在正确性标准设计奖励函数，提高情感识别准确性和可靠性。

2025年4月7日16时作者 PaperWeekly

s）和多模态大语言模型（MLLMs）中。
最近，DeepSeek R1 的提出引发了对强化学习（RL

2025年4月7日11时作者每日AI新工具

Lumina-mGPT 2.0发布，支持多种图像生成任务；AnimeGamer模拟动漫生活互动，基于MLM预测游戏状态；DeepResearcher通过强化学习训练LLMs；Mobile Next简化移动自动化测试；Zola免费开源AI聊天应用，支持多模型和文件上传。

2025年4月6日14时作者 GiantPandaCV

Llama 4
系列中的首批模型，这些模型将使人们能够构建更个性化的多模态体验。
Llama 4 S

2025年4月6日11时作者机器之心

lama 4，这是其 Llama 家族的最新成员。
该系列包括 Llama 4 Scout、Llam

2025年4月5日14时作者老刘说NLP

复现和应用越来越多，也对大模型的规划能力有了越来越多的要求。
假设大模型能力很强，我们可以使用
Co