强化学习归档 - 第8页共30页

DeepRetrieval让模型端到端地学会搜索

上午8时 2025/04/09 作者 NLP工程化

DeepRetrieval 是一种基于强化学习的query优化系统，通过训练LLM优化原始查询以提升现有搜索系统的检索效果。

下午11时 2025/04/08 作者 Z Potentials

DeepSeek与清华大学合作开发自我进化的AI模型，利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型，展示了更少计算资源下的优化性能，并计划以开源形式发布新模型。

下午11时 2025/04/08 作者机器之心

本身不够好
。
尤其在专业搜索场景（如文献、数据库查询）中，用户往往无法用精确、完整的表达描述他们

上午8时 2025/04/08 作者 AIGC开放社区

阿里巴巴通义实验室开源多模态情感识别模型R1-Omni，采用强化学习与可验证奖励（RLVR），在MAFW和DFEW数据集上分别取得40.04%和56.27%的WAR。该方法避免了复杂奖励模型依赖问题，通过直接利用任务内在正确性标准设计奖励函数，提高情感识别准确性和可靠性。

下午4时 2025/04/07 作者 PaperWeekly

s）和多模态大语言模型（MLLMs）中。
最近，DeepSeek R1 的提出引发了对强化学习（RL

上午11时 2025/04/07 作者每日AI新工具

Lumina-mGPT 2.0发布，支持多种图像生成任务；AnimeGamer模拟动漫生活互动，基于MLM预测游戏状态；DeepResearcher通过强化学习训练LLMs；Mobile Next简化移动自动化测试；Zola免费开源AI聊天应用，支持多模型和文件上传。

下午2时 2025/04/06 作者 GiantPandaCV

Llama 4
系列中的首批模型，这些模型将使人们能够构建更个性化的多模态体验。
Llama 4 S