7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
研究提出了一种新的训练框架,让大模型自主设计和优化AI算法,显著减少人类干预。通过经验学习范式,7B参数的大模型ML-Agent在9个任务上持续探索学习,最终超越了671B规模的智能体。
研究提出了一种新的训练框架,让大模型自主设计和优化AI算法,显著减少人类干预。通过经验学习范式,7B参数的大模型ML-Agent在9个任务上持续探索学习,最终超越了671B规模的智能体。
Qwen3 Embedding系列发布,支持多语言文本表征、检索与排序任务。8B版本性能卓越,在MTEB多语言Leaderboard榜单中排名第一。支持0.6B/4B/8B三种尺寸,已在Hugging Face等平台开源。主要亮点包括泛化性强、架构灵活及自定义特性等。
本文提出ZeroSearch框架,无需真实搜索引擎即可激活大语言模型搜索能力。通过轻量级监督微调将LM转为检索模块,并采用课程学习逐步降低文档质量来激发推理能力,显著降低训练成本和提高性能。
腾讯研究团队采用强化学习结合课程采样策略训练意图识别模型,显著提升其在未知意图上的泛化能力。该方法能有效指导模型关注更具挑战性的数据样本,并通过实验验证了GRPO算法优于传统SFT方法的性能优势。
浙江大学和哈佛大学的研究团队推出了In-Context Edit(ICEdit),一款基于指令的图像编辑框架,仅需极少的文本指令即可实现精准的图像修改。