ICML 2025 如何在合成文本数据时避免模型崩溃?
生成式人工智能技术下合成数据成为大模型训练的重要组成部分。然而,研究团队提出了一种创新方法Token-Level Editing,以避免模型崩溃问题,通过微编辑而非纯生成来构建稳定、泛化性强的半合成数据。
生成式人工智能技术下合成数据成为大模型训练的重要组成部分。然而,研究团队提出了一种创新方法Token-Level Editing,以避免模型崩溃问题,通过微编辑而非纯生成来构建稳定、泛化性强的半合成数据。
字节推出视觉-语言多模态大模型Seed1.5-VL,具备更强的通用多模态理解和推理能力,在视频理解、视觉推理等方面表现突出。
本文介绍了一种名为 DanceGRPO 的强化学习框架,在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试,并覆盖了文本到图像、视频等多种任务,展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。
浙江大学和哈佛大学的研究团队推出了In-Context Edit(ICEdit),一款基于指令的图像编辑框架,仅需极少的文本指令即可实现精准的图像修改。
最近的大语言模型在数学和编程等领域展示了强大的推理能力,通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中,提出了两种不同的层次的思维链(CoT):Semantic-CoT负责设计图像的整体结构,而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT,并引入多个视觉专家模型作为奖励模型来评估生成的图片质量,最终提出了一种新的文生图模型T2I-R1,显著提高了模型生成符合人类期望的结果的能力。
近年来,图提示作为一种轻量级迁移学习方法逐渐受到关注。该方法通过对输入图结构进行微调,在不修改模型参数的前提下适配新的任务场景,显著简化了模型部署流程。本文介绍了一项研究,提出从数据操作视角理解图提示的理论框架,并系统地分析和证明其有效性。