学术归档 - 第87页共283页

ICML 2025 如何在合成文本数据时避免模型崩溃？

2025年5月14日23时作者机器之心

生成式人工智能技术下合成数据成为大模型训练的重要组成部分。然而，研究团队提出了一种创新方法Token-Level Editing，以避免模型崩溃问题，通过微编辑而非纯生成来构建稳定、泛化性强的半合成数据。

叶子豪、陈天奇等人开源项目FlashInfer入选，MLSys2025最佳论文奖公布

2025年5月14日23时作者机器之心

2025 公布了最佳论文奖。
今年的大奖颁发给了来自华盛顿大学、英伟达、Perplexity AI

ICML 2025 FG-CLIP：细粒度视觉和文本对齐，解决CLIP的”近视”问题！

2025年5月14日23时作者极市干货

IP的“近视”问题，被360搞定了。
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
FG-C

字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

2025年5月14日23时作者机器之心

字节推出视觉-语言多模态大模型Seed1.5-VL，具备更强的通用多模态理解和推理能力，在视频理解、视觉推理等方面表现突出。

2万字长文，YOLOv1-YOLOv11的十年全面进化综述！

2025年5月14日23时作者极市干货

O（You Only Look Once）系列模型自2015年推出以来，彻底变革了目标检测领域，以其

DanceGRPO：首个统一视觉生成的强化学习框架

2025年5月14日23时作者机器之心

本文介绍了一种名为 DanceGRPO 的强化学习框架，在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试，并覆盖了文本到图像、视频等多种任务，展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。

SGLang 源码学习笔记：Cache、Req与Scheduler

2025年5月14日19时作者 GiantPandaCV

41
前言
笔者一直想找个开源的推理引擎框架学习一下源代码，机缘巧合认识了 sglang 社区的朋友

在线教程丨9 秒处理一张图！In-Context Edit 高效图像编辑框架上线

2025年5月14日16时作者 HyperAI超神经

浙江大学和哈佛大学的研究团队推出了In-Context Edit（ICEdit），一款基于指令的图像编辑框架，仅需极少的文本指令即可实现精准的图像修改。

「R1时刻」降临！港中文MMLab定义文生图新范式，彻底告别“无脑画图”

2025年5月14日16时作者 PaperWeekly

最近的大语言模型在数学和编程等领域展示了强大的推理能力，通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中，提出了两种不同的层次的思维链（CoT）：Semantic-CoT负责设计图像的整体结构，而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT，并引入多个视觉专家模型作为奖励模型来评估生成的图片质量，最终提出了一种新的文生图模型T2I-R1，显著提高了模型生成符合人类期望的结果的能力。

ICML 2025 图提示到底“灵”在哪？港中文团队用数学告诉你答案！

2025年5月14日16时作者 PaperWeekly

近年来，图提示作为一种轻量级迁移学习方法逐渐受到关注。该方法通过对输入图结构进行微调，在不修改模型参数的前提下适配新的任务场景，显著简化了模型部署流程。本文介绍了一项研究，提出从数据操作视角理解图提示的理论框架，并系统地分析和证明其有效性。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30