CVPR2025|突破数据瓶颈!Stable Diffusion 助力视觉异常检测,无需训练即可生成真实多样异常样本

本文介绍了一种名为AnomalyAny的创新框架,利用Stable Diffusion生成能力仅需单个正常样本和文本描述即可生成逼真且多样化的异常样本,解决了视觉异常检测中异常样本稀缺的问题。

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

上海交大等团队推出Visual-ARFT项目,专为视觉语言模型设计多模态智能体训练方法,实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o,展现强大工具调用和推理能力。