极市干货，作者每时AI

ICCV’25 视觉Token跳起来！上交大×蚂蚁联手推出多模态通用加速框架

2025年7月10日23时作者极市干货

近日，上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架，该框架通过训练阶段的Skip-FFN和推理阶段的Skip KV-Cache机制减少视觉Token的冗余计算与保留关键信息，实现多模态模型在精度和效率上的双重优化。

ICCV 2025 32倍瘦身成功！英伟达最新DC-AR，秒杀扩散模型！图像生成进入“光速时代”

2025年7月10日23时作者极市干货

框架 DC-AR，通过创新的混合 tokenizer 和掩码自回归机制，在大幅降低计算成本的同时实现

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具

2025年7月9日23时作者极市干货

rt——一个基于多模态大语言模型的智能修图代理系统，用户只需通过自然语言指令，即可自动调用Light

ICCV 2025 腾讯优图实验室8篇论文入选，涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等方向

2025年7月9日23时作者极市干货

结果公布，腾讯优图实验室共有8篇论文入选，涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等前

「当YOLO遇上Attention」细数YOLO多个版本，YOLOv12究竟好在哪里？

2025年7月9日23时作者极市干货

顾了YOLOv12的创新之处，重点分析了其引入的区域注意力机制（A²）、残差高效层聚合网络（R-EL

你的Agent电脑助手正在踩雷！最新研究揭秘Computer-Use Agent的安全漏洞

2025年7月8日23时作者极市干货

中国科学技术大学、上海交通大学和上海 AI Lab 联合推出 CUAs 安全测试基准 RiOSWorld，全面评估 Computer-Use Agent 在真实电脑使用场景中的安全风险。实验结果显示大多数 Agent 风险意图率高且完成率高，指出当前多数基于 MLLM 的 CUA 缺乏风险意识。该研究已开源论文、项目官网及 GitHub 代码。