视觉理解归档

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” UIUC＆阿里通义

2025年7月11日16时作者量子位

学香槟分校（UIUC）与阿里巴巴通义实验室联合推出了全新的
专注于多模态推理
的强化学习算法
PAP

2025年7月8日23时作者智东西

6月26日，首届2025中国AI算力大会在北京隆重举行。实在智能合伙人、核心算法负责人欧阳小刚在大会

2025年6月26日23时作者新智元

Meta从OpenAI苏黎世分部挖走三位顶尖研究员，引起广泛关注。这些研究员曾在谷歌工作并发表过多项重要研究成果，补足了Meta在视觉、图文理解方面研究的短板。

2025年6月25日11时作者硅星人Pro

域，正上演着一幕“奇特”的景象，一方面，是关于Agent能力极限的狂热探讨；但另一方面，是当这些光鲜

2025年5月27日23时作者新智元

，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这

2025年5月23日16时作者量子位

标准了！
来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联

2025年5月22日8时作者 NLP工程化

这是一个混合专家多模态模型，基于Qwen2.5-7B-Instruct和siglip-so400m-14-980-flash-attn2-navit模型微调，并使用FLUX.1-schnell VAE模型，支持视觉理解、文本到图像生成及图像编辑。

2025年5月17日8时作者 PaperWeekly

自 20 年 OpenAI 发布第一代图文跨模态模型 CLIP 以来已经过去了 5 年的时间。
第一

2025年4月25日23时作者量子位

阿里-高德团队提出组策略梯度优化GPG方法，仅需优化原始目标，解决已有方法偏差，提高训练效率。在实验中，GPG性能全面超越现有方法，有望成为下一代基础模型训练的关键方法。

2025年4月19日14时作者 AI信息Gap

理模型：一个是主打高性能的
o3
，一个是走轻量路线的
o4-mini
。
名字平平无奇，实则大有文