GPT-4o-Image 归档

2.7M 样本即可同时支持图像理解、生成等多种任务！北大团队开源统一大模型UniWorld-V1

2025年6月12日8时作者极市干货

一个整合高分辨率对比语义编码器与多模态大模型的统一生成框架，仅用 2.7M 样本即支持图像理解、生成、编辑与感知等多种任务。

2025年5月30日16时作者量子位

上海人工智能实验室等团队发布全新图像编辑评测基准RISE，评估了九个视觉编辑模型的复杂指令理解和执行能力。结果显示GPT-4o-Image仅能完成28.9%的任务，显著低于预期；RISEBench覆盖时间、因果、空间和逻辑四种核心推理类型，为视觉编辑模型的发展提供了新的视角。