字节开源多模态理解与生成统一模型,对视觉的理解到达开源顶峰,AI图片编辑能力超强。
字节跳动开源多模态模型BAGEL,支持图像生成、修改及动态变化理解。具备聊天、生成图片、编辑图片、风格转换和导航等能力。
字节跳动开源多模态模型BAGEL,支持图像生成、修改及动态变化理解。具备聊天、生成图片、编辑图片、风格转换和导航等能力。
上海人工智能实验室等团队发布全新图像编辑评测基准RISE,评估了九个视觉编辑模型的复杂指令理解和执行能力。结果显示GPT-4o-Image仅能完成28.9%的任务,显著低于预期;RISEBench覆盖时间、因果、空间和逻辑四种核心推理类型,为视觉编辑模型的发展提供了新的视角。
字节跳动发布的BAGEL是首个支持多模态输入输出、思维链推理和MOT架构优化的跨模态超级AI模型,性能超越Qwen2.5-VL、InternVL-2.5。它能理解图像更准确,生成图像媲美Stable Diffusion 3,并在10+基准测试中表现优异。