ICML 2025 何恺明团队提出:高度压缩的Tokenizer可直接用于图像生成

本文提出仅用32个一维离散 token 的高度压缩 TiTok tokenizer,无需训练额外生成模型,通过测试时梯度优化即可完成图像生成、编辑和修复任务。发现极致压缩提高了生成质量,挑战了传统“先压缩后生成”范式。

字节开源了一款多模态神器!BAGEL上线,超越Qwen2.5-VL,媲美SD3!

字节跳动发布的BAGEL是首个支持多模态输入输出、思维链推理和MOT架构优化的跨模态超级AI模型,性能超越Qwen2.5-VL、InternVL-2.5。它能理解图像更准确,生成图像媲美Stable Diffusion 3,并在10+基准测试中表现优异。