滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态新模型:7B超越DALL-E 3和StableDiffusion

DeepSeek发布新模型Janus-Pro-7B,击败DALL-E 3和Stable Diffusion,在GenEval和DPG-Bench基准测试中表现优异。该模型基于自回归框架设计,采用SigLIP-L视觉编码器进行多模态理解和生成。

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

北大团队提出VARGPT模型,通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器,并采用三阶段训练策略优化性能。