炸裂!DeepSeek 的新春礼物——多模态模型Janus-Pro 详解
DeepSeek发布Janus-Pro模型,实现图文理解和图像生成的双面杀手。该模型通过解耦视觉编码路径实现了真正的”一心二用”,并采用统一架构设计、精心训练策略和MIT开源协议。其在理解任务得分0.8和生成质量上碾压DALL-E 3等主流模型。
DeepSeek发布Janus-Pro模型,实现图文理解和图像生成的双面杀手。该模型通过解耦视觉编码路径实现了真正的”一心二用”,并采用统一架构设计、精心训练策略和MIT开源协议。其在理解任务得分0.8和生成质量上碾压DALL-E 3等主流模型。
美股科技股今日全线崩盘,英伟达股价暴跌近17%,市值一夜间跌破6000亿美元。Karpathy指出,开发前沿AI模型并不需要大规模GPU集群。英伟达市值缩水超过苹果和可口可乐总值。
DeepSeek发布新模型Janus-Pro-7B,击败DALL-E 3和Stable Diffusion,在GenEval和DPG-Bench基准测试中表现优异。该模型基于自回归框架设计,采用SigLIP-L视觉编码器进行多模态理解和生成。
北大团队提出VARGPT模型,通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器,并采用三阶段训练策略优化性能。