苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器 下午4时 2025/05/05 作者 新智元 研究发现原生早融合架构在低计算预算下性能更优,并引入混合专家技术显著提升了多模态模型的性能。
DeepSeek-VL2开源,VLM迈入MoE时代~ 下午10时 2024/12/13 作者 PaperAgent DeepSeek-VL2是先进的大型混合专家视觉-语言模型系列,显著改进了其前身DeepSeek-VL,在包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位等多种任务上表现出卓越的能力。