Harmon:协调视觉表征,统一多模态理解和生成(模型已开源) 下午4时 2025/05/10 作者 机器之心 吴思泽博士生提出Harmon模型,通过统一多模态表征促进图像理解和生成。其框架包括共享MAR编码器和三阶段训练策略,在理解与生成任务中均取得显著效果,并优于现有统一模型。
让小模型也能有大作为!SANA 1.5:线性扩散Transformer再刷文生图新SOTA 下午12时 2025/03/15 作者 极市干货 0 blocks) 缩放到 4.8B (60 blocks),重用小模型的知识。不用从头开始训练模型