质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025
达摩院在ICLR 2025提出了动态架构DyDiT,通过智能资源分配将DiT模型的推理算力削减51%,生成速度提升1.73倍,FID指标几乎无损,并且仅需3%的微调成本。
达摩院在ICLR 2025提出了动态架构DyDiT,通过智能资源分配将DiT模型的推理算力削减51%,生成速度提升1.73倍,FID指标几乎无损,并且仅需3%的微调成本。
复旦大学和美团的研究者们提出UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾图文理解与图像生成任务,并在多个权威评测中取得领先性能表现。
阿里巴巴与浙江大学联合提出CMMCoT框架,融合多模态推理链与记忆增强机制,提升复杂多图像理解任务的跨图像推理和可解释性能力。
历时3个月的微软开发者挑战赛落下帷幕。1500+创新人才参赛,最终8支队伍晋级决赛。评委阵容豪华,涵盖微软及外部专家。选手们展示了AI智能体领域的创新成果,大赛揭晓了冠亚季军和6个专项大奖。
同济大学提出FaceShot,打破传统肖像动画局限,使非人类角色如表情包、玩具等也能’开口说话’。通过语义引导关键点匹配和坐标系建模动作变换,实现了高精度的动作迁移和身份保持。
通过SRPO方案,快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术,仅用10%的训练步数,在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。