学术
李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
该研究提出了一种高效的方法来构建具有良好生成质量的混合架构,通过嫁接现有算子以实现显著加速,并在实时计算速度上实现了1.43倍的提升。
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
香港科技大学联合快手可灵团队提出EvoSearch方法,通过演化搜索提升视觉生成模型的性能。该方法无需训练参数,仅需计算资源即可在多个任务上取得显著最优效果,并且具有良好的扩展性和泛化性。
地铁换乘都搞不定?ReasonMap基准揭示多模态大模型细粒度视觉推理短板
ReasonMap 是首个聚焦于高分辨率交通图的多模态推理评测基准,用于评估大模型在理解图像细粒度结构化空间信息方面的能力。
早鸟票7.8截止|共启情感智能新时代:第五届中国情感计算大会开启注册!
第五届中国情感计算大会(CCAC 2025)将于7月18-20日在四川成都举办,聚焦情感计算与人工智能等领域的交叉融合。会议包含特邀报告、青年科学家论坛、企业论坛等多个环节,并提供多种注册方式和费用。
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
王劲提出FUDOKI,一种基于非掩码离散流匹配架构的通用多模态模型,实现了图像生成与文本理解的统一建模。