极市干货，作者每时AI

鸽了两年放大招！稚晖君发布灵犀X2，上演“自行车杂技”+“葡萄缝针”神技，比人还会演

2025年3月12日23时作者极市干货

智元 X-Lab 发布灵犀 X2 具身智能机器人，具备运动控制、交互智能等能力。采用强化学习策略和多模态感知模型，实现高效协同作业、任务分解与精细动作序列生成。

CVPR 2025 满分论文！重建 vs 生成：解决扩散模型中的优化难题

2025年3月12日23时作者极市干货

本文提出了一种名为VA-VAE的方法，通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐，解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256×256生成任务上取得了最佳性能，FID得分1.35，并在64个epoch内达到2.11的FID得分，显著提升了训练效率。

填问卷领干货｜邀您填写AI行业人才发展现状调研问卷

2025年3月12日23时作者极市干货

为了了解AI行业从业者的发展现状，极市平台开展了一次问卷调研，旨在提供有针对性的内容分享、培训课程和赛事活动，并邀请用户填写以获取福利。

ICLR 2025 Spotlight｜Serge Belongie组与ETH提出：「免费」多模态信息助力3D小样本分割！

2025年3月11日23时作者极市干货

创新方法：在无需额外标注成本的前提下，融合了文本，2D，3D信息，助力模型更好地适应到新类别。
>>

CVPR 2025 扩散模型炼出新绝技！注意力蒸馏技术：图像生成效果全面碾压传统方法

2025年3月11日23时作者极市干货

介绍了一种名为“注意力蒸馏”的新技术，通过新颖的注意力蒸馏损失函数和改进的分类器引导采样方法，显著提

MINT-1T 数据集是一个 1 万亿个文本标记和 34 亿张图像的开源数据集，扩展了现有开源数据集的 10 倍。WuDaoCorpora 是一个由北京智源人工智能研究院构建的大规模、高质量数据集。Conceptual Captions 提供超过 300 万张带有自然语言字幕的配对图像。SBU Captions 数据集中有 100 万带标题的照片描述图像。MiniGPT-4 使用高质量图文对进行微调，Ego-Exo4D 包含三种精心同步的语言视频数据集。