学术
256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
抖音内容技术团队开源了ContentV,一种高效训练视频生成模型的方案,在有限资源下取得了与现有主流方案相近的生成效果。
视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
VidText 提出了一套全面的视频文本理解基准,覆盖 27 个真实场景和多种语言。它包含从视觉感知到跨模态推理的多个任务,评估模型在不同粒度上的表现,并揭示了影响性能的关键因素。
ICML 2025 Agentic时代唤醒NAS”第二春”!智能体超网动态组队,推理成本暴降55%
大语言模型驱动的多智能体系统在构建时面临手动设计和调试的瓶颈。新加坡国立大学等团队推出MaAS框架,利用智能体超网技术实现按需定制的动态智能体服务,提高效率并降低成本。
Magistral发布:用纯RL打造出首个多语言、透明Reasoning大模型!
MLNLP社区介绍其致力于促进国内外自然语言处理领域的交流合作,Magistral通过纯强化学习训练提高解题能力,成果包括在AIME数学竞赛上的显著提升,在多种场景下的表现及未来研究方向的探索。