学术
银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
清华大学与银河通用联合发布全开源OpenWBT操作系统,支持多种机型、跨虚实控制,实现高效机器人数据采集。论文提出Real-world-Ready Skill Space框架解决仿真实验室到实际应用的迁移问题。
256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
抖音内容技术团队开源了ContentV,一种高效训练视频生成模型的方案,在有限资源下取得了与现有主流方案相近的生成效果。
视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
VidText 提出了一套全面的视频文本理解基准,覆盖 27 个真实场景和多种语言。它包含从视觉感知到跨模态推理的多个任务,评估模型在不同粒度上的表现,并揭示了影响性能的关键因素。