500万视频数据集+全新评测框架!北大开源主体一致性视频生成领域新基建OpenS2V-Nexus,生成视频 「像」 又 「自然」
北大团队推出OpenS2V-Nexus,包含全球首个面向主体一致性、自然度和文本对齐的S2V细粒度评测基准OpenS2V-Eval及500万高质量720P人物文本视频三元组数据集OpenS2V-5M,解决S2V模型泛化能力差、复制粘贴问题和人物一致性不足等问题。
北大团队推出OpenS2V-Nexus,包含全球首个面向主体一致性、自然度和文本对齐的S2V细粒度评测基准OpenS2V-Eval及500万高质量720P人物文本视频三元组数据集OpenS2V-5M,解决S2V模型泛化能力差、复制粘贴问题和人物一致性不足等问题。
苹果工程师庞若鸣即将加入Meta,后者为吸引其提供数千万美元薪酬。Meta正招聘多位顶尖AI领导者,包括前谷歌和苹果员工。
用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,许多复杂问题的解决都
2025世界人工智能大会WAIC将于上海举行。机器之心推出【AI面对面】栏目,帮助企业通过企业专访、展馆探展等方式展示技术能力与愿景,实现品牌传播和影响力提升。
本文提出了一种名为RoboRefer的多模态大模型,能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异,并已应用于多种机器人系统中。
本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉,不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象,导致语言主导现象频发。