ICCV 2025|BinEgo‑360:融合全景与双目第一视角的多模态场景理解workshop及挑战赛现已启动
BinEgo-360Workshop及挑战赛旨在探索融合全景与双目第一视角下的多模态视频理解任务,大赛包括两个赛道:复杂场景理解和时序动作定位。参赛者需基于360+x数据集完成相关任务,涵盖视觉、空间音频等多种模态信息。
BinEgo-360Workshop及挑战赛旨在探索融合全景与双目第一视角下的多模态视频理解任务,大赛包括两个赛道:复杂场景理解和时序动作定位。参赛者需基于360+x数据集完成相关任务,涵盖视觉、空间音频等多种模态信息。
lan.zhihu.com/p/27428676605
编辑丨极市平台
极市导读
DINO V2从头
本期通讯解读 Agentic AI 时代的流量入口变化。通用 Agent 并非唯一可能性,不同玩家通过语音指令、自然语言编程等路径争夺新入口。
本文提出了一种新的基于搜索的视觉精度搜索方法,用于提高物体级基础模型的解释性,显著提升了可解释性、定位准确性和泛化能力。
本文介绍了一项研究,发现大多数语言模型缺乏人类的工作记忆能力。通过三组实验测试,表明模型在猜数字、是非问答和数学魔术任务中均无法有效保留信息。
清华大学等机构联合推出OneTwoVLA模型,实现机器人既能思考又能执行任务,兼容长程规划、错误检测与恢复、自然人机交互及通用视觉定位能力。
研究者 James Campbell 放弃博士学业加入 OpenAI,他致力于 AGI 和 ChatGPT 的记忆+人格研究。Campbell 本科毕业于康奈尔大学,曾从事多模态 AI 系统和模型基准测试工作。