学术归档 - 第52页共283页

ICCV 2025｜BinEgo‑360：融合全景与双目第一视角的多模态场景理解workshop及挑战赛现已启动

2025年6月15日23时作者极市干货

BinEgo-360Workshop及挑战赛旨在探索融合全景与双目第一视角下的多模态视频理解任务，大赛包括两个赛道：复杂场景理解和时序动作定位。参赛者需基于360+x数据集完成相关任务，涵盖视觉、空间音频等多种模态信息。

2025年6月15日23时作者极市干货

（Perceive Anything Model）的新型区域级视觉-语言模型，它能够同时完成图像和视

2025年6月15日23时作者极市干货

lan.zhihu.com/p/27428676605
编辑丨极市平台
极市导读
DINO V2从头

2025年6月15日16时作者机器之心

信以为真。但它究竟是真实记录，还是由顶尖 AI 精心炮制的「杰作」？如果一个 AI 工具告诉你这是「

2025年6月15日16时作者机器之心

本期通讯解读 Agentic AI 时代的流量入口变化。通用 Agent 并非唯一可能性，不同玩家通过语音指令、自然语言编程等路径争夺新入口。

2025年6月15日16时作者机器之心

本文提出了一种新的基于搜索的视觉精度搜索方法，用于提高物体级基础模型的解释性，显著提升了可解释性、定位准确性和泛化能力。

2025年6月15日16时作者机器之心

本文介绍了一项研究，发现大多数语言模型缺乏人类的工作记忆能力。通过三组实验测试，表明模型在猜数字、是非问答和数学魔术任务中均无法有效保留信息。

2025年6月15日16时作者机器之心

生小王、小李、小赵正疯狂调整模型参数，只为在 NeurIPS 截稿前将准确率从 98.2% 刷到 9

2025年6月15日16时作者机器之心

清华大学等机构联合推出OneTwoVLA模型，实现机器人既能思考又能执行任务，兼容长程规划、错误检测与恢复、自然人机交互及通用视觉定位能力。

2025年6月15日16时作者机器之心

研究者 James Campbell 放弃博士学业加入 OpenAI，他致力于 AGI 和 ChatGPT 的记忆+人格研究。Campbell 本科毕业于康奈尔大学，曾从事多模态 AI 系统和模型基准测试工作。