ICCV 2025|BinEgo‑360:融合全景与双目第一视角的多模态场景理解workshop及挑战赛现已启动

BinEgo-360Workshop及挑战赛旨在探索融合全景与双目第一视角下的多模态视频理解任务,大赛包括两个赛道:复杂场景理解和时序动作定位。参赛者需基于360+x数据集完成相关任务,涵盖视觉、空间音频等多种模态信息。

松下HD开发多模态生成式AI“OmniFlow”,可实现文本、图像和音频之间的任意生成

松下研发的OmniFlow多模态生成式AI技术能够自由转换文本、图像及音频等多种数据格式,即使少量包含所有三种模态的数据也能学习高精度模型,显著降低创建训练数据的成本。