ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景
AIxiv专栏分享了一项名为AVD2的研究成果,旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述一致的事故视频并结合多任务学习技术,AVD2增强了事故分析能力,并提出了一个新的数据集EMM-AU来推动相关研究。
AIxiv专栏分享了一项名为AVD2的研究成果,旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述一致的事故视频并结合多任务学习技术,AVD2增强了事故分析能力,并提出了一个新的数据集EMM-AU来推动相关研究。
研究者提出了一种多元推理方法,结合多种模型和方法来提高推理模型在复杂基准上的准确率。该方法通过交互式定理证明器、代码自动验证和 best-of-N 算法等技术,显著提升了 IMO 组合问题和 ARC 谜题的解决能力,并解决了大量人类无法解答的问题。
MITracker提出了一种高效的多视角跟踪方法,通过融合多视角特征解决了传统单视角跟踪中的遮挡和目标丢失问题。该研究构建了大规模的多视角跟踪数据集MVTrack,并提出了类无关的多视角跟踪方案MITracker,在多个评估指标上达到了最先进的性能。
AAAI 2025 共有 12957 篇有效投稿,录用 3032 篇,录取率为 23.4%。三篇杰出论文分别由南京大学、多伦多大学和波尔多大学等机构的研究者获得。AI 对社会影响特别奖颁发给斯坦福大学等机构的 DivShift 研究。
OmniParser V2 是通过更大规模的交互元素检测数据和图标功能描述数据训练,实现更高效的 GUI 解析,并在 ScreenSpot Pro 基准测试中取得了 39.6 的 SOTA 准确率。
,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightV