AAAI 2025 高效桥接视觉和语言,字节、中大提出全新多模态大模型连接器

字节团队与中山大学合作提出的 ParGo 模型,通过融合全局视野和局部细节来高效连接视觉特征和语言模型(LLM),在多项基准测试中表现优异,并被选为 AAAI 2025 的入选论文。

OmAgent v0.2.2 重磅更新!智能体算子来袭,智能体评测平台同步启用!

OmAgent v0.2.2 新版本发布,引入了Agent Operator简化复杂智能体功能的调用,并推出了Open Agent Leaderboard开源评测平台,支持多种主流算法和模型,统一评估框架确保公平性。

港科大、地平线提出DrivingWorld:基于视频GPT构建自动驾驶世界模型

港科大与地平线联合提出DrivingWorld模型,采用基于自回归架构的方法实现精准的自动驾驶世界模型。通过空间-时间先解耦后融合机制和next-state预测策略,实现超长时序视频生成及可控性提升。