新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

北大团队提出VARGPT模型,通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器,并采用三阶段训练策略优化性能。

化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升

北大师生团队提出OmniManip架构,通过双闭环系统实现VLM到机器人的泛化操作。关键设计包括基于物体的交互基元、循环规划和执行,显著提升性能,适用于多种真实任务。

北大数学校友胡懿娟归国任教!重回母校,专注于统计学、微生物学和遗传学的交叉领域

北大数学系校友胡懿娟回国后将继续专注于统计学、微生物学和遗传学的交叉领域。她毕业于北京大学,并在美国攻读博士学位。目前,她在北京大学北京国际数学研究中心担任教授。胡懿娟认为开放自由的工作环境对她的研究和人才培养都有益处。

北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25

北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标VE-Bench,并通过丰富且符合人类主观感受的数据集进行训练。该指标将视频的整体效果分成多个维度进行综合评价,包括文字-目标一致性、参考源与目标的关系、技术畸变和美学标准等多个方面。