化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
北大师生团队提出OmniManip架构,通过双闭环系统实现VLM到机器人的泛化操作。关键设计包括基于物体的交互基元、循环规划和执行,显著提升性能,适用于多种真实任务。
北大师生团队提出OmniManip架构,通过双闭环系统实现VLM到机器人的泛化操作。关键设计包括基于物体的交互基元、循环规划和执行,显著提升性能,适用于多种真实任务。
本文介绍了多模态领域基于Next Token Prediction的最新进展,包括Tokenization技术、模型架构设计、训练方法与推理策略等,并提出了四个亟待解决的挑战。
北大数学系校友胡懿娟回国后将继续专注于统计学、微生物学和遗传学的交叉领域。她毕业于北京大学,并在美国攻读博士学位。目前,她在北京大学北京国际数学研究中心担任教授。胡懿娟认为开放自由的工作环境对她的研究和人才培养都有益处。
微软发布rStar-Math技术,让小型语言模型具备深度思考能力。通过蒙特卡罗树搜索方法,该技术在多个开源模型测试中取得了显著提升,甚至超越了OpenAI的o1-preview系统。
北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标VE-Bench,并通过丰富且符合人类主观感受的数据集进行训练。该指标将视频的整体效果分成多个维度进行综合评价,包括文字-目标一致性、参考源与目标的关系、技术畸变和美学标准等多个方面。
今天推荐的BrushEdit是由北京大学、腾讯、中国香港大学和清华大学联合发布的开源项目,其通过双分支修复模型实现基于提示词的图像编辑功能。
中国AI创业者倾向于在毕业学校所在地或之前工作过的公司所在地创业。以清华、北大、浙大等高校为例,AI创业者更倾向于在北京、上海和浙江注册公司;而阿里系、百度系及腾讯系的AI创业者则偏好选择在浙江、北京和广东等地。
极佳科技团队通过ReconDreamer实现自动驾驶场景的自由视角重建与生成。该模型仅需单视角输入视频,即可通过世界模型训练减少伪影并进行渐进式修复,显著提升大范围相机运动下的渲染质量,媲美专业三维重建技术。
北大与字节跳动团队的论文《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》获得NeurIPS 2024最佳论文奖。该模型提出了多尺度预测的新范式,显著提升了图像生成的效率和质量,并在视觉生成领域验证了‘规模化定律’。