机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
香港大学与上海AI Lab联合提出的VLN-R1团队提出了一种新的视觉语言导航技术,无需依赖离散地图,在复杂环境中实现灵活感知、决策和行动。仅用20亿参数的Qwen模型在VLN-CE基准测试中超越了7B模型,并实现了长距离导航中的跨域迁移。
香港大学与上海AI Lab联合提出的VLN-R1团队提出了一种新的视觉语言导航技术,无需依赖离散地图,在复杂环境中实现灵活感知、决策和行动。仅用20亿参数的Qwen模型在VLN-CE基准测试中超越了7B模型,并实现了长距离导航中的跨域迁移。
本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。
香港大学与英伟达联合推出广义空间传播网络(GSPN),通过二维线性传播和稳定性-上下文条件显著降低计算复杂度,提升视觉任务效率,并在多个视觉领域刷新性能纪录。
Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术,显著提升扩散模型推理速度至原速的 27.6 倍,同时保持较高生成精度。
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
本文介绍了一种名为 DanceGRPO 的强化学习框架,在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试,并覆盖了文本到图像、视频等多种任务,展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。
一款完全自动化、零代码的 LLM 智能体框架 AutoAgent 由香港大学 HKUDS 团队开发并开源,目标是让 AI 开发无门槛。它支持三种使用模式和两种交互模式,内置向量数据库强化 AI 记忆能力。适用于智能搜索、数据分析、信息处理等场景,用户只需用日常语言描述需求即可生成智能助手。