香港大学归档 - 第2页共4页

英伟达港大联手革新视觉注意力机制！GSPN高分辨率生成加速超84倍

2025年6月10日16时作者量子位

香港大学与英伟达联合推出广义空间传播网络(GSPN)，通过二维线性传播和稳定性-上下文条件显著降低计算复杂度，提升视觉任务效率，并在多个视觉领域刷新性能纪录。

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

2025年5月30日16时作者机器之心

Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术，显著提升扩散模型推理速度至原速的 27.6 倍，同时保持较高生成精度。

多模态模型具备“物理推理能力”了吗？新基准揭示：表现最好的GPT-o4 mini也远不及人类！

2025年5月27日23时作者量子位

香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX，评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%，远不及人类水平。

DanceGRPO：首个统一视觉生成的强化学习框架

2025年5月14日23时作者机器之心

本文介绍了一种名为 DanceGRPO 的强化学习框架，在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试，并覆盖了文本到图像、视频等多种任务，展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

2025年4月2日16时作者机器之心

上海创智学院联合香港大学提出MTGS方法，通过多轨迹数据融合解决高精度仿真难题，提升感知相似度23.5%，深度误差降低46.3%。

零代码打造个人AI助手！AutoAgent：Manus和Deep Research的开源版方案！

2025年4月2日8时作者开源星探

一款完全自动化、零代码的 LLM 智能体框架 AutoAgent 由香港大学 HKUDS 团队开发并开源，目标是让 AI 开发无门槛。它支持三种使用模式和两种交互模式，内置向量数据库强化 AI 记忆能力。适用于智能搜索、数据分析、信息处理等场景，用户只需用日常语言描述需求即可生成智能助手。

CVPR 2025 比高斯更灵活！港大&VAST提出DRK：新型径向核泼溅

2025年3月31日23时作者极市干货

香港大学和VAST研究团队提出DRK，一种新型的三维场景表示方法，通过创新的核函数设计解决三维高斯在形状灵活性、边界控制和渲染排序方面的不足。

CVPR 2025 比高斯更灵活！港大、VAST提出DRK：新型径向核泼溅

2025年3月31日16时作者 PaperWeekly

在3D场景重建与表示领域，三维高斯由于其内在的核表示缺乏灵活度，在形状灵活性、边界控制以及排序方式上存在挑战。研究团队提出了一种创新的核函数——Deformable Radial Kernel Splatting (DRK)，用于三维场景表示，能够使用更少的核数量实现高质量渲染，并具备不同的参数调整其形状、曲率和锐化度等特性。

自动驾驶首次应用测试时计算！港大英伟达等新技术让AI边开边学，无人车遇变道自如应对

2025年3月29日16时作者量子位

香港大学、英伟达和图宾根大学联合提出Centaur方法，通过在线数据驱动动态调整模型权重，提高自动驾驶汽车在不确定性场景中的适应性和安全性。论文已上传至arXiv，代码和checkpoint即将开源。

Adobe黑科技：视频扩散降维图像编辑，ObjectMover秒懂物理规律

2025年3月29日16时作者机器之心

论文提出的新模型ObjectMover结合视频扩散模型和虚幻引擎合成数据，实现了图像中物体的真实感移动。它不仅能处理物体的插入、删除和移动任务，还能有效保持物体的身份特征及光照效果。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28