香港大学
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。
英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍
香港大学与英伟达联合推出广义空间传播网络(GSPN),通过二维线性传播和稳定性-上下文条件显著降低计算复杂度,提升视觉任务效率,并在多个视觉领域刷新性能纪录。
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术,显著提升扩散模型推理速度至原速的 27.6 倍,同时保持较高生成精度。
多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
DanceGRPO:首个统一视觉生成的强化学习框架
本文介绍了一种名为 DanceGRPO 的强化学习框架,在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试,并覆盖了文本到图像、视频等多种任务,展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。
零代码打造个人AI助手!AutoAgent:Manus和Deep Research的开源版方案!
一款完全自动化、零代码的 LLM 智能体框架 AutoAgent 由香港大学 HKUDS 团队开发并开源,目标是让 AI 开发无门槛。它支持三种使用模式和两种交互模式,内置向量数据库强化 AI 记忆能力。适用于智能搜索、数据分析、信息处理等场景,用户只需用日常语言描述需求即可生成智能助手。
CVPR 2025 比高斯更灵活!港大&VAST提出DRK:新型径向核泼溅
香港大学和VAST研究团队提出DRK,一种新型的三维场景表示方法,通过创新的核函数设计解决三维高斯在形状灵活性、边界控制和渲染排序方面的不足。