香港大学
CVPR 2025 VAST和北航开源MIDI,从单张图像端到端生成三维组合场景
本文介绍了一篇关于 MIDI 模型的研究论文,MIDI 能够从单张图像生成高几何质量的组合式 3D 场景。该模型在多个数据集上的表现超越现有方法,并有望应用于建筑设计、虚拟现实等多个领域。
2025 年 Next Token Prediction 范式会统一多模态吗?
本文介绍了多模态领域基于Next Token Prediction的最新进展,包括Tokenization技术、模型架构设计、训练方法与推理策略等,并提出了四个亟待解决的挑战。
MiniRAG:一个极致简洁、高效的新型RAG系统
香港大学提出MiniRAG,一种专为极简和高效设计的新型RAG系统,解决SLMs在语义理解和文本处理上的局限性。通过引入语义感知的异构图索引机制和轻量级拓扑增强检索方法,MiniRAG在使用SLMs时与基于LLM的方法性能相当,同时节省25%存储空间。
ACM Computing Surveys 港大等基于可靠性视角的深度伪造检测综述,覆盖主流基准库、模型
一篇深度伪造检测综述论文介绍了当前领域内的常用深度伪造基准数据库和代表性检测模型,提出了三个值得研究者们持续探索的话题和挑战(迁移性、可解释性和鲁棒性),并提出了一种新的评估深度伪造检测模型可靠性的方法。
UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律
香港大学与Adobe联合提出UniReal图像编辑生成新范式,通过大规模真实视频数据学习变化规律实现高保真效果。支持定制化生成、指令编辑和物体插入等多种任务。
西工大与微软等开源AI说唱模型!Freestyler:让AI成为你的说唱歌手!
西北工业大学与微软等团队联合推出开源项目Freestyler,能根据歌词和伴奏直接生成自然流畅的说唱人声,模仿指定歌手音色。