香港大学
2025 年 Next Token Prediction 范式会统一多模态吗?
本文介绍了多模态领域基于Next Token Prediction的最新进展,包括Tokenization技术、模型架构设计、训练方法与推理策略等,并提出了四个亟待解决的挑战。
MiniRAG:一个极致简洁、高效的新型RAG系统
香港大学提出MiniRAG,一种专为极简和高效设计的新型RAG系统,解决SLMs在语义理解和文本处理上的局限性。通过引入语义感知的异构图索引机制和轻量级拓扑增强检索方法,MiniRAG在使用SLMs时与基于LLM的方法性能相当,同时节省25%存储空间。
ACM Computing Surveys 港大等基于可靠性视角的深度伪造检测综述,覆盖主流基准库、模型
一篇深度伪造检测综述论文介绍了当前领域内的常用深度伪造基准数据库和代表性检测模型,提出了三个值得研究者们持续探索的话题和挑战(迁移性、可解释性和鲁棒性),并提出了一种新的评估深度伪造检测模型可靠性的方法。
UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律
香港大学与Adobe联合提出UniReal图像编辑生成新范式,通过大规模真实视频数据学习变化规律实现高保真效果。支持定制化生成、指令编辑和物体插入等多种任务。
西工大与微软等开源AI说唱模型!Freestyler:让AI成为你的说唱歌手!
西北工业大学与微软等团队联合推出开源项目Freestyler,能根据歌词和伴奏直接生成自然流畅的说唱人声,模仿指定歌手音色。
低成本机器人“皮肤”登上Nature子刊:实现三维力的自解耦,来自法国国家科学研究中心&香港大学
法国国家科学研究中心和香港大学的研究人员提出了一种基于柔性磁膜的触觉传感器,该传感器能够实现三维力的自解耦。通过设计正交磁化的Halbach阵列,可以简化传感器结构并降低标定复杂度,为低成本的三维力触觉传感提供了新思路。
你画 AI 猜,这个开源 AI 图像神器,在玩一种很新的 P 图
MagicQuill是一款AI图像编辑工具,无需写提示词就能理解用户画笔意图并编辑图片细节。它提供了加法、减法和颜色画笔三种功能,支持本地部署或在线使用。MagicQuill通过扩散模型和多模态大语言模型实现,让普通用户也能轻松使用AI进行图片编辑。
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成
Janus团队提出了一种名为JanusFlow的新模型,该模型结合了预训练视觉编码器与MLM的方法以及基于Rectified Flow的生成框架,实现了统一的视觉理解和生成能力。通过将理解与生成任务分别配置专用编码器,并利用REPA方法加速生成训练,JanusFlow在多模态理解和生成任务上表现出色。