紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 ACL 2025

通过识别并增强视觉敏感的注意力头,中科院自动化所联合新加坡国立大学、东南大学提出了一种高效解决大模型幻觉问题的新方法VHR。该技术量化注意力头对视觉信息的敏感度,并动态强化这些视觉感知头,显著降低模型基于语言先验而产生的幻觉现象。

ICML 2025 Agentic时代唤醒NAS”第二春”!智能体超网动态组队,推理成本暴降55%

大语言模型驱动的多智能体系统在构建时面临手动设计和调试的瓶颈。新加坡国立大学等团队推出MaAS框架,利用智能体超网技术实现按需定制的动态智能体服务,提高效率并降低成本。

强化学习之父:LLM主导只是暂时,扩展计算才是正解

新晋图灵奖得主Richard Sutton预测大模型主导是暂时的,未来五年甚至十年内AI和强化学习将转向通过Agent与世界的第一人称交互获取‘体验数据’的学习。他强调AI需要新的数据来源,并且要随着增强而改进。他认为真正的突破还是来自规模计算。

CogMAEC@ACM MM 2025火热征稿中!探索多模态共情智能的认知密码

本次研讨会聚焦于认知导向的多模态情感计算,旨在推动AI从感知走向理解,共吸引来自全球不同高校的研究者和开发者参与。

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

近年来多模态大模型在理解和复杂推理任务中取得进展,但其对高分辨率图像(如地铁图)的理解能力仍存争议。为此,西湖大学、新加坡国立大学等团队提出ReasonMap评测基准,聚焦于高分辨率交通图的多模态推理,发现当前开源模型存在性能瓶颈,并指出强化学习后训练模型在某些维度上优于现有模型。

在线教程|新加坡国立大学 Show Lab 发布 OmniConsistency 模型,实现即插即用的图像风格迁移

新加坡国立大学发布OmniConsistency,利用大规模扩散Transformer实现图像风格化的一致性插件,显著提升视觉连贯性和美学质量,填补开源与商业模型在风格一致性上的性能差距。

迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA

本文首次系统性地研究并提出了高效建模长上下文视频生成的方法,通过重构视频生成任务为逐帧预测,并引入长短时上下文的非对称patchify策略和多层KV Cache机制,实现了高效的长视频训练与长上下文视频生成。