刷新3D生成上限!一键生成精细到毛发的3D资产
Ultra3D提出了一种高效的三维生成框架Ultra3D,通过coarse-to-fine两阶段流程和局部化的Part Attention机制,显著提升了稀疏体素建模效率,实现了高达6.7倍的加速比,并保持了高质量输出。
Ultra3D提出了一种高效的三维生成框架Ultra3D,通过coarse-to-fine两阶段流程和局部化的Part Attention机制,显著提升了稀疏体素建模效率,实现了高达6.7倍的加速比,并保持了高质量输出。
本文提出了一种无监督视觉思维链推理新框架UV-CoT,通过自动化的偏好数据生成与评估机制,在不依赖人工标注的情况下实现了图像级思维链学习。该方法显著提升了模型的空间感知与图文推理能力。
AIGC专业社区关注微软、百度等大模型进展。南洋理工大学等团队开源长记忆世界模型WORLDMEM,突破3D空间一致性难题。该模型通过独特的记忆机制,持续记录虚拟世界的视觉和状态信息,支持动态更新与高效检索。
该综述全面调研了3D场景生成领域,将现有方法划分为四大类,并揭示了不同方法在可控性、真实性、效率与一致性之间的权衡,提出了高质量数据瓶颈和评估缺乏统一标准等四大挑战及未来发展方向。
A Survey on Trustworthy LLM Agents: Threats and Countermeasures, a study by researchers from Nanyang Technological University and Squirrel AI, categorizes Agent safety issues into internal (Brain, Memory, Tool) and external (User, Agent, Environment) modules. It provides insights for future research directions such as collaborative security mechanisms and adversarial robustness training methods.
TrustAgent Survey 是一项研究综述工作,系统性地概述了可信大型语言模型代理的安全模块化体系架构,聚焦于凝练 Agent 安全的研究进展,并提出未来研究方向和展望。
第五届对抗机器学习Workshop将在2025年6月的CVPR会议上举行,主题为’基础模型+X’。研讨会旨在探讨基础模型及其特定领域应用中的鲁棒性挑战,并设立最佳论文奖等奖项吸引投稿。
DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。
西湖大学等团队提出StyleStudio,通过跨模态AdaIN技术、教师模型稳定布局及基于风格的无分类器引导,有效解决文本驱动风格迁移中的对齐问题、布局不稳定和模糊性等问题,提升生成图像质量和稳定性。
近年来,群体机器人系统通过多个简单个体协同工作,在物流、医疗等领域应用广泛。南洋理工大学教授提出的新控制算法TGI显著提高了昆虫的安全性、续航能力和适应性,减少了纠缠现象的发生,并能帮助翻倒的昆虫重新站起来,增强了群体整体韧性。