合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源

上海人工智能实验室开源生成式世界模型AETHER,首次实现大模型在真实世界中的3D空间决策与规划能力。通过「重建-预测-规划」一体化框架和几何空间建模,大幅提升模型空间推理的准确性与一致性,并成功实现在合成数据上零样本泛化至真实场景。

4月24日相约新加坡,请大家吃饭,还有超多岗位等你来

ICLR 大会在新加坡召开,机器之心联合多家机构举办「云帆・ICLR 2025 AI Talent Meetup」晚宴,为青年才俊提供与企业交流的机会。活动包括技术分享、互动体验和招聘宣讲等内容。

为大模型添加多模态能力——Mini DALL·E 3

北京理工大学等4大名校联合发布Mini DALL·E 3,无需额外训练即可为多数主流大模型添加文成图多模态输出能力。该系统由语言模型、路由器、适配器和图像生成模型四大模块组成,实现了用文本生成图像。

上海AI实验室发布通用具身智能仿真平台桃源2.0,三行代码定义任务,数采效率最高提升20倍

上海人工智能实验室发布通用具身智能仿真平台GRUtopia 2.0,通过通用模块化框架、场景资产自动化生成和高效数据采集系统三大革新,实现仅用三行代码定义任务,数据采集效率最高提升20倍。

上海AI Lab等提出GENOME(+)框架:单卡4090玩转10+大模型的种群进化

上海人工智能实验室联合东北大学提出GENOME(+)框架,创新性地将进化算法引入大语言模型的优化中,无需梯度优化即可实现模型群体动态优化,在多个数据集上表现出明显性能优势。

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。

上交CVPR 满分论文数据蒸馏技术,直接把 GPU 显存 “砍掉” 300 倍

一项研究提出了一种新的数据集蒸馏方法NCFM (Neural Characteristic Function Matching),大幅提升了性能并实现了资源效率的飞跃。它通过引入神经特征函数差异度量指标,解决了现有方法的局限性,仅需2.3GB显存即可在单张GPU上完成CIFAR-100无损蒸馏,并显著超越了现有的SOTA方法。

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

上海交通大学等联合研发的Light-A-Video技术无需训练即可实现零样本视频重打光,解决了视频编辑中的关键技术难题。该方法利用预训练模型和创新模块确保光照一致性和稳定性。