为大模型添加多模态能力——Mini DALL·E 3

北京理工大学等4大名校联合发布Mini DALL·E 3,无需额外训练即可为多数主流大模型添加文成图多模态输出能力。该系统由语言模型、路由器、适配器和图像生成模型四大模块组成,实现了用文本生成图像。

上海AI实验室发布通用具身智能仿真平台桃源2.0,三行代码定义任务,数采效率最高提升20倍

上海人工智能实验室发布通用具身智能仿真平台GRUtopia 2.0,通过通用模块化框架、场景资产自动化生成和高效数据采集系统三大革新,实现仅用三行代码定义任务,数据采集效率最高提升20倍。

上海AI Lab等提出GENOME(+)框架:单卡4090玩转10+大模型的种群进化

上海人工智能实验室联合东北大学提出GENOME(+)框架,创新性地将进化算法引入大语言模型的优化中,无需梯度优化即可实现模型群体动态优化,在多个数据集上表现出明显性能优势。

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。

上交CVPR 满分论文数据蒸馏技术,直接把 GPU 显存 “砍掉” 300 倍

一项研究提出了一种新的数据集蒸馏方法NCFM (Neural Characteristic Function Matching),大幅提升了性能并实现了资源效率的飞跃。它通过引入神经特征函数差异度量指标,解决了现有方法的局限性,仅需2.3GB显存即可在单张GPU上完成CIFAR-100无损蒸馏,并显著超越了现有的SOTA方法。

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

上海交通大学等联合研发的Light-A-Video技术无需训练即可实现零样本视频重打光,解决了视频编辑中的关键技术难题。该方法利用预训练模型和创新模块确保光照一致性和稳定性。

AI革新科研模式,上海AI Lab「AI4S攀登者行动计划」开放申请

AI4S攀登者行动计划旨在解决传统研究模式的限制,推动具有重大变革潜力的下一代技术。该计划聚焦发展跨学科颠覆式创新,并通过多维度的支持体系助力科研团队加速项目实施和价值转化。

书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型

上海人工智能实验室对书生大模型进行了升级,推出了InternLM3.0版本,通过精炼数据框架提升了数据效率和思维密度,节约了75%以上训练成本,并实现了常规对话与深度思考能力融合。