20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

加州大学圣克鲁斯分校提出GRIT模型,让多模态大语言模型既能条理清晰地思考又能真正将推理过程『落到画面』上。仅需20个带标注图像与问题的数据就能教会模型画框+推理,实现真正的‘图像思维’。

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

香港中文大学MMLab团队发布视觉推理方案MINT-CoT,专为解决数学视觉推理难题设计。该方法通过引入Interleave Token实现细粒度、轻量级的视觉交错CoT推理,显著提升多模态大模型在数学视觉推理任务中的表现。

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。

英伟达开源「描述一切」模型,拿下7个基准SOTA

研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。

首个开源无限时长AI电影生成模型,未来AI生成电影就像生成小说一样简单。

SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型,支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。

多模态AI模型再添猛将!Liquid:字节最新开源的多模态LLM,视觉与语言统一生成!

Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型,能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术,能够实现统一处理图像、文字输入输出,表现出色的视觉理解和强大的图像生成功能。