PhysUniBenchmark:首个大规模多模态物理推理基准
首个大规模多模态物理推理基准PhysUniBenchmark发布,包含3304道经验证的物理问题,支持多语言评估,开放性问题准确率仅为26.5%。
首个大规模多模态物理推理基准PhysUniBenchmark发布,包含3304道经验证的物理问题,支持多语言评估,开放性问题准确率仅为26.5%。
加州大学圣克鲁斯分校提出GRIT模型,让多模态大语言模型既能条理清晰地思考又能真正将推理过程『落到画面』上。仅需20个带标注图像与问题的数据就能教会模型画框+推理,实现真正的‘图像思维’。
香港中文大学MMLab团队发布视觉推理方案MINT-CoT,专为解决数学视觉推理难题设计。该方法通过引入Interleave Token实现细粒度、轻量级的视觉交错CoT推理,显著提升多模态大模型在数学视觉推理任务中的表现。
TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究,通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题,显著提高OCR相关任务性能。
本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域,推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色,并展示了扩散模型在多模态理解领域的巨大潜力。
纽约大学与Adobe联合研究团队提出Satori系统,通过结合BDI模型、大语言模型结构认知及多模态指示生成技术,实现AR辅助系统的理解和行为判断能力升级。
研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。
SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型,支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。
Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型,能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术,能够实现统一处理图像、文字输入输出,表现出色的视觉理解和强大的图像生成功能。