多模态模型归档 - 第2页共8页

nanoVLM: 简洁、轻量的纯 PyTorch 视觉-语言模型训练代码库

2025年6月18日14时作者 Hugging Face

它是一个轻量级
工具包
，让你可以在
免费的 Colab Notebook
上启动 VLM 训练。

2025年6月11日16时作者 PaperWeekly

研究构建首个面向MLLM的细粒度AES基准EssayJudge，采用10项细粒度评分维度，涵盖词汇、句子和文章三个层级，评价作文质量。

2025年6月10日11时作者机器之心

王劲提出FUDOKI，一种基于非掩码离散流匹配架构的通用多模态模型，实现了图像生成与文本理解的统一建模。

2025年6月6日23时作者量子位

程马拉松长跑冠军天工、拳击冠军宇树G1，首次在
智源大会
相遇，
并且各自还秀上了一波技能。
首先来

2025年6月5日8时作者量子位

MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld，实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力，并揭示当前多模态Agent在高交互任务中的短板。

2025年5月27日23时作者量子位

香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX，评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%，远不及人类水平。

2025年5月23日16时作者量子位

标准了！
来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联

2025年5月21日23时作者 AI前线

般会把最好的模型留到 I/O 大会上发布。但在 Gemini 时代，谷歌很可能会在三月的某个周二突然

2025年5月21日16时作者 PaperWeekly

M）涌现，成为 AI 社区最重要的研究领域之一。我们见证着 MLLM 从“单科专家”向“全能通才”的