多模态模型
ACL 2025 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
研究构建首个面向MLLM的细粒度AES基准EssayJudge,采用10项细粒度评分维度,涵盖词汇、句子和文章三个层级,评价作文质量。
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
王劲提出FUDOKI,一种基于非掩码离散流匹配架构的通用多模态模型,实现了图像生成与文本理解的统一建模。
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。
AI学习如何连接视觉和声音,无需人工干预
研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。
多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
谷歌AI核爆:升级全系模型,Gemini 2.5双榜登顶!所有产品用AI重做,OpenAI如何接招?
般会把最好的模型留到 I/O 大会上发布。但在 Gemini 时代,谷歌很可能会在三月的某个周二突然