视觉语言模型归档 - 第4页共4页

英伟达联合清华、MIT推出史上最快绘画大模型

2025年1月11日16时作者路过银河AI

英伟达联合清华大学、麻省理工大学推出Sana绘画模型，相比传统扩散模型在模型大小和推理速度方面有显著提升。其优势在于深度压缩自动编码器和高效的线性DiT模块。

Vision Parse：将PDF文档转换为Markdown的智能工具

2025年1月6日12时作者 NLP工程化

Vision Parse 是一款智能工具，利用先进的视觉语言模型能精准识别并提取文本、表格和公式，保留文档格式和层次结构，具备扫描文档智能处理、高级格式完整保留、多模型协同支持及私有化部署选项四大亮点。

视觉语言模型易受攻击？西安交大等提出基于扩散模型的对抗样本生成新方法

2024年12月28日8时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

DeepSeek-VL2开源MoE 视觉语言模型家族，Gemini英语口语助手，将 PDF 文档转换为互动式思维导图

2024年12月16日10时作者每日AI新工具

本文介绍了DeepSeek-VL2、Leffa、小红书笔记生成器、Gemini 英语口语助手和PDF Mind Map Maker等创新技术与应用。它们涵盖多模态视觉-语言模型、可控人物图像生成框架、笔记生成工具及AI英语口语辅助等多个领域，提供高效便捷的功能以提升用户在不同场景下的工作效率和体验质量。

视觉语言模型能否实现鲁棒的数学推理？UC伯克利发布测评基准DynaMath

2024年12月11日13时2024年11月23日20时作者 PaperWeekly

本文介绍了一项新的动态生成的测评基准DynaMath，用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型（如GPT-4o）在简单数学题上的表现，发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体，评估了14个最先进的视觉语言模型的表现，揭示了其推理稳健性的局限性。

多模态竞技场对标90B Llama 3.2！Pixtral 12B技术报告全公开

2024年11月19日13时作者每时AI

Mistral AI发布了自家首个多模态大模型Pixtral 12B，并详细介绍了其技术细节。Pixtral采用全新的视觉编码器，支持不同分辨率和纵横比的图像输入，性能优于多个开源模型和闭源模型，在多种实际场景下的评估中表现出色。

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31