统一多模态归档

NeurIPS 2024 TextHarmony：和谐统一的多模态文字理解与生成大模型

2025年6月12日8时作者极市干货

TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究，通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题，显著提高OCR相关任务性能。

2025年5月6日16时作者 PaperWeekly

文字生成图片、视频（生成任务）。
自回归模型（就是那种一个接一个预测下一个“词”的模型）在这两方面都