NeurIPS 2024 TextHarmony:和谐统一的多模态文字理解与生成大模型 上午8时 2025/06/12 作者 极市干货 TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究,通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题,显著提高OCR相关任务性能。