TextHarmony 归档

NeurIPS 2024 感知理解生成三合一！TextHarmony定义OCR多任务统一新范式

2025年6月20日23时作者 PaperWeekly

，首次在 OCR 领域实现了视觉文本感知、理解与生成任务在单一模型中的统一，有效缓解了多模态生成中的

2025年6月12日8时作者极市干货

TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究，通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题，显著提高OCR相关任务性能。