多模态大模型在OCR生成上表现如何?多页文档理解数据集Doc-750K

2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

大模型长文生成思路:融合多模态配图+细粒度引用方案-DeepWriter

2025年7月22日,北京晴。文章介绍了《DeepWriter》的工作思路和设计方法,包括分层知识表示、结构化写作流程、多模态内容融合以及细粒度引用等关键点,并详细讨论了离线知识库构建与在线写作流程中的核心技术。

征集全国首部AI大模型私有化部署标准起草单位和个人!21家单位已加入

《人工智能大模型私有化部署技术实施与评价指南》是国内首部针对AI大模型私有化部署的标准,旨在解决企业面临的技术选型混乱、算力资源错配等问题。

具身智能领域代表大模型及医疗多模态数据合成思路

2023年12月27日《Qwen2.5和RoboBrain 2.0在医疗领域与具身智能中的应用》介绍了Qwen2.5用于医疗领域的空间理解模型MedEvalKit以及RoboBrain 2.0 32B用于室内场景建模,强调了它们如何结合医学图像数据进行训练,并生成结构化的3D布局。