多模态大模型在OCR生成上表现如何?多页文档理解数据集Doc-750K
2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。
2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。
2025年7月22日,北京晴。文章介绍了《DeepWriter》的工作思路和设计方法,包括分层知识表示、结构化写作流程、多模态内容融合以及细粒度引用等关键点,并详细讨论了离线知识库构建与在线写作流程中的核心技术。
《人工智能大模型私有化部署技术实施与评价指南》是国内首部针对AI大模型私有化部署的标准,旨在解决企业面临的技术选型混乱、算力资源错配等问题。
2025年7月19日,北京晴。文章提到了近一周Agent进展中的ChatGPT推出Agent、Stagehand浏览器自动化工具、ART训练框架等,还介绍了上下文工程的技术总结综述及多智能体大模型在金融交易决策的应用。
今天讨论了大模型训练Agent-tool use的相关数据和工具。主要介绍了MSAgent-Bench-中文Agent数据集以及如何使用这些数据训练文本和多模态Agent,还提到了loss计算的设定方法。
2023年12月27日《Qwen2.5和RoboBrain 2.0在医疗领域与具身智能中的应用》介绍了Qwen2.5用于医疗领域的空间理解模型MedEvalKit以及RoboBrain 2.0 32B用于室内场景建模,强调了它们如何结合医学图像数据进行训练,并生成结构化的3D布局。