老刘说NLP，作者每时AI

多模态大模型在OCR生成上表现如何？多页文档理解数据集Doc-750K

2025年7月23日14时作者老刘说NLP

2025年7月23日，北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现；后者则针对多页理解问题，通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

2025年7月22日14时作者老刘说NLP

2025年7月22日，北京晴。文章介绍了《DeepWriter》的工作思路和设计方法，包括分层知识表示、结构化写作流程、多模态内容融合以及细粒度引用等关键点，并详细讨论了离线知识库构建与在线写作流程中的核心技术。

2025年7月22日14时作者老刘说NLP

度的结合，并且从用户的角度出发去解决问题，这个
受欢迎的概率以及成立性
会高一些。
而在众多方向当中

2025年7月21日14时作者老刘说NLP

.2,Qwen3-4B,SmolLM3-3B,DeepSeek-V3,Qwen3-235B-A22B

2025年7月21日14时作者老刘说NLP

《人工智能大模型私有化部署技术实施与评价指南》是国内首部针对AI大模型私有化部署的标准，旨在解决企业面临的技术选型混乱、算力资源错配等问题。

2025年7月19日14时作者老刘说NLP

2025年7月19日，北京晴。文章提到了近一周Agent进展中的ChatGPT推出Agent、Stagehand浏览器自动化工具、ART训练框架等，还介绍了上下文工程的技术总结综述及多智能体大模型在金融交易决策的应用。

2025年7月18日14时作者老刘说NLP

今天讨论了大模型训练Agent-tool use的相关数据和工具。主要介绍了MSAgent-Bench-中文Agent数据集以及如何使用这些数据训练文本和多模态Agent，还提到了loss计算的设定方法。

2025年7月17日14时作者老刘说NLP

2025年7月17日周四，文章总结了文档解析技术和多模态文档理解技术的现状和进展，包括方法对比、数据集以及代表性工作回顾等内容。

2025年7月17日14时作者老刘说NLP

如何结合自身的技术优势，在落地的具体过程中，贡献出自己的一套优势方案
，是大家所关注的点。
作为文档

2025年7月16日14时作者老刘说NLP

2023年12月27日《Qwen2.5和RoboBrain 2.0在医疗领域与具身智能中的应用》介绍了Qwen2.5用于医疗领域的空间理解模型MedEvalKit以及RoboBrain 2.0 32B用于室内场景建模，强调了它们如何结合医学图像数据进行训练，并生成结构化的3D布局。