大模型归档 - 每时AI

文档多模态RAG方案哪个更好？9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025年9月1日19时作者老刘说NLP

文章介绍了多模态RAG进展和文档解析进展，包括评估数据集Double-Bench的亮点以及9个嵌入模型、4个MLM模型的选择，并探讨了不同框架的表现差异。同时提到了古籍文档合成工具及其特点。

2025年9月1日19时作者 AI技术研习社

代理相互发现和通信的方式。A2A 并不是复杂的集成设置，而是为代理提供了一种标准化的方式来找到彼此并

2025年9月1日19时作者 AI探索时代

文章讨论了大模型应用中处理大量数据遇到的效率瓶颈问题，并提出了多线程、批量传参等优化方案来提升性能。

2025年9月1日19时作者 AI信息Gap

的下一站，是落地，是算力，是行业化的真需求。
这句话听起来像废话，但放在工业领域里，它还远远没被兑

2025年8月9日0时作者路过银河AI

纳米AI推出智能体蜂群后显著提升。通过格力电器财报分析案例展示了其功能，包括生成报告、视频脚本、图片及最终视频制作，整个过程相对流畅。

2025年8月8日19时作者老刘说NLP

2025年8月8日周五，北京下雨。文章介绍了文档OCR研发的手写体数据合成项目和图文混排Benchmark，还提到了前端界面代码转写模型ScreenCoder。

2025年8月8日19时作者 AI探索时代

在大模型应用开发中，格式化输出是重要环节。以Langchain为例，其通过提示词告诉模型需要什么样的格式来实现数据的生成和解析。

2025年8月8日19时作者 AI信息Gap

GPT-5 正式发布，标志着OpenAI实现了模型的‘大一统’。它包括核心模型和思考模型，以及实时路由器。新推出三款不同功能的模型，支持多模态理解和深度推理，并公布了详细的API价格信息。

2025年8月6日12时作者路过银河AI

阿里开源Qwen-Image模型，拥有20B参数的MMDiT多模态扩散变换器，支持多种语言文本渲染和多样化艺术风格图像生成。该模型在复杂文本渲染和精确图像编辑方面取得显著进展，已在HuggingFace上排名首位。

2025年8月5日23时作者 PaperWeekly

uted Graphs），一个创新的自监督框架，通过量化技术将图的结构信息直接转换为离散 token