大模型
大语言模型
马斯克新模型曝光:Grok 4 和 Grok 4 Code 现身 xAI 控制台!
马斯克宣布xAI将跳过Grok 3.5,直接发布Grok 4。新模型包含两个版本:Grok 4和Grok 4 Code,具有强大的文本处理能力和编程相关任务支持。但Grok 4存在多模态限制及上下文长度不足的问题。
Agent做多模态RAG方案-MDocAgent及文档解析中的图像前处理问题
2025年7月3日星期四,北京下雨。介绍了多模态RAG进展,包括ColBERT和ColPali的局限性及标准框架问题。提出使用Agent进行内容过滤,并讨论了文档预处理,特别是非印刷体文档标准化的重要性。文章还提到MDocAgent项目及其五个专门智能体的工作流程和架构选型。同时探讨了文档图像增强问题,介绍了DocRes模型及其统一五种文档图像还原任务的通用模型。
【Agent专题】通用Agent篇:自规划、多智能体协作、图像生成全都要,这才是下一代Agent的天花板!
Manus作为AI Agent的新一代先锋,支持多智能体协作与自然语言任务规划,具备高度模块化和可扩展性,能够满足不同用户需求,助力构建专属智能代理体系。
ICML 2025 Entropy不灵了?北大港中文用“区域置信”重新定义模型的不确定性
来自北京大学与香港中文大学的最新研究提出 ReCAP 框架,成功打破熵最小化在 Test-Time Training 的性能瓶颈。论文提出区域置信度代理概念,通过优化区域内模型预测不确定性与稳定性之间的联系来提升下游任务泛化性能。
继续看真实场景下文档解析的8个另外问题:公式输出重复、阅读顺序评测等
今天继续记录一些关于文档解析的问题,包括内容遗漏、公式重复输出、大写识别、阅读顺序评测、合并页面和幻觉问题等8个典型问题,并探讨了这些问题在实际业务中的解决方案和理解。