35%准确率蒸发!字节&华科WildDoc揭示多模态文档理解鲁棒性短板
多模态大模型在文档理解领域的性能显著,但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc,揭示了当前模型的不足,并提出改进策略。
多模态大模型在文档理解领域的性能显著,但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc,揭示了当前模型的不足,并提出改进策略。
Vui 是一款能在本地设备上运行的小型对话式语音模型,包含 Vui.BASE、Vui.ABRAHAM 和 Vui.COHOST 三个版本,分别支持单人对话和两人互动,并具备上下文感知能力。
ADB-MCP项目通过四层架构实现AI对Adobe软件的精准操控,涵盖AI与MCP服务器交互、Node.js代理服务器中转、Adobe应用插件执行以及软件反馈与闭环机制。
最近发现一款名为TradingAgents的开源多智能体交易系统,通过模拟真实交易团队分工协作和双模型驱动等特性,在金融投资领域显著优于传统模型。
本文介绍的工作基于先前发布的8B扩散语言模型LLaDA,提出了方差缩减的偏好优化方法VRPO,并利用VRPO对LLaDA进行了强化对齐,推出了LLaDA 1.5。该模型在数学、代码和对齐任务上取得了提升,具有竞争力优势。
最新研究质疑苹果认为推理模型具备真正逻辑思维能力的观点,指出其在面对复杂问题时表现不佳,并可能陷入性能与思考努力双重崩溃的现象。