月度归档: 2025 年 3 月
OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!
最近AI圈最炸的瓜,是开源复刻Manus的项目Manus。Manus能远程开Ubuntu容器、自动挂载数据、做规划和执行任务。OWL项目直接复刻并超越了Manus的表现,已经开源。
5个人三小时复刻开源版Manus,邀请码也不需要了
5人团队3小时完成开源复刻版OpenManus,展示了模块化Agent系统、实时反馈机制及强大工具链等关键要素。通过对比官方demo和开源成果,揭示了实现Manus的合理路径及其背后的三大核心技术:模块化Agent系统、透明思维过程以及协作工具集。
中文准确率97%,OCR新王登场?1美元处理2000页文档,速度惊人
Mistral AI发布OCR模型Mistral OCR,以94.89的综合得分登顶Hacker News热榜。支持多语言、处理速度快,已在la Plateforme提供API服务。
千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷
Mistral AI 推出 OCR(光学字符识别)API Mistral OCR,号称「世界上最好的 OCR 模型」。该模型能够准确识别文档中的每个元素,并从复杂文本和图像中提取内容。
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。