字节开源高效解析文档图像的新型多模态模型Dolphin,快速将复杂的文档图像转化为结构化数据。
Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型,采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析,性能卓越。
Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型,采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析,性能卓越。
HuLa 是一款基于 Tauri、Vite 6、Vue 3 和 TypeScript 构建的即时通讯系统,利用多种技术栈提供高效、安全和易用的跨平台解决方案。
BAGEL 是一个开源多模态基础模型,拥有70亿活跃参数,在标准多模态理解排行榜上超越了当前顶尖开源模型,并展示了高级编辑能力及扩展至世界建模的能力。
Magentic-UI 是一个革命性的人机协作浏览器代理系统,由微软开源。它能通过透明可控界面让AI像真人一样操作浏览器执行复杂任务,包括表单填写、航班筛选和数据收集等。
docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。
酷是一款多智能体自动化系统EvoAgentX,适用于复杂AI场景如医疗诊断和电商订单处理。它能自动生成工作流并集成进化算法优化智能体行为与结构。文章还介绍了如何安装、配置和使用EvoAgentX进行任务生成及优化。
LocalSite AI 现已支持思维模型。一款现代化网页应用,利用AI生成HTML、CSS和JavaScript代码。支持多供应商API,包括Ollama本地模型。
py-xiaozhi 是一个基于Python实现的小智语音客户端,支持AI语音交互、多模态交互、智能家居控制等特性。兼容多种操作系统,并提供了丰富的IoT设备集成功能。
AI Manus 是一个通用 AI Agent 系统,支持在沙盒环境中运行各种工具和操作。项目通过 Docker 和 Docker Compose 部署,并使用 OpenAI API 和 GPT 模型。