GitHubStore，作者每时AI

字节开源高效解析文档图像的新型多模态模型Dolphin，快速将复杂的文档图像转化为结构化数据。

2025年5月27日16时作者 GitHubStore

Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型，采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析，性能卓越。

2025年5月26日11时作者 GitHubStore

HuLa 是一款基于 Tauri、Vite 6、Vue 3 和 TypeScript 构建的即时通讯系统，利用多种技术栈提供高效、安全和易用的跨平台解决方案。

2025年5月25日8时作者 GitHubStore

BAGEL 是一个开源多模态基础模型，拥有70亿活跃参数，在标准多模态理解排行榜上超越了当前顶尖开源模型，并展示了高级编辑能力及扩展至世界建模的能力。

2025年5月23日11时作者 GitHubStore

Magentic-UI 是一个革命性的人机协作浏览器代理系统，由微软开源。它能通过透明可控界面让AI像真人一样操作浏览器执行复杂任务，包括表单填写、航班筛选和数据收集等。

2025年5月21日11时作者 GitHubStore

docext是无需OCR的新工具，用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。

2025年5月21日11时作者 GitHubStore

酷是一款多智能体自动化系统EvoAgentX，适用于复杂AI场景如医疗诊断和电商订单处理。它能自动生成工作流并集成进化算法优化智能体行为与结构。文章还介绍了如何安装、配置和使用EvoAgentX进行任务生成及优化。

2025年5月20日11时作者 GitHubStore

LocalSite AI 现已支持思维模型。一款现代化网页应用，利用AI生成HTML、CSS和JavaScript代码。支持多供应商API，包括Ollama本地模型。

2025年5月20日11时作者 GitHubStore

架。它能智能路由查询并在交互过程中维护上下文。
该系统提供预构建组件以便快速部署，同时允许轻松集成自

2025年5月19日8时作者 GitHubStore

py-xiaozhi 是一个基于Python实现的小智语音客户端，支持AI语音交互、多模态交互、智能家居控制等特性。兼容多种操作系统，并提供了丰富的IoT设备集成功能。

2025年5月18日8时作者 GitHubStore

AI Manus 是一个通用 AI Agent 系统，支持在沙盒环境中运行各种工具和操作。项目通过 Docker 和 Docker Compose 部署，并使用 OpenAI API 和 GPT 模型。