GitHubStore
让 AI 图像处理变得简单而强大Gemini Image App,现代化的全栈 AI 图像处理平台
集成了 Google Gemini、OpenCV 和 YOLO 等先进技术,提供图像问答、生成、编辑
完全开源低成本的双足机器人
Unitree Qmini是一款完全开源低成本双足机器人,可个人用户进行3D打印制作。它专为爱好者、教育工作者和研究人员设计,提供模块化组装方式,加速创新并推动全球机器人生态系统发展。
字节开源高效解析文档图像的新型多模态模型Dolphin,快速将复杂的文档图像转化为结构化数据。
Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型,采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析,性能卓越。
2.3k星!一款基于Tauri、Vite 6、Vue 3 和 TypeScript 构建的即时通讯系统HuLa
HuLa 是一款基于 Tauri、Vite 6、Vue 3 和 TypeScript 构建的即时通讯系统,利用多种技术栈提供高效、安全和易用的跨平台解决方案。
2天1k多星!BAGEL横空出世:字节跳动发布全球首个多模态全能AI,开启智能新纪元!
BAGEL 是一个开源多模态基础模型,拥有70亿活跃参数,在标准多模态理解排行榜上超越了当前顶尖开源模型,并展示了高级编辑能力及扩展至世界建模的能力。
这个AI浏览器代理太强了!让AI帮你自动完成复杂网页操作,微软开源新神器
Magentic-UI 是一个革命性的人机协作浏览器代理系统,由微软开源。它能通过透明可控界面让AI像真人一样操作浏览器执行复杂任务,包括表单填写、航班筛选和数据收集等。
无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext
docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。
自我进化的多智能体自动化系统EvoAgentX
酷是一款多智能体自动化系统EvoAgentX,适用于复杂AI场景如医疗诊断和电商订单处理。它能自动生成工作流并集成进化算法优化智能体行为与结构。文章还介绍了如何安装、配置和使用EvoAgentX进行任务生成及优化。