256M参数多模态OCR神器,0.35秒解锁全文档奥秘!
一款名为SmolDocling的轻量级OCR模型,仅256M参数,支持文档中的标题、正文、图表等多任务识别,并能导出为Markdown、HTML等多种格式。
一款名为SmolDocling的轻量级OCR模型,仅256M参数,支持文档中的标题、正文、图表等多任务识别,并能导出为Markdown、HTML等多种格式。
Seed-VC 是一款强大的开源语音转换和歌声转换工具,支持零样本语音克隆、实时语音转换及AI歌曲转换。它基于字节跳动 SEED-TTS 架构开发,延迟低至400毫秒,适用于配音、虚拟主播等场景。
OWL 是一个多智能体协作框架,支持在线搜索、多模态处理、浏览器操作和文件解析等核心功能,并提供丰富的工具包。支持多种安装方式,包括使用 uv 和 venv/pip/conda 安装,以及通过 Docker 运行。项目文档详尽,便于用户快速上手。
LangManus 是一款基于社区驱动的AI自动化框架,整合语言模型和专业工具,提供多智能体架构、强大LLM集成、丰富的工具集等特性。SmartRead 是一款自动注释技术PDF的AI工具,而Docs是一款开源协作文档编辑器。
SmolDocling-256M-preview 是一个多模态的图像-文本到文本模型,专为高效的文档转换而设计,能够处理科学和非科学文档。