开源归档 - 第112页共201页

256M参数多模态OCR神器，0.35秒解锁全文档奥秘！

2025年3月20日8时作者开源星探

一款名为SmolDocling的轻量级OCR模型，仅256M参数，支持文档中的标题、正文、图表等多任务识别，并能导出为Markdown、HTML等多种格式。

2025年3月19日16时作者开源星探

Seed-VC 是一款强大的开源语音转换和歌声转换工具，支持零样本语音克隆、实时语音转换及AI歌曲转换。它基于字节跳动 SEED-TTS 架构开发，延迟低至400毫秒，适用于配音、虚拟主播等场景。

2025年3月19日14时作者小兵的AI视界

域大显身手，从文本生成到智能问答，从机器翻译到情感分析。然而，众多的模型也带来了新的挑战。不同厂商的

2025年3月19日14时作者 Hugging Face

应用程序，并讲解如何将其部署在 Hugging Face Spaces 的 ZeroGPU 无服务

2025年3月19日11时作者 GitHubStore

OWL 是一个多智能体协作框架，支持在线搜索、多模态处理、浏览器操作和文件解析等核心功能，并提供丰富的工具包。支持多种安装方式，包括使用 uv 和 venv/pip/conda 安装，以及通过 Docker 运行。项目文档详尽，便于用户快速上手。

2025年3月19日11时作者每日AI新工具

LangManus 是一款基于社区驱动的AI自动化框架，整合语言模型和专业工具，提供多智能体架构、强大LLM集成、丰富的工具集等特性。SmartRead 是一款自动注释技术PDF的AI工具，而Docs是一款开源协作文档编辑器。

2025年3月19日8时作者 NLP工程化

小智AI聊天机器人是一款基于ESP32-S3的核心板产品，搭载多种开源大模型，具备对话自定义、海量知识库、长期记忆等功能，旨在为用户提供智能且温暖的交互体验。

2025年3月19日8时作者 NLP工程化

MiniMax发布MiniMax-01系列模型，支持上百万token上下文预训练与推理，提供开箱即用体验及工具链优化、生态共建计划。

2025年3月19日8时作者 NLP工程化

SmolDocling-256M-preview 是一个多模态的图像-文本到文本模型，专为高效的文档转换而设计，能够处理科学和非科学文档。

2025年3月19日8时作者 NLP工程化

MedBench 3.0升级新增医疗多模态评测能力，涵盖文献问答、复杂推理和临床危急情况识别数据集。