一周1.2k星!兼具质量与效率的OCR模型MonkeyOCR,支持多样化的中英文PDF

MonkeyOCR采用结构-识别-关系(SRR)范式提升文档解析性能,相比MinerU和端到端模型,在九种文档上的表现均有提升。它支持快速开始安装、推理等步骤,并提供了多种示例文档展示效果。

Facebook广告库MCP服务器,Claude Code + Gemini AI 协作平台,DevSeeker:AI代码生成

五个AI工具介绍:Facebook Ads Library MCP Server、Claude Code + Gemini MCP Server、Fire Enrich、Devseeker和Chrome MCP Server。它们分别专注于广告分析、代码生成与改进、数据增强、浏览器自动化助手等领域,支持集成、模型上下文协议(MCP)服务器和自然语言处理等功能。

告别天价API账单!开源Chatterbox语音服务器上线,隐私与效率双赢!

Chatterbox-TTS-Server 是一款基于Resemble AI的TTS模型的开源自托管语音合成服务器,提供Web UI、声音克隆、长文本处理等功能,并支持GPU加速和Docker部署。它适用于网站文章朗读、播客生成等场景。

RAG不香了!把百万文本片段编码为MP4视频文件,就能用AI实现亚秒级语义搜索。

Memvid是一个通过将文本数据编码为MP4视频文件的AI记忆管理开源项目,它实现了高效存储和快速语义搜索,节省了大量存储空间,检索速度达到亚秒级,并支持PDF处理、内置聊天界面和多LLM兼容。

多模态语音表征新突破!CoGenAV:高效、鲁棒、通用的语音识别“利器”

通义联合深圳技术大学推出的CoGenAV模型通过融合音频和视觉信息,显著提升了语音识别和处理性能。仅需223小时标记数据即可训练,展现出极高的数据效率,并在多种语音处理任务中表现出色。