开源
8.4K Star!本地化高精度OCR神器!GPT驱动,零样本即可识别!
一款名为Zerox的OCR工具通过集成GPT-4o-mini模型实现了高效文档处理。支持PDF、DOCX等多种格式文件,并能准确识别包含复杂布局(如表格、图表)的扫描文档,输出Markdown格式便于编辑和使用。
Lightpanda Browser:一款开源的无头浏览器
Lightpanda Browser:一款开源的无头浏览器,专为自动化任务设计,具有超低内存占用和超快执行速度,助力AI Agent、数据抓取和测试等工作。
达摩院开源AI妆容迁移,把妆容一键换到指定人物脸上,AI在美妆行业新落地场景。
达摩院开源的AI妆容迁移项目基于潜在扩散模型,采用‘解耦-重构’范式和自监督学习策略。通过拉普拉斯金字塔分解纹理细节及迭代双重对齐模块,提升图像真实性、内容保留与妆容保真度,为化妆迁移任务提供全新解决方案。