开源
一款能从任何文档中提取文本的开源工具:Kreuzberg
Kreuzberg 是一款开源工具,能从各种文件格式(如 PDF、图像、Word 文档)中自动化提取文本,支持 GPU 无要求且提供统一的异步接口。
6天突破1w星!Deep Research复刻开源版,通过爬虫和LLM对主题深度研究生成Markdown报告
OpenAI的Deep Research收费200美元,作者David发布开源版本Deep-research,6天收获1万颗星。该项目通过搜索引擎、网络爬虫和大语言模型进行迭代式深度研究,提供智能查询生成、深度广度控制等功能,并在GitHub上获得巨大反响。
闪电般快速、智能且难以被检测的网页爬虫库Scrapling
Scraping 是一个高效的Python网络爬虫库,支持异步抓取和智能元素跟踪。通过StealthyFetcher和PlaywrightFetcher模拟人类行为来绕过保护措施。它还提供代理、浏览器解锁器和企业级解决方案等附加功能。