高效的网络爬取框架Crawl4LLM 2025年2月23日12时 作者 GitHubStore 高效的网络爬取框架CRAW4LLM通过优先爬取影响力大的网页提高数据质量和效率,并提供随机、基于indegree及DCLM FastText评分的爬行方法。