避免重复爬网

Z时代
2024-01-10
分类：问答

我编写了一个简单的搜寻器。在settings.py文件中，我通过参考scrapy文档

DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'

如果我停止搜寻器并再次重新启动搜寻器，则它将再次抓取重复的URL。难道我做错了什么？

回答：

我相信你正在寻找的是“持久性支持”，以暂停和恢复爬网。

要启用它，你可以执行以下操作：

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

以上是避免重复爬网的全部内容，来源链接： utcz.com/qa/402188.html

回到顶部