避免重复爬网
我编写了一个简单的搜寻器。在settings.py文件中,我通过参考scrapy文档
DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'
如果我停止搜寻器并再次重新启动搜寻器,则它将再次抓取重复的URL。难道我做错了什么?
回答:
我相信你正在寻找的是“持久性支持”,以暂停和恢复爬网。
要启用它,你可以执行以下操作:
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
以上是 避免重复爬网 的全部内容, 来源链接: utcz.com/qa/402188.html