Scrapy:使用start_requests()的正确方法是什么?
这就是我的spider的设置方式
class CustomSpider(CrawlSpider): name = 'custombot'
allowed_domains = ['www.domain.com']
start_urls = ['http://www.domain.com/some-url']
rules = (
Rule(SgmlLinkExtractor(allow=r'.*?something/'), callback='do_stuff', follow=True),
)
def start_requests(self):
return Request('http://www.domain.com/some-other-url', callback=self.do_something_else)
它转到/ some-other-url,但不转到/ some-url。怎么了 在start_urls中指定的url是需要通过规则过滤器提取并发送的链接,其中,由于start_requests中的链接被直接发送到项目解析器,因此不需要通过规则过滤器。
回答:
从文档中start_requests
,覆盖start_requests
意味着start_urls
将忽略中定义的url 。
这是Scrapy调用的方法,当未指定任何特定URL时打开抓取工具抓取蜘蛛。如果指定了特定的URL,则使用make_requests_from_url()
来创建请求。
[…]
如果要更改用于开始抓取域的请求,则可以使用此方法来覆盖。
如果你只想从/ some-url抓取,请删除start_requests
。如果你想同时从两者中抓取,则将/ some-url添加到start_urls
列表中。
以上是 Scrapy:使用start_requests()的正确方法是什么? 的全部内容, 来源链接: utcz.com/qa/436263.html