Scrapy：使用start_requests（）的正确方法是什么？

Z时代
2024-01-10
分类：问答

这就是我的spider的设置方式

class CustomSpider(CrawlSpider):
    name = 'custombot'
    allowed_domains = ['www.domain.com']
    start_urls = ['http://www.domain.com/some-url']
    rules = ( 
              Rule(SgmlLinkExtractor(allow=r'.*?something/'), callback='do_stuff', follow=True),
            )
    def start_requests(self):
        return Request('http://www.domain.com/some-other-url', callback=self.do_something_else)

它转到/ some-other-url，但不转到/ some-url。怎么了在start_urls中指定的url是需要通过规则过滤器提取并发送的链接，其中，由于start_requests中的链接被直接发送到项目解析器，因此不需要通过规则过滤器。

回答：

从文档中start_requests，覆盖start_requests意味着start_urls将忽略中定义的url 。

这是Scrapy调用的方法，当未指定任何特定URL时打开抓取工具抓取蜘蛛。如果指定了特定的URL，则使用make_requests_from_url（）来创建请求。

[…]

如果要更改用于开始抓取域的请求，则可以使用此方法来覆盖。

如果你只想从/ some-url抓取，请删除start_requests。如果你想同时从两者中抓取，则将/ some-url添加到start_urls列表中。

以上是 Scrapy：使用start_requests（）的正确方法是什么？的全部内容，来源链接： utcz.com/qa/436263.html

Scrapy：使用start_requests（）的正确方法是什么？

回答：

其他人也看了：