如果用scrapy 抓取多个不同的站点放在同一个spider里,用下面哪种方法好点?
站点大约几百个.
都是只采站点的一个列表
用下面哪个好点?
一.
class MySpider(scrapy.Spider): name = 'example.com'
allowed_domains = ['example.com']
def start_requests(self):
yield scrapy.Request('http://www.example.com/1.html', self.parse1)
yield scrapy.Request('http://www.example.com/2.html', self.parse2)
yield scrapy.Request('http://www.example.com/3.html', self.parse3)
def parse(self, response):
for h3 in response.xpath('//h3').extract():
yield MyItem(title=h3)
....略
二.
class MySpider(CrawlSpider): name = 'example.com'
allowed_domains = ['example.com']
start_urls = ['http://www.example.com']
rules = (
# 提取匹配'item.php'的链接,然后用Spider的parse_item解析它们
Rule(LinkExtractor(allow=('http://www.example.com/1.html', )), callback='parse_item1'),
Rule(LinkExtractor(allow=('http://www.example.com/2.html', )), callback='parse_item2'),
Rule(LinkExtractor(allow=('http://www.example.com/3.html', )), callback='parse_item3'),
)
....略
以上是 如果用scrapy 抓取多个不同的站点放在同一个spider里,用下面哪种方法好点? 的全部内容, 来源链接: utcz.com/a/162795.html