Running Multiple spiders in scrapy

  1. 例如,如果我有两个包含不同HTML的URL,则很容易被抓到。现在,我想为每个编写两个单独的spider,并希望同时运行两个spider。如果是沙哑的,可以一次运行多个spider。

  2. 在写了多个spider之后,我们会如何抓紧时间,如何安排它们每6小时运行一次(可能像cron作业一样)

我对以上内容一无所知,可以举一个例子来建议我如何执行以上操作。

提前致谢。

回答:

从OS级别一次运行两个scrapy脚本可能是最容易的。它们都应该能够保存到同一数据库。创建一个shell脚本来同时调用这两个scrapy脚本:

scrapy runspider foo &

scrapy runspider bar

确保使用以下命令使该脚本可执行 chmod +x script_name

要每6小时安排一次cronjob,请crontab -e在你的终端中键入,然后按如下所示编辑文件:

* */6 * * * path/to/shell/script_name >> path/to/file.log

前一个*是分钟,然后是小时,依此类推,而星号是通配符。因此,这表示在小时可被6整除的任何时间或每六个小时运行一次脚本。

以上是 Running Multiple spiders in scrapy 的全部内容, 来源链接: utcz.com/qa/399839.html

回到顶部