Running Multiple spiders in scrapy
例如,如果我有两个包含不同HTML的URL,则很容易被抓到。现在,我想为每个编写两个单独的spider,并希望同时运行两个spider。如果是沙哑的,可以一次运行多个spider。
在写了多个spider之后,我们会如何抓紧时间,如何安排它们每6小时运行一次(可能像cron作业一样)
我对以上内容一无所知,可以举一个例子来建议我如何执行以上操作。
提前致谢。
回答:
从OS级别一次运行两个scrapy脚本可能是最容易的。它们都应该能够保存到同一数据库。创建一个shell脚本来同时调用这两个scrapy脚本:
scrapy runspider foo &scrapy runspider bar
确保使用以下命令使该脚本可执行 chmod +x script_name
要每6小时安排一次cronjob,请crontab -e
在你的终端中键入,然后按如下所示编辑文件:
* */6 * * * path/to/shell/script_name >> path/to/file.log
前一个*是分钟,然后是小时,依此类推,而星号是通配符。因此,这表示在小时可被6整除的任何时间或每六个小时运行一次脚本。
以上是 Running Multiple spiders in scrapy 的全部内容, 来源链接: utcz.com/qa/399839.html