scrapy run spider from script

Z时代
2024-01-10
分类：问答

我想通过脚本而不是 scrap crawl

我找到此页面

http://doc.scrapy.org/en/latest/topics/practices.html

但实际上并没有说明将脚本放在何处。

有什么帮助吗？

回答：

只需检查官方文档即可。我会进行一些更改，以便你可以控制Spider仅在执行此操作时运行，python myscript.py而不是每次从其导入时都运行。只需添加一个if __name__ == "__main__"：

import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider(scrapy.Spider):
    # Your spider definition
    pass
if __name__ == "__main__":
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
    })
    process.crawl(MySpider)
    process.start() # the script will block here until the crawling is finished

现在将文件另存为，myscript.py然后运行“ python myscript.py”。

以上是 scrapy run spider from script 的全部内容，来源链接： utcz.com/qa/409142.html

scrapy run spider from script

回答：

其他人也看了：