scrapy-redis 分布式里面的 多台机器分布url问题

Slave端:

scrapy runspider juzi.py

Master端:

redis-cli > lpush itjuzispider:start_urls http://www.itjuzi.com/company

一个链接我可以lpush 但是假如一个网站有几万页,我想多台机器爬取,这样如何把这几万页分给几个不同的机器呢?总不能人一个个的push吧


回答:

  • url获取与一个hash值 % 机器数量
  • 电脑数量轮询
  • 权重随机 每一个机器设置一个权重

    {

    "机器1":0.2,

    "机器2":0.6

    }

    生成一个0-1随机数假设0.1,那么交给机器1处理.....

JAVA 实现
https://github.com/huifer/jav...

scrapy-redis 分布式里面的 多台机器分布url问题

以上是 scrapy-redis 分布式里面的 多台机器分布url问题 的全部内容, 来源链接: utcz.com/p/937624.html

回到顶部