python爬虫可以开多少线程？

Z时代
2024-01-10
分类：综合

python

其实关于爬虫并没有明确多少数量开线程，因为这个是无穷的，随着时代的不断发展，每一个革新都给我们焕然一新的感觉，可能大家现在在学习的时候，已知内容是有限的，真正在不断探索以后，会发现这个内容是无穷了，小编就看到一组代码可以爬取几百万的线程数据，一起来看下吧~

1、爬虫环境

Pycharm+python3.7.0

2、进程和线程的关系：

一个线程只能属于一个进程，而一个进程可以有多个线程，但至少有一个线程。

资源分配给进程，同一进程的所有线程共享该进程的所有资源。

CPU 分给线程，即真正在 CPU 上运行的是线程。

3、多线程通信实例

因为全局变量并不是线程安全的，比如说全局变量里（列表类型）只有一个 url 了，线程 B 判断了一下全局变量非空，在还没有取出该 url 之前，cpu 把时间片给了线程 C，线程 C 将最后一个url 取走了，这时 cpu 时间片又轮到了 B，B 就会因为在一个空的列表里取数据而报错，而 queue 模块实现了多生产者、多消费者队列，在放值取值时是线程安全的。

4、实例代码

import threading # 导入 threading 模块
 
from queue import Queue #导入 queue 模块
 
import time #导入 time 模块
 
# 爬取文章详情页
 
def get_detail_html(detail_url_list, id):
 
while True:
 
url = detail_url_list.get() #Queue 队列的 get 方法用于从队列中提取元素
 
time.sleep(2) # 延时 2s，模拟网络请求和爬取文章详情的过程
 
print("thread {id}: get {url} detail finished".format(id=id,url=url)) #打印线程 id 和被爬取了文章内容的 url
 
# 爬取文章列表页
 
def get_detail_url(queue):
 
for i in range(10000):
 
time.sleep(1) # 延时 1s，模拟比爬取文章详情要快
 
queue.put("http://testedu.com/{id}".format(id=i))#Queue 队列的 put 方法用于向 Queue 队列中放置元素，由于 Queue 是先进先出队列，所以先被 Put 的 URL 也就会被先 get 出来。
 
print("get detail url {id} end".format(id=i))#打印出得到了哪些文章的 url
 
#主函数
 
if __name__ == "__main__":
 
detail_url_queue = Queue(maxsize=1000) #用 Queue 构造一个大小为 1000 的线程安全的先进先出队列
 
# 先创造四个线程
 
thread = threading.Thread(target=get_detail_url, args=(detail_url_queue,)) #A 线程负责抓取列表
 
url
 
html_thread= []
 
for i in range(3):
 
thread2 = threading.Thread(target=get_detail_html, args=(detail_url_queue,i))
 
html_thread.append(thread2)#B C D 线程抓取文章详情
 
start_time = time.time()
 
# 启动四个线程
 
thread.start()
 
for i in range(3):
 
html_thread[i].start()
 
# 等待所有线程结束，thread.join()函数代表子线程完成之前，其父进程一直处于阻塞状态。
 
thread.join()
 
for i in range(3):
 
html_thread[i].join()
 
print("last time: {} s".format(time.time()-start_time))
 
#等 ABCD 四个线程都结束后，在主进程中计算总爬取时间。

好了，以上就是关于python爬虫里的进程内容了，大家可以去了解下哦~python的内容都是无穷尽的，大家也可以开拓创新，去找到知识的彼岸。

以上是 python爬虫可以开多少线程？的全部内容，来源链接： utcz.com/z/529783.html

python爬虫可以开多少线程？

其他人也看了：