如何让爬虫提速?多线程爬虫一秒50图了解一下[Python基础]
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
基本开发环境
- Python 3.6
- Pycharm
import requestsimport parselimport threading
相关模块 pip 安装即可
目标网页分析
这个网站有电脑壁纸也有手机壁纸,还是不错的。
网站是静态网站,没有加密,可以直接爬取
整体思路
1、先在列表页面获取每张壁纸的详情地址
2、在壁纸详情页面获取壁纸真实高清url地址
3、保存壁纸
代码实现
模拟浏览器请求网页,获取网页数据
def get_html(html_url):"""获取网页源代码
:param html_url: 网页url
:return:
"""response
= requests.get(url=html_url, headers=headers)return response
解析网页数据
def get_par(html_data):"""把 response.text 转换成 selector 对象 解析提取数据
:param html_data: response.text
:return: selector 对象
"""selector
= parsel.Selector(html_data)return selector
保存数据
def download(img_url, title):"""保存数据
:param img_url: 图片地址
:param title: 图片标题
:return:
"""content
= get_html(img_url).contentpath
= "壁纸" + title + ".jpg"with open(path, mode
="wb") as f:f.write(content)
print("正在保存", title)
主函数
def main(url):"""主函数
:param url: 列表页面 url
:return:
"""html_data
= get_html(url).textselector
= get_par(html_data)lis
= selector.css(".wb_listbox div dl dd a::attr(href)").getall()for li in lis:img_data
= get_html(li).textimg_selector
= get_par(img_data)img_url
= img_selector.css(".wb_showpic_main img::attr(src)").get()title
= img_selector.css(".wb_pictitle::text").get().strip()download(img_url, title)
end_time
= time.time() - s_timeprint(end_time)
启动多线程运行代码
if__name__ == "__main__":for page in range(1, 11):url
= "http://www.deskbizhi.com/min/list-{}.html".format(page)main_thread
= threading.Thread(target=main, args=(url,))main_thread.start()
这里只选择爬取前10页的数据
从运行截图和壁纸保存来看,5.5秒的时间,下载了215张图片,效率上面还是可以的,平均计算下来每秒钟下载40张图片。。。
可以自己去试试多线程爬取数据哈,效率还是非常高的
以上是 如何让爬虫提速?多线程爬虫一秒50图了解一下[Python基础] 的全部内容, 来源链接: utcz.com/z/530008.html