Python爬虫教程：爬取网站妹子图【附源码】

Z时代
2024-01-10
分类：综合

coding

爬取图片是最常见的爬虫入门项目，不复杂却能很好地熟悉Python语法、掌握爬虫思路。当然有两个点要注意：一、不要侵犯版权，二、要注意营养。

♦思路流程

第一步：获取网址的response，分页内容，解析后提取图集的地址。

第二步：获取网址的response，图集分页，解析后提取图片的下载地址。

第三步：下载图片（也就是获取二进制内容，然后在本地复刻一份）。

♦代码

import requestsfrom bs4 import BeautifulSoupimport osimport urllibimport random

classmzitu():defall_url(self, url):        html = self.request(url)        all_a = BeautifulSoup(html.text, 'lxml').find('div', class_='all').find_all('a')for a in all_a:            title = a.get_text()            print(u'开始保存：', title)            path = str(title).replace("?", '_')ifnot self.mkdir(path):  ##跳过已存在的文件夹                print(u'已经跳过：', title)continue            href = a['href']            self.html(href)
defhtml(self, href):        html = self.request(href)        max_span = BeautifulSoup(html.text, 'lxml').find('div', class_='pagenavi').find_all('span')[-2].get_text()for page in range(1, int(max_span) + 1):            page_url = href + '/' + str(page)            self.img(page_url)
defimg(self, page_url):        img_html = self.request(page_url)        img_url = BeautifulSoup(img_html.text, 'lxml').find('div', class_='main-image').find('img')['src']        self.save(img_url, page_url)
defsave(self, img_url, page_url):        name = img_url[-9:-4]try:            img = self.requestpic(img_url, page_url)            f = open(name + '.jpg', 'ab')            f.write(img.content)            f.close()except FileNotFoundError:  ##捕获异常，继续往下走            print(u'图片不存在已跳过：', img_url)returnFalse
defmkdir(self, path):##这个函数创建文件夹        path = path.strip()        isExists = os.path.exists(os.path.join("C:\d\mzitu", path))ifnot isExists:            print(u'建了一个名字叫做', path, u'的文件夹！')            os.makedirs(os.path.join("C:\d\mzitu", path))            os.chdir(os.path.join("C:\d\mzitu", path))  ##切换到目录returnTrueelse:            print(u'名字叫做', path, u'的文件夹已经存在了！')returnFalse
defrequestpic(self, url, Referer):##这个函数获取网页的response 然后返回        user_agent_list = [ \"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"        ]        ua = random.choice(user_agent_list)        headers = {'User-Agent': ua, "Referer": Referer}  ##较之前版本获取图片关键参数在这里        content = requests.get(url, headers=headers)return content
defrequest(self, url):##这个函数获取网页的response 然后返回        headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}        content = requests.get(url, headers=headers)return content

Mzitu = mzitu()  ##实例化Mzitu.all_url('http://www.mzitu.com/all')  ##给函数all_url传入参数  你可以当作启动爬虫（就是入口）print(u'恭喜您下载完成啦！')

♦运行结果

为了帮助大家更轻松的学好Python开发，爬虫技术，Python数据分析，人工智能,给大家分享一套系统教学资源，加Python技术学习qq裙：583262168，免费领取。学习过程中有疑问，群里有专业的老司机免费答疑解惑!

PS：如果觉得本篇文章对您有所帮助，欢迎关注、订阅！帮忙点个再看转发一下分享出去

*声明：本文于网络整理，版权归原作者所有，如来源信息有误或侵犯权益，请联系我们删除或授权事宜。

本文分享自微信公众号 - python教程（pythonjc）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

以上是 Python爬虫教程：爬取网站妹子图【附源码】的全部内容，来源链接： utcz.com/z/508828.html

Python爬虫教程：爬取网站妹子图【附源码】

其他人也看了：