Python爬取LOL英雄皮肤

Z时代
2024-01-10
分类：综合

python

Python 爬虫

一实现分析

在官网上找到英雄皮肤的真实链接，查看多个后发现前缀相同，后面对应为英雄的ID和皮肤的ID，皮肤的ID从00开始顺序递增，而英雄ID跟网页中的顺序无关，需要找到英雄ID。

并没有在皮肤页面和英雄页面的元素中找到有关英雄ID的内容，所以想到有可能是通过js文件加载进来的。通过Chrome工具找到跟英雄ID有关的js文件网址。

通过js文件网址获得英雄ID。与图片真实网址进行拼接，得到所有英雄的所有皮肤的图片地址，保存到列表中。

设置图片保存的路径和文件名。

下载。

二知识点与难点

通过re库来正则表达式的处理。

通过json将字符串转成字典类型。

图片地址和文件名称的拼接。

判断图片是否真实存在和下载。

三代码

'''

1. 找到图片路径，获取所有图片真实URL

2. 设置文件名

3. 下载

'''

import requests

import re

import json

def getLOLImages():

# 包含英雄名字和ID的js文件路径

js_url = "http://lol.qq.com/biz/hero/champion.js"

# 获取js文件内容

js_content = requests.get(js_url).text

# 截取需要的内容 .*? 代表所有内容

req = '"keys":(.*?),"data"'

# 取到的是列表，真正想要的是列表中的第一个元素

js_want = re.findall(req, js_content)[0]

# 转成字典形式

js_dict = json.loads(js_want)

# 获取图片的真实URL，并保存到列表中

# http://ossweb-img.qq.com/images/lol/web201310/skin/big266000.jpg

pic_url_list = []

for hero_id in js_dict:

for skin_id in range(20):

skin_id = str(skin_id)

if len(skin_id) == 1:

num_str = '00' + skin_id

elif len(skin_id) == 2:

num_str = '0' + skin_id

pic_url = "http://ossweb-img.qq.com/images/lol/web201310/skin/big" + hero_id + num_str +".jpg"

pic_url_list.append(pic_url)

# 设置文件名称

path = "D://lol/"

path_file_list = []

for pic_name in js_dict.values():

for skin_id in range(20):

skin_id = str(skin_id)

if len(skin_id) == 1:

num_str = '00' + skin_id

elif len(skin_id) == 2:

num_str = '0' + skin_id

path_file = path + pic_name + num_str + ".jpg"

path_file_list.append(path_file)

# 下载

n = 0

for dl_url in pic_url_list:

# n += 1

res = requests.get(dl_url)

if res.status_code == 200:

print("正在下载{}".format(path_file_list[n]))

with open(path_file_list[n], "wb") as f:

f.write(res.content)

n += 1

if __name__ == '__main__':

getLOLImages()

以上是 Python爬取LOL英雄皮肤的全部内容，来源链接： utcz.com/z/386765.html

回到顶部