python爬虫[Python基础]

python

一、requests 模块爬虫基础写法

# 基础爬虫写法.py

import requests

def spider(url):

# 定义一个函数,爬取网页源码

headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}

# 定义个一个headers 里面放user-agnet,也可以放别的信息, 字典格式key-values

# user-agent 会告诉网站服务器,访问者是通过什么工具来请求的。 类似伪造身份,让对端把自己当成浏览器

ret = requests.get(url , headers=headers)

# 请求一个地址,返回响应

html = ret.content

# 得到网页源码

# html = ret.content.decode("utf-8")

# 得到网页原码编码格式为utf-8

return html

# 返回网页源码

if __name__ == "__main__":

url = "https://www.cnblogs.com/aaak/p/13968431.html"

# url 地址

html = spider(url).decode("utf-8")

# 调用 函数,并指定编码格式

print(html)

以上是 python爬虫[Python基础] 的全部内容, 来源链接: utcz.com/z/530311.html

回到顶部