python入门——爬取整个网页源码

python

一、源码

使用request库爬取整个网页

 1import requests

2# encoding:utf-8 #默认格式utf-8

3

4def get_html(url): #爬取源码函数

5 headers = {

6"User-Agent": "Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)

7 AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36"

8

9 } # 模拟浏览器访问

10 response = requests.get(url, headers=headers) # 请求访问网站

11 response.encoding = response.apparent_encoding #设置字符编码格式

12 html = response.text # 获取网页源码

13return html # 返回网页源码

14

15 r = get_html("https://www.baidu.com/")

16print(r) #打印网页源码

二、运行结果

三、request库介绍 点击这里

我的python爬虫笔记~~持续更新中

以上是 python入门——爬取整个网页源码 的全部内容, 来源链接: utcz.com/z/530281.html

回到顶部