python爬虫翻页后网址发生改变的相关问题

最近帮一个朋友爬取某生物网站上的内容,遇到了一些问题。
网站的url如下:

https://www.ncbi.nlm.nih.gov/...

clipboard.png

每页默认显示20条记录

但是翻页后

clipboard.png

或者将记录显示的数量调整为500后,

clipboard.png

链接发生了变化,复制该链接之后进入了另一个网页:

clipboard.png

爬虫的代码如下:
import requests
from bs4 import BeautifulSoup

base_url = 'https://www.ncbi.nlm.nih.gov/gds'
wb_data = requests.get(base_url)
soup = BeautifulSoup(wb_data.text,'lxml')

for link in soup.select('https://www.ncbi.nlm.nih.gov/...'):

url = link.get('href')

print(url)

链接为什么会发生这样的变化呢?
该代码只能爬取网页的前20条信息,如果我要获取页面中全部的信息,代码该做怎样的改进呢?

回答:

首先,这个网页我打不开.....所以也看不到实际的情况.
但从图片看,很可能是使用的ajax异步加载的
建议抓包看一下ajax请求的地址

回答:

应该是Referer,你看一下requests headers

以上是 python爬虫翻页后网址发生改变的相关问题 的全部内容, 来源链接: utcz.com/a/159744.html

回到顶部