使用Python爬取网页的时候,怎么看这个网页需要哪些头部信息呢?

使用Python爬取网页的时候,怎么看这个网页需要哪些头部信息呢?

就是我用Python打开一个网页,返回的只是一个由js生成的时间戳。
和真实浏览器返回的不一样,
请问怎么知道这个网页需要知道哪些头部信息呢?

就是类似于 'user‐agent': 'Chrome/10' 这种信息

知道了我才好设置,

其实大家给我一个关键词一个链接我都会去搜,只是现在一头雾水,搜都不会搜,谢谢了。


回答:

打开chrome调试工具,点击network项,刷新网页。然后点开最上面的一条请求,里边request headers内就是请求头信息。一般user-agent和referer比较重要。然后如果需要传params,也要注意一下。


回答:

这个貌似没有固定的模式,一般依据浏览器发送的内容作适度删减。


回答:

一般是cookie和user‐agent,然后你看其他字段有没有比较特殊的,比如抓取微信读书的时候,他就有一个skey,这个东西肯定有用,不然他不会传过去。
每个网站都不一样,需要一点一点的探索。

以上是 使用Python爬取网页的时候,怎么看这个网页需要哪些头部信息呢? 的全部内容, 来源链接: utcz.com/a/165123.html

回到顶部