爬虫如何解决编码问题?

我用浏览器去请求,返回内容是正常的
爬虫如何解决编码问题?

但是我用代码去请求,就会返回乱码
爬虫如何解决编码问题?

这种是什么原因呢,该如何解决


回答:

有三种方案:

  • 设置 request header 请求头相关的编码字段,告诉服务端我需要什么编码的结果
  • 判断 response header 响应头中的编码信息的字段获取编码信息
  • 通过 response.text 的实际内容来确定编码

第一种方案,取决于服务器想不想理你
第二种方案,取决于服务器想不想设置相关字段
第三种方案,取决于 response.text 是否包含 bom 信息,如果没有 bom 信息,只能靠对 response.text 编码统计之后猜测编码 ? ? ?

具体可参考:再也不用担心网页编码的坑了!

以上是 爬虫如何解决编码问题? 的全部内容, 来源链接: utcz.com/p/936946.html

回到顶部