爬虫如何解决编码问题?
我用浏览器去请求,返回内容是正常的
但是我用代码去请求,就会返回乱码
这种是什么原因呢,该如何解决
回答:
有三种方案:
- 设置
request header
请求头相关的编码字段,告诉服务端我需要什么编码的结果 - 判断
response header
响应头中的编码信息的字段获取编码信息 - 通过
response.text
的实际内容来确定编码
第一种方案,取决于服务器想不想理你
第二种方案,取决于服务器想不想设置相关字段
第三种方案,取决于 response.text
是否包含 bom
信息,如果没有 bom
信息,只能靠对 response.text
编码统计之后猜测编码 ? ? ?
具体可参考:再也不用担心网页编码的坑了!
以上是 爬虫如何解决编码问题? 的全部内容, 来源链接: utcz.com/p/936946.html