关于一个网站的反爬虫问题
我现在遇到的这个网站,似乎是使用了distil networks这个反爬虫服务, 如果需要拿到数据就必须带上 cookie,不带 cookie 的请求都会被直接返回
<!DOCTYPE html><html>
<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="refresh" content="10; url=/distil_r_captcha.html?requestId=953a747e-5387-423c-b87d-1d44f55e846b&httpReferrer=%2Fbook%2FFlight%2FSelect%3Fculture%3Dzh-CN%26type%3D1%26dst1%3DCAN%26ast1%3DSIN%26dd%3D2018-10-05%26adt%3D1%26chd%3D0%26inf%3D0" />
<script type="text/javascript">
(function(window){
try {
if (typeof sessionStorage !== 'undefined'){
sessionStorage.setItem('distil_referrer', document.referrer);
}
} catch (e){}
})(window);
</script>
<script type="text/javascript" src="/tgrairwaysdstl.js" defer></script><style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#cfcxdbattebszfeeswyw{display:none!important}</style></head>
<body>
<div id="distilIdentificationBlock"> </div>
</body>
</html>
而这个 cookie 的失效时间又很快,只有 5 分钟左右,并且用的次数多了,大概四五次也会失效,并且我使用 fiddler 跟踪,拿到所有 cookie 参数后,利用这个 cookie 依然无法拿到数据,我猜测其中的原因是因为我多次使用的P参数,虽然每次返回值都不一样,但是都不可用,p参数应该是只能使用一次的。希望这个问题能得到解答
回答:
关注一下,听说过distil这个东西,好像很厉害,建议可以试一下用Chrome Devtools Protocol,别的爬虫手段我感觉都有一些明显的特征
回答:
我也是在爬一个网站的时候遇到了distil networks, 我用一个浏览器框架成功加载到了网页,但是在获取网页元素的时候document.getElementById的时候返回的全是空,需要找个组织讨论一下怎么攻破这个东西
回答:
这个问题,我遇到了,不过,主要是301自动跳页问题,自动,不行,会被检测出来,手动跳页吧。我是手动跳解决了
以上是 关于一个网站的反爬虫问题 的全部内容, 来源链接: utcz.com/a/160779.html