关于一个网站的反爬虫问题

Z时代
2024-01-10
分类：技术分享

我现在遇到的这个网站，似乎是使用了distil networks这个反爬虫服务，如果需要拿到数据就必须带上 cookie，不带 cookie 的请求都会被直接返回

<!DOCTYPE html>
<html>
<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="refresh" content="10; url=/distil_r_captcha.html?requestId=953a747e-5387-423c-b87d-1d44f55e846b&httpReferrer=%2Fbook%2FFlight%2FSelect%3Fculture%3Dzh-CN%26type%3D1%26dst1%3DCAN%26ast1%3DSIN%26dd%3D2018-10-05%26adt%3D1%26chd%3D0%26inf%3D0" />
<script type="text/javascript">
    (function(window){
        try {
            if (typeof sessionStorage !== 'undefined'){
                sessionStorage.setItem('distil_referrer', document.referrer);
            }
        } catch (e){}
    })(window);
</script>
<script type="text/javascript" src="/tgrairwaysdstl.js" defer></script><style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#cfcxdbattebszfeeswyw{display:none!important}</style></head>
<body>
<div id="distilIdentificationBlock">&nbsp;</div>
</body></html>

而这个 cookie 的失效时间又很快，只有 5 分钟左右，并且用的次数多了，大概四五次也会失效，并且我使用 fiddler 跟踪，拿到所有 cookie 参数后，利用这个 cookie 依然无法拿到数据，我猜测其中的原因是因为我多次使用的P参数，虽然每次返回值都不一样，但是都不可用，p参数应该是只能使用一次的。希望这个问题能得到解答
图片描述