爬虫全国建筑市场监管服务平台小程序数据抓取与采集
原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取:
建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇
建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口篇
新版建筑市场(四库一平台)抓取最新信息(爬虫)
最近发现 建筑市场监监管平台推出了自己的小程序《全国建筑市场监管服务平台》。
在使用过程中,发现没有前端的辅助验证码,和一些访问的现在,于是就研究如何通过小程序来抓取数据,经过的学习和研究基本完成的数据的采集和抓取,就把整个流程最一点记录,如果需要相关的技术支持和爬虫数据可以联系我(QQ:397713472 电话:13880334484[微信同号])。
一、使用爬虫抓包工作抓取小程序访问链接
我喜欢用Fiddler抓包工具,我这里就不详细说怎么配置和安装,这个网上的教程很多;安装和配置好了,我们访问小程序,在Fiddler上面就看到相关的访问链接:
然后通过分析小程序的接口就两个
https://sky.mohurd.gov.cn/skyapi/api/statis/getExtResult
https://sky.mohurd.gov.cn/skyapi/api/statis/getResult
都是通过改变参数keys的方式来实现相关业务,这里就不多少,通过接口很轻松的分析相关的功能。
二、接口认证token和IP限制
首先我们打开一个接口的请求头:
GET https://sky.mohurd.gov.cn/skyapi/api/statis/getResult?_t=0.33565467680946304&keys=corp%2Fdata_search%2Fpage&qyTypeCode=®ionNum=&pageNumber=1&pageSize=15&keyWord= HTTP/1.1Host: sky.mohurd.gov.cn
Connection: keep-alive
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 MicroMessenger/7.0.9.501 NetType/WIFI MiniProgramEnv/Windows WindowsWechat
cityCode:
content-type: application/json
token: t_b161960b732146379d4b8fc53196c50f
Referer: https://servicewechat.com/wx8f070e7958a940d1/11/page-frame.html
Accept-Encoding: gzip, deflate, br
虽然小程序接口现在不多但是还是做了一点认证也爬虫现在,首先是token,这里的token比较简单,就可以直接用抓取的作为token。当一定的访问,后端也会封Ip,最开始的是好是几分钟会解封,但是现在不会,使用尽量用IP代理。
三、数据AES加密解密
当我们参看返回的数据的时候数据是这样的:
{"data":"A3ReBKoR6IDZSR4Jdxq72fXPsnWTZMhOr5sXl/lJ8/3GWFmsy2fTHG/0+Uz8fZmopZ0Ru0cskOWNX8hWlUy19scqauL28x3daP9IQn2……","message":null,
"status":1}
这里data的数据就是做了加密的,使用我们通过数据解密后的:
[{"data":{"asc":true,"current":1,"limit":15,"offset":0,"offsetCurrent":0,"openSort":true,"optimizeCount":false,"pages":14,"records":[{"legalMan":"张东","address":"重庆市渝北区龙溪街道金山路18号中渝.都会首站4幢9-10","regionFullname":"重庆市",
"corpName":"重庆惠风机电设备有限公司","id":"001903140034193455","corpCode":"91500112054824582M"}],
"searchCount":true,"size":15,"total":200}}]
由于涉及到相关的解密key这些我就不在该文章中写了,如果需要可以联系我(QQ:397713472 电话:13880334484[微信同号])
下图就是直接通过java写的解密截图。
以上是 爬虫全国建筑市场监管服务平台小程序数据抓取与采集 的全部内容, 来源链接: utcz.com/z/535008.html