如何用python或jQuery爬下网站简单开奖动态数据?
各位大神,如何用python或jQuery爬下网站简单开奖动态数据?我只会一点html和css。看了半天没看懂,需不需要用正则表达式?网站的开奖数据是动态的,https,GET,想要获取的数据有ID,下面的Div那时间怎么获取的,可以自动跳。在此谢谢大神们的指导。
https://m.033055.com/chajian/...
这个是想获取的数据的网站,大神帮忙指导下!谢谢
回答:
那个时间是js异步加载的,需要解析js,对于请求进行分析,不过可以使用phantomjs这个来帮你解析,chrome和Firefox 也推出了headless模式
对于这个网页,如果使用phantomjs获取时间
需要配置两个环境
1:phantomjs,如果你安装了火狐或者谷歌也也可以直接调用,代码有注释
2:selenium3.7
import time
from selenium import webdriver
driver = webdriver.PhantomJS() #webdriver.Firefox()
driver.get('https://m.033055.com/chajian/...')
time.sleep(0.5) #等待js加载的时间
print driver.find_element_by_xpath(".//*[@id='tmpinfo']").get_attribute('innerHTML')
回答:
提供两个思路:
1.分析动态链接
如下F12->网络network->xhr
里面有这些异步加载的链接
和response
点开动态链接,你可以得到json格式
的数据
你要做的是分析这些动态链接URL的规律
,然后requests发出请求,获取json数据然后用json.loads
解析获取。
2.浏览器内核
这个可以参考@thechosenone的答案
欢迎关注我的专栏或微信公众号:Python网络爬虫分享
以上是 如何用python或jQuery爬下网站简单开奖动态数据? 的全部内容, 来源链接: utcz.com/a/163918.html