如何用python或jQuery爬下网站简单开奖动态数据?

各位大神,如何用python或jQuery爬下网站简单开奖动态数据?我只会一点html和css。看了半天没看懂,需不需要用正则表达式?网站的开奖数据是动态的,https,GET,想要获取的数据有ID,下面的Div那时间怎么获取的,可以自动跳。在此谢谢大神们的指导。

https://m.033055.com/chajian/...
这个是想获取的数据的网站,大神帮忙指导下!谢谢
图片描述

回答:

那个时间是js异步加载的,需要解析js,对于请求进行分析,不过可以使用phantomjs这个来帮你解析,chrome和Firefox 也推出了headless模式
对于这个网页,如果使用phantomjs获取时间
需要配置两个环境
1:phantomjs,如果你安装了火狐或者谷歌也也可以直接调用,代码有注释
2:selenium3.7
import time
from selenium import webdriver
driver = webdriver.PhantomJS() #webdriver.Firefox()
driver.get('https://m.033055.com/chajian/...')
time.sleep(0.5) #等待js加载的时间
print driver.find_element_by_xpath(".//*[@id='tmpinfo']").get_attribute('innerHTML')

图片描述

回答:

提供两个思路:

1.分析动态链接

如下F12->网络network->xhr里面有这些异步加载的链接response

clipboard.png

点开动态链接,你可以得到json格式的数据

clipboard.png

你要做的是分析这些动态链接URL的规律,然后requests发出请求,获取json数据然后用json.loads解析获取。

2.浏览器内核

这个可以参考@thechosenone的答案


欢迎关注我的专栏或微信公众号:Python网络爬虫分享

以上是 如何用python或jQuery爬下网站简单开奖动态数据? 的全部内容, 来源链接: utcz.com/a/163918.html

回到顶部