Python爬取股票数据,让你感受一下什么是一秒钟两千条数据
本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章来源于青灯编程,作者:清风
Python GUI编程:高清电影在线观看平台制作,全网电影免费看
https://www.bilibili.com/video/BV1tz4y1o7Yc/
让你感受一下什么是一秒钟下载两千条数据。。
基本开发环境
- Python 3.6
- 皮查姆
相关模块的使用
import csvimport timeimport requestsimport concurrent.futures
目标网页分析
一共214页的数据,每页数据20条,总计是4280。
:开发者工具,点击第二页,在XHR里面会出现数据。。
这是链接的参数,其中的pn对应就是页码,选择的第二页所以pn:2
如果细心的话,可以发现返回的数据并非是一个json数据。
这样的数据提取肯定是转换成json数据才好提取。这有两个方法:
方法一:
把参数中的< cb:jQuery1124036392017581464287_1608882113715 >去掉,不打算进去,就可以直接以response.json()的形式输出。
import requestsurl
= "http://49.push2.eastmoney.com/api/qt/clist/get"params
= {# "cb": "jQuery1124036392017581464287_1608882113715","pn": "2",
"pz": "20",
"po": "1",
"np": "1",
"ut": "bd1d9ddb04089700cf9c27f6f7426281",
"fltt": "2",
"invt": "2",
"fid": "f3",
"fs": "m:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23",
"fields": "f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152",
"_": "1608882115527",
}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"
}
response = requests.get(url=url, params=params, headers=headers)
html_data = response.json()
stock_data = html_data["data"]["diff"]
方法二:
1,正常参数,请求网页返回数据response.txt
2,用正则匹配 jQuery1124036392017581464287_1608882113715(。*?) 匹配中间的数据
3,通过导入json模块,串联转json数据json.loads
import pprintimport reimport requestsimport jsonurl
= "http://49.push2.eastmoney.com/api/qt/clist/get"params
= {"cb": "jQuery1124036392017581464287_1608882113715","pn": "2","pz": "20","po": "1","np": "1","ut": "bd1d9ddb04089700cf9c27f6f7426281","fltt": "2","invt": "2","fid": "f3","fs": "m:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23","fields": "f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152","_": "1608882115527",}
headers
= {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"}
response
= requests.get(url=url, params=params, headers=headers)result
= re.findall("jQuery1124036392017581464287_1608882113715((.*?));", response.text)[0]html_data
= json.loads(result)stock_data
= html_data["data"]["diff"]pprint.pprint(stock_data)
对于这个网站,以上两种方法都是可以的,但是一般建议使用第二种方式,因为第一种方式毕竟是投机取巧。
取值之后是一个列表的数据,通过用于循环遍历即可,获取每一支股票的相关数据了,通过键值对取值获取相对应的数据即可。
for i in stock_data:dit
= {"代码": i["f12"],"名称": i["f14"],"最新价": i["f2"],"涨跌幅": str(i["f3"]) + "%","涨跌额": i["f4"],"成交量(手)": i["f5"],"成交额": i["f6"],"振幅": str(i["f7"]) + "%","最高": i["f15"],"最低": i["f16"],"今开": i["f17"],"昨收": i["f18"],"量比": i["f10"],"换手率": str(i["f8"]) + "%","市盈率(动态)": i["f9"],"市净率": i["f23"],}
保存数据通过csv模块保存就可以了。
使用多线程爬取速度有多快?
给五个线程时的速度:
if__name__ == "__main__":start_time
= time.time()executor
= concurrent.futures.ThreadPoolExecutor(max_workers=5)for page in range(1, 215):url
= f"http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076"executor.submit(main, url)
executor.shutdown()
总耗时:3.685572624206543
总计数据:4279条数据
所以平均每秒钟爬取1161条数据。
当我给10个线程时的速度:
if__name__ == "__main__":start_time
= time.time()executor
= concurrent.futures.ThreadPoolExecutor(max_workers=10)for page in range(1, 215):url
= f"http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076"executor.submit(main, url)
executor.shutdown()
总耗时:1.7553794384002686
总计数据:4279条数据
所以平均每秒钟爬取2437条数据。
当我给20个线程时的速度:
。
。
。
。
。
。
。
。
。
。
给不了,电脑顶不住。
以上是 Python爬取股票数据,让你感受一下什么是一秒钟两千条数据 的全部内容, 来源链接: utcz.com/z/537690.html