定时抓取数据去重,确保每个时间点有数据,填充有什么好方案?

定时抓取数据去重,确保每个时间点有数据,填充有什么好方案?

爬虫每隔两个小时进行数据抓取 假如1点开始抓取,01:03分抓到数据,那么就算做1:00抓到数据,这样做为了统计图表好统计,而且如果1:00抓到重复的多条数据,还要进行去重。如果没抓到数据,就把前两个小时抓到的数据填充。

要想实现这=这样的需求不知道用什么数据库好?


回答:

生成抓取任务和分类ID。这样就可以区分时间段了,当然你也可以分表。

分类ID: 2023-02-21 01:00:00

任务: https://segmentfault.com/q/1010000043447558

分类ID: 2023-02-21 01:00:00

任务: https://segmentfault.com/


重复数据可以设置 唯一键。这样就不会重复,当然,也可以直接把 response 挂在记录上,这样改的时候就是根据 id 修改字段,本身也不会重复。


填充的话,可以先用历史数据生成新的任务,然后修改分类ID保留 response。


数据库应该没啥硬性要求,mysql 之类的就可以。

以上是 定时抓取数据去重,确保每个时间点有数据,填充有什么好方案? 的全部内容, 来源链接: utcz.com/p/938757.html

回到顶部