从网页上爬取存到excel的数据导入到数据库,怎么避免与数据库和excel的数据的数据重复,数据量上万?
背景:
教育相关的题目
从网页上已经爬取好的题目数据在excel中(原来人怎么爬的没看见程序,人也暂时联系不到)
excel数据字段与部分数据如下:
问题:把excel的数据整理存入到mysql相对应表中
要求:题目不能重复,最终目标就是新导入的题目不能跟原来已有的重复,以后再导的话也不能与数据库里面已有的题目重复
回答:
将表的题目
这个字段设置成唯一键就行了吧
回答:
思路肯定是要避免 大规模的db查询。 这里可以考虑使用布隆过滤器,命中后在查询是否有重复,大大减少了查询次数。 具体思路可以看看 布隆过滤器,理解后就知道怎么玩了
回答:
可以把需要重复的检查的数据表字段设置成 唯一索引,然后再使用mysql的 insert ignore into 语法,会自动跳过重复的数据。
以上是 从网页上爬取存到excel的数据导入到数据库,怎么避免与数据库和excel的数据的数据重复,数据量上万? 的全部内容, 来源链接: utcz.com/p/944715.html