如何检查任务是否已经在python Queue中?
我正在使用线程和队列模块在Python中编写一个简单的搜寻器。我获取一个页面,检查链接并将它们放入队列中,当某个线程完成页面处理后,它将从队列中获取下一个页面。我对已经访问过的页面使用数组,以过滤添加到队列的链接,但是如果有多个线程并且它们在不同页面上获得相同的链接,则会将重复的链接放入队列。那么,如何确定队列中是否已经有一些url以避免再次放置?
回答:
如果您不关心项目的处理顺序,请尝试在内部Queue
使用的子类set
:
class SetQueue(Queue): def _init(self, maxsize):
self.maxsize = maxsize
self.queue = set()
def _put(self, item):
self.queue.add(item)
def _get(self):
return self.queue.pop()
正如Paul
McGuire指出的那样,这将允许在从“待处理”集中删除重复项并将其尚未添加到“已处理”集中后添加重复项。为了解决这个问题,您可以将两个集合都存储在Queue
实例中,但是由于您使用更大的集合来检查项目是否已处理,因此您也可以返回到queue
该集合以正确地订购请求。
class SetQueue(Queue): def _init(self, maxsize):
Queue._init(self, maxsize)
self.all_items = set()
def _put(self, item):
if item not in self.all_items:
Queue._put(self, item)
self.all_items.add(item)
与单独使用一个集合相比,此方法的优点是Queue
的方法是线程安全的,因此您不需要其他锁定即可检查另一个集合。
以上是 如何检查任务是否已经在python Queue中? 的全部内容, 来源链接: utcz.com/qa/424004.html