如何检查任务是否已经在python Queue中?

我正在使用线程和队列模块在Python中编写一个简单的搜寻器。我获取一个页面,检查链接并将它们放入队列中,当某个线程完成页面处理后,它将从队列中获取下一个页面。我对已经访问过的页面使用数组,以过滤添加到队列的链接,但是如果有多个线程并且它们在不同页面上获得相同的链接,则会将重复的链接放入队列。那么,如何确定队列中是否已经有一些url以避免再次放置?

回答:

如果您不关心项目的处理顺序,请尝试在内部Queue使用的子类set

class SetQueue(Queue):

def _init(self, maxsize):

self.maxsize = maxsize

self.queue = set()

def _put(self, item):

self.queue.add(item)

def _get(self):

return self.queue.pop()

正如Paul

McGuire指出的那样,这将允许在从“待处理”集中删除重复项并将其尚未添加到“已处理”集中后添加重复项。为了解决这个问题,您可以将两个集合都存储在Queue实例中,但是由于您使用更大的集合来检查项目是否已处理,因此您也可以返回到queue该集合以正确地订购请求。

class SetQueue(Queue):

def _init(self, maxsize):

Queue._init(self, maxsize)

self.all_items = set()

def _put(self, item):

if item not in self.all_items:

Queue._put(self, item)

self.all_items.add(item)

与单独使用一个集合相比,此方法的优点是Queue的方法是线程安全的,因此您不需要其他锁定即可检查另一个集合。

以上是 如何检查任务是否已经在python Queue中? 的全部内容, 来源链接: utcz.com/qa/424004.html

回到顶部