两个数据量很大的集合求差集的高效方法

Z时代
2024-01-10
分类：技术分享

如题，两个集合如 List<String>，每个集合的数据量可能在 50-100w之间，如何高效的计算出 list-1 diff list-2 的结果，耗时以及内存占用尽可能优

可以使用任何一切手段，如调用脚本等

回答

public List<String> complement(List<String> l1, List<String> l2) {
    HashSet<String> s2 = new HashSet<>(l2);
    l1.forEach(s2::remove);
    return new ArrayList<>(s2);}

在一楼的基础上用多线程对集合分块剔除最后在合并结果只要线程够多快到你无法想象
其次用底层语言机器指令最好
硬件方面如果一台不行加机器加内存加cpu 还不行考虑大数据方面吧终极方案干掉出问题的人
两个数据量很大的集合求差集的高效方法

推荐google的guava,Sets.difference(set1,set2)即可，既然是求差集，应该优先排除重复元素

以上是两个数据量很大的集合求差集的高效方法的全部内容，来源链接： utcz.com/a/85526.html

两个数据量很大的集合求差集的高效方法

回答

其他人也看了：