LevelDB Filter

Bloom Filter

LevelDB 可以设置通过 bloom filter 来减少不必要的读 I/O 次数。

1970 年，Burton Howard Bloom 在论文 Space/Time Trade-offs in Hash Coding with Allowable Errors 提出了 bloom filter。

Bloom filter 的实现一般由一个或多个 bitmap 和多个哈希函数组成，可以用于检索一个元素是否在一个集合中。

关于删除操作，也许有人会想把 bitmap 变成整数数组，然后每插入一个元素就把对应的计数器加 1，删除元素时将计数器减掉就可以了。这样做有两个问题：
1. 消耗的内存大大增加。如果使用 uint8 的整数数组，内存是原来的 8 倍，并且最大只能计数到 255。而使用 uint16、uint32 会消耗更多的内存。
2. 要保证安全地删除元素，首先我们必须保证删除的元素的确在 bloom filter 中。这一点单凭这个过滤器是无法保证的。

假设 m 为 bitmap 的长度，n 是元素的总数，k 是哈希函数的个数，则平均每个 key 消耗的内存 bits_per_key = m / n。

对于给定的 bits_per_key，要使误识别率最低，则 k 的取值为 bits_per_key * ln2。

如果我们希望误识别率为 e，则