HyperLogLog 算法（三）—— Redis 中的 HyperLogLog

Redis 支持基于 HyperLogLog 的基数计数统计，其算法思想和前两篇提到的 Linear Counting 和 LogLog Counting 的算法类似，本篇主要分析其源码——github:antirez/redis/src/hyperloglog.c 中的代码

Header

Header 总共有 16 个字节，分别为
HYLL E N/U Cardin
如下图所示：

HYLL 是 4 个魔法字节，为”HYLL”
E 为 1 个字节表示Dense/Sparse
N/U 为未来留下的空字节，共 3 个字节
Cardin 为缓存区，8 个字节

代码实现如下：

struct hllhdr {
    char magic[4];      /* "HYLL" */
    uint8_t encoding;   /* HLL_DENSE or HLL_SPARSE. */
    uint8_t notused[3]; /* Reserved for future use, must be zero. */
    uint8_t card[8];    /* Cached cardinality, little endian. */
    uint8_t registers[]; /* Data bytes. */
};

所以 HyperLogLog 整体的内部结构就是 hllhdr 以及 16384 个桶的计数值位图。在 Redis 的内部结构表现就是一个字符串位图。可以把 HyperLogLog 对象完全当成普通的字符串来进行处理。其字符头为 “HYLL\x00” 或者 “HYLL\x01″，满足这种条件的字符可以使用 HyperLogLog 指令。

接下来会主要介绍 Dense/Sparse 与缓存区的特性

Sparse

稀疏存储主要应用于多数的基数计数值为 0 的状况，在这种情况下对计数结果进行压缩，可以节省空间。稀疏存储情景下，Redis 使用了 3 个操作码表示不一样的计数结果。
ZERO 操作码的形式为 “00xxxxxx”，后面的 6 bits 表示后面是 xxxxxx + 1 个连续的 0
XZERO 操作码的形式为 “01xxxxxx yyyyyyyy”, 6 bits 的 “xxxxxx” 被称为 Most Significent Bits MSB，8 bits 的 “yyyyyyyy” 被称为 Least Significent Bits。14 个比特表示最多 2^14 = 16,384 个零值计数器
VAL 操作码的形式为 “1vvvvvxx”, 5 bits 的 “vvvvv” 表示的是重复的计数值， “xx” 表示重复计数值的桶的数量，即连续 (xx + 1) 个桶的计数值都是 (vvvvv+1)。能表示的计数值最大重复为 4 次，计数值最大表示为 32，超过 32 将从 Sparse 转换到 Dense。
稀疏存储的例子如下图所示：

除了 VAL 操作码超过 32，稀疏存储的占用的总字节超过 3000 字节也会发生由 Sparse 到 Dense 的转换，这个阈值为 hll_sparse_max_bytes

Dense

当从稀疏存储转化为密集存储时，Redis 采用连续的 16384 个 6bits 字符串组成字符串，如下图所示：

需要特殊注意的是，每个字节内存放的比特和一般字节内的左高右低不同，在连续的Bucekt 中字节位数相反，左低右高。
所以其比特级别的数据结果表示为：
|1100 0000|2222 1111|3333 3322|5544 4444|6655 5555|7777 6666|···
数字表示不同的桶的编号，例如第一个比特的 1100 0000 为第 1 个 bucket 的前 2 个 bits 与第 0 个 bucket 的 6 个 bits
相对于上图，需要将同一个字节中不同 bucket 的比特交换高低的位置。
当需要得到某个 pos 位置的桶的值时，需要先得到字节间偏移量：
bx = 6 * pos / 8
然后得到字节内的偏移量
by = 6 * pos % 8
将 bx 字节右移 by 个比特，将 b(x+1) 左移 8 – by 个比特，并进行按位或。
最后与 001111 按位将高 2 位舍弃得到最后的结果。
例如下图，为了获取 pos = 2 的桶的值，首先得到字节间偏移量：
bx = 6 * pos / 8 = 1
然后得到字节内偏移量：
by = 6 * pos % 8 = 4
然后将字节 b1 右移 4个比特，得到：
00001010
将 b2 左移 4个比特，得到：
1101000
按位或并且丢弃最高两位（&63）得到：
(00)011010
示意图如图所示：

将桶值设置入字符串是上述过程的逆过程，其运算过程要比从字符串中取桶值稍微复杂一点。首先还是要得到需要设置的字节间偏移量与字节内偏移量，然后进行位操作。
bx = 6 * pos / 8
by = 6 * pos % 8

例如我们要设置 pos = 7 的桶为 val = 00xx yyyy
计算出：
bx = 5，by = 4
首先操作第一个字节 b5 ，b5 字节上的桶号为 (7777 6666)，将 mask (63，0011 1111) 左移 by = 4 位并取反得到新的 mask 0000 1111。将 0000 1111 与字节 5 的 (7777 6666) 按位与，得到最后的mask 0000 (6666)
将 val 左移 4位，即 val = 00xx yyyy 变成 yyyy 0000，与 0000 (6666) 按位或得到 yyyy (6666)，即 val 的后 4 位被设置到了字节 5 的前 4 位（即 bucket 7 的 4 位），而字节 5 的其他比特不变。

设置第二个字节 b6 ，b6 字节上的桶号为 (8888 8877)，将mask (63, 0011 1111) 右移 8 – b_y = 4 个字节，然后取反得到新的 mask 1111 1100。将 mask 与字节 6 的 (8888 8877) 按位与得到最后的mask (8888 88)00
将 val 右移 8 – 4 = 4 位得到 0000 00xx，与mask 按位或得到 (8888 88)xx，此时 val 的前 2 为被设置到字节 6 的后 2 位（即 bucket 7 的后两位）这样就设置完成了。

获取 bucket 值的代码如下：

#define HLL_DENSE_GET_REGISTER(target,p,regnum) do { \
    uint8_t *_p = (uint8_t*) p; \  
    unsigned long _byte = regnum*HLL_BITS/8; \ //bx 字节间偏移
    unsigned long _fb = regnum*HLL_BITS&7; \ //by 字节内偏移
    unsigned long _fb8 = 8 - _fb; \  //8 - by 需要 b(x+1)反向偏移的偏移量
    unsigned long b0 = _p[_byte]; \ //bx 对应的字节值
    unsigned long b1 = _p[_byte+1]; \ //b(x+1)对应的字节值
    target = ((b0 >> _fb) | (b1 << _fb8)) & HLL_REGISTER_MAX; \ //b0 右移 _fb，b1 左移 _fb8，合并，然后取出
} while(0)

设置 bucket 值代码类似：

#define HLL_DENSE_SET_REGISTER(p,regnum,val) do { \
    uint8_t *_p = (uint8_t*) p; \
    unsigned long _byte = regnum*HLL_BITS/8; \
    unsigned long _fb = regnum*HLL_BITS&7; \
    unsigned long _fb8 = 8 - _fb; \
    unsigned long _v = val; \
    _p[_byte] &= ~(HLL_REGISTER_MAX << _fb); \
    _p[_byte] |= _v << _fb; \
    _p[_byte+1] &= ~(HLL_REGISTER_MAX >> _fb8); \
    _p[_byte+1] |= _v >> _fb8; \
} while(0)

Cardin Cache

前面提到 HyperLogLog 表示的总计数值是由 16384 个桶的计数值进行调和平均后再基于因子修正公式计算得出来的。它需要遍历所有的桶进行计算才可以得到这个值，中间还涉及到很多浮点运算。这个计算量相对来说还是比较大的。

所以 Redis 使用了一个额外的字段来缓存总计数值，这个字段有 64bit，最高位如果为 1 表示该值是否已经过期，如果为 0，那么剩下的 63bit 就是计数值。

当 HyperLogLog 中任意一个桶的计数值发生变化时，就会将计数缓存设为过期，但是不会立即触发计算。而是要等到用户显示调用 pfcount 指令时才会触发重新计算刷新缓存。缓存刷新在密集存储时需要遍历 16384 个桶的计数值进行调和平均，但是稀疏存储时没有这么大的计算量。也就是说只有当计数值比较大时才可能产生较大的计算量。另一方面如果计数值比较大，那么大部分 pfadd 操作根本不会导致桶中的计数值发生变化。

这意味着在一个极具变化的 HLL 计数器中频繁调用 pfcount 指令可能会有少许性能问题。关于这个性能方面的担忧在 Redis 作者 antirez 的博客中也提到了。不过作者做了仔细的压力的测试，发现这是无需担心的，pfcount 指令的平均时间复杂度就是 O(1)。

Calculation

有关 Redis 采用的具体 HyperLogLog 算法可以参见论文 New cardinality estimation algorithms for HyperLogLog sketches，受到篇幅所限，在这里不再赘述（大量数学推导），其代码实现如下。

uint64_t hllCount(struct hllhdr *hdr, int *invalid) {
    double m = HLL_REGISTERS;
    double E;
    int j;
    int reghisto[HLL_Q+2] = {0};

    /* Compute register histogram */
    if (hdr->encoding == HLL_DENSE) {
        hllDenseRegHisto(hdr->registers,reghisto);
    } else if (hdr->encoding == HLL_SPARSE) {
        hllSparseRegHisto(hdr->registers,
                         sdslen((sds)hdr)-HLL_HDR_SIZE,invalid,reghisto);
    } else if (hdr->encoding == HLL_RAW) {
        hllRawRegHisto(hdr->registers,reghisto);
    } else {
        serverPanic("Unknown HyperLogLog encoding in hllCount()");
    }

    /* Estimate cardinality form register histogram. See:
     * "New cardinality estimation algorithms for HyperLogLog sketches"
     * Otmar Ertl, arXiv:1702.01284 */
    double z = m * hllTau((m-reghisto[HLL_Q+1])/(double)m);
    for (j = HLL_Q; j >= 1; --j) {
        z += reghisto[j];
        z *= 0.5;
    }
    z += m * hllSigma(reghisto[0]/(double)m);
    E = llroundl(HLL_ALPHA_INF*m*m/z);

    return (uint64_t) E;
}

主要是按照密集以及稀疏分情况调用 hllSparseRegHistro 以及 hllDenseRegHistro 获取其 Histogram，然后最后通过上一篇给出的无偏估计的公式给出估计的基数值。

Header

Sparse

Dense

Cardin Cache

Calculation

Leave a Reply Cancel reply