[apue]apue_db：一个可以充当"注册表"的keyvalue数据库

Z时代
2024-01-10
分类：综合

apue 最后两章都是通过一个完整的实例来解释一些 linux 功能，第20章就是通过一个数据库实例来解释文件锁的使用，

说实话，当时没兴趣，因为满页都是源码和解析，有点看不下去。但是再拾起来硬着头皮看的时候，发现这哪里是个小 demo，明明是个五脏俱全的 key-value 数据库嘛，

而且这个数据库，提供多进程并发读写的安全性保证（通过文件锁）、提供已删除节点循环再利用的能力、提供根据用户需求调节内部 hash 表参数的能力……

特别是它的索引与数据文件格式，采用字符串存储各种偏移量与数字，非常便于直接打开文件去做一些 “观察”，然后也能很方便地基于 SDK 构建查找、增删改数据库的工具……

这简直就是一个 linux 上的 “注册表” 工具！

先来看看这个数据库提供的 SDK 接口：

apue_db.h

 1#ifndef __APUE_DB_H__
 2#define __APUE_DB_H__
 3
 4 typedef void* DBHANDLE;
 5
 6// db_store flags
 7#define DB_INSERT 1
 8#define DB_REPLACE 2
 9#define DB_STORE 3
10
11#define IDXLEN_MIN 6
12#define IDXLEN_MAX 1024 // single index can not exceed this size
13#define DATLEN_MIN 2
14#define DATLEN_MAX 1024 // single data can not exceed this size
15#define NHASH_DEF 137 // default hash table size
16
17 DBHANDLE db_open (charconst* pathname, int oflag, .../*mode*/); 
18void db_close (DBHANDLE db); 
19int db_store (DBHANDLE db, constchar *key, constchar *data, int flag); 
20char* db_fetch (DBHANDLE db, char *key); 
21int db_delete (DBHANDLE db, constchar *key); 
22void db_rewind (DBHANDLE db); 
23char *db_nextrec (DBHANDLE db, char *key); 
24void db_dump (DBHANDLE db); 
25
26#endif

通过 db_open/db_close 打开关闭数据库，拿到DBHANDLE后就可以基于这个做操作了：

db_store 存储一个key，flag 指定覆盖方式：
- DB_INSERT 当已经有这个key时会返回失败
- DB_REPLACE 当没有这个key时会返回失败
- DB_STORE 综合了上面两种情况，有时REPLACE，没有时INSERT

db_fetch 获取一个key对应的data

db_delete 删除一个key

db_rewind/db_nextrec 用来无序遍历数据库中的所有key

db_dump 是我自己加的一个接口，用来打印数据库内部状态，如索引哈希表、索引空闲节点列表，调试时使用

实现比较长，就不贴了，只给一个链接：apue_db.c

依据书中代码，纯手工输入，同时加入了习题中可以指定索引哈希表大小的能力

（编译时指定 HAS_HASHSIZE 宏，运行时通过环境变量 APUE_DB_HASH_SIZE 指定具体的哈希值，当然这个只在创建数据库时起作用，如果数据库已经存在，

将直接使用数据库中记录的哈希表大小值，如果没有环境变量，使用 NHASH_DEF 作为默认的哈希表尺寸，PS：尽量使用质数来保证哈希效果）

有了SDK，搞个数据库小工具就是小菜一碟了：

db.c

  1 #include "../apue.h"
  2 #include "apue_db.h"
  3 #include <fcntl.h>
  4 #include <strings.h>
  5 #include <errno.h>
  6
  7void Usage ()
  8{
  9     printf ("Usage: db filename insert key data
"); 
 10     printf ("       db filename query key
"); 
 11     printf ("       db filename delete key
"); 
 12     printf ("       db filename walk
"); 
 13     printf ("       db filename dump
"); 
 14     exit (-1); 
 15}
 16
 17int main (int argc, char *argv[])
 18{
 19if (argc < 3) 
 20        Usage (); 
 21
 22char *filename = argv[1]; 
 23char *action = argv[2]; 
 24char *key = NULL; 
 25char *data = NULL; 
 26if (strcasecmp (action, "walk") == 0
 27             || strcasecmp (action, "dump") == 0)
 28    {
 29// no extra param
 30    }
 31elseif (strcasecmp (action, "delete") == 0
 32             || strcasecmp (action, "query") == 0)
 33    {
 34if (argc < 4)
 35            Usage (); 
 36
 37         key = argv[3]; 
 38    }
 39elseif (strcasecmp (action, "insert") == 0)
 40    {
 41if (argc < 5)
 42            Usage (); 
 43
 44         key = argv[3]; 
 45         data = argv[4]; 
 46    }
 47else
 48    {
 49        Usage (); 
 50    }
 51
 52    DBHANDLE db; 
 53char *ptr = NULL; 
 54#ifdef HAS_HASHSIZE
 55int hashsize = 0; 
 56     ptr = getenv ("APUE_DB_HASH_SIZE"); 
 57if (ptr)
 58         hashsize = atoi (ptr); 
 59
 60if (hashsize <= 0)
 61         hashsize = NHASH_DEF; 
 62
 63if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE, hashsize)) == NULL)
 64#else
 65if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE)) == NULL)
 66#endif
 67         err_sys ("db_open error"); 
 68
 69int ret = 0; 
 70if (strcasecmp (action, "dump") == 0)
 71    {
 72        db_dump (db); 
 73    }
 74elseif (strcasecmp (action, "walk") == 0)
 75    {
 76//db_rewind (); 
 77int n = 0; 
 78char buf[IDXLEN_MAX] = { 0 }; 
 79while ((ptr = db_nextrec(db, buf)) != NULL)
 80        {
 81             n ++; 
 82             printf ("[%5d] %s --- %s
", n, buf, ptr); 
 83        }
 84
 85         printf ("walk done!
"); 
 86    }
 87elseif (strcasecmp (action, "insert") == 0)
 88    {
 89         ret = db_store (db, key, data, DB_STORE); 
 90if (ret < 0)
 91             fprintf (stderr, "insert %s.%s failed, errno %d
", key, data, errno); 
 92elseif (ret == 1)
 93             fprintf (stderr, "insert %s.%s cover old data
", key, data); 
 94else
 95             printf ("db %s "%s" code %d
", action, key, ret); 
 96    }
 97elseif (strcasecmp (action, "delete") == 0)
 98    {
 99         ret = db_delete (db, key); 
100if (ret < 0)
101             fprintf (stderr, "delete %s failed, errno %d
", key, errno); 
102else
103             printf ("db %s "%s" code %d
", action, key, ret); 
104    }
105elseif (strcasecmp (action, "query") == 0)
106    {
107         ptr = db_fetch (db, key); 
108//printf ("%s === %s
", key, ptr); 
109// only print data to allow assigned in shell script
110         printf ("%s
", ptr == NULL ? "nil" : ptr); 
111    }
112else
113        Usage (); 
114
115    db_close (db); 
116return ret; 
117 }

如果给定的参数不合法，会弹出 usage:

Usage: db filename insert key data

db filename query key

db filename delete key

db filename walk

db filename dump

其中：

insert 底层使用 db_store(..., DB_STORE); 来插入一条数据

query 底层使用 db_fetch 来查询一条数据

delete 底层使用 db_delete 来删除一条数据

walk 底层使用 db_nextrec 来遍历所有数据

dump 底层使用 db_dump 来查看数据库内部状态

好了，有了这个工具，我们就可以用脚本来开展测试工作了，为了验证这个数据库是“靠谱”的，我主要测试的是多进程并行写入、删除的能力。

在开始搞事情之前，我需要先准备一些测试数据，这个由一个awk脚本来完成：

gen.awk

 1 #! /bin/awk -f
 2BEGIN {
 3     WORDNUM = 10
 4for (i = 1; i <= WORDNUM; i++) {
 5         printf("%s %s
", randword(randint(20)), randword(randint(150))) 
 6    }
 7}
 8
 9 # randint(n): return a random integer number which is >= 1 and <= n
10function randint(n) {
11     return int(n *rand()) + 1
12}
13
14 # randlet(): return a random letter, which maybe upper, lower or number. 
15function randlet() {
16     return substr("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", randint(62), 1)
17}
18
19# randword(LEN): return a rand word with a length of LEN
20function randword(LEN) {
21     randw=""
22for( j = 1; j <= LEN; j++) {
23         randw=randw randlet()
24    }
25    return randw
26 }

执行这个脚本，得到测试数据文件：

$./gen.awk > demo

$ cat demo

s0jKl kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV

TmD516yvmt JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq

BOhc40pKXhCbCu8 yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf

Pw1o1fcg6kHIm ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE

GalRFwb YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai

2X staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l

zW4dQI 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7

0Jde UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2

yNSPh9ev0rnu0yU I3XVWF8h7to0

UivjVVXnSN60cre Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

这个文件每行都是一个 "key data"，其中 key 为 1-20 长度的随机字符串，data 为 1-150 长度的随机字符串，共10条。

写入数据的测试脚本就可以这样写了：

testi.sh

 1 #! /bin/sh
 2 OLD_IFS="$IFS"
 3 IFS=""
 4while read line
 5do
 6 #  echo $line
 7   array=($line)
 8   key=${array[0]}
 9   data=${array[1]}
10echo"$key -> $data"
11   ./db yunh insert $key $data
12done <demo
13
14 IFS="$OLD_IFS"

执行这个脚本，结果如下：

$ ./testi.sh

s0jKl -> kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV

db insert "s0jKl" code 0

TmD516yvmt -> JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq

db insert "TmD516yvmt" code 0

BOhc40pKXhCbCu8 -> yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf

db insert "BOhc40pKXhCbCu8" code 0

Pw1o1fcg6kHIm -> ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE

db insert "Pw1o1fcg6kHIm" code 0

GalRFwb -> YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai

db insert "GalRFwb" code 0

2X -> staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l

db insert "2X" code 0

zW4dQI -> 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7

db insert "zW4dQI" code 0

0Jde -> UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2

db insert "0Jde" code 0

yNSPh9ev0rnu0yU -> I3XVWF8h7to0

db insert "yNSPh9ev0rnu0yU" code 0

UivjVVXnSN60cre -> Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

db insert "UivjVVXnSN60cre" code 0

可以看到都插入进去了。如果有兴趣的话，现在可以打开数据库的索引与数据文件，一探究竟：

$ cat yunh.idx

0 137 0 0 0 0 0 0 0 0 0 0 0 0 0 857
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 1043 0 0 0 0 0
0 0 0 0 995 0 0 0 0 0 0 0 0 0 1076 0
0 949 0 0 0 0 0 0 0 0 0 0 0 0 0 1020
0 0 0 0 0 0 0 0 0 0 974 0 0 0 0 885
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 918 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 835

0 12s0jKl:0:123

0 18TmD516yvmt:123:52

0 23BOhc40pKXhCbCu8:175:76

0 21Pw1o1fcg6kHIm:251:64

0 15GalRFwb:315:79

0 112X:394:110

0 15zW4dQI:504:151

0 130Jde:655:104

0 23yNSPh9ev0rnu0yU:759:13

0 23UivjVVXnSN60cre:772:59

$ cat yunh.dat

kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV

JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq

yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf

ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE

YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai

staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l

6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7

UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2

I3XVWF8h7to0

Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

这里就不细说了，不过总的感觉，这个数据库还是比较“透明”的。

做多进程并发，这点儿数据当然不够了，我们修改gen.awk，让它生成1000条数据，

然后在插入脚本调用 db 命令的位置，使用后台运行来同时跑多个进程：

  ./db yunh insert $key $data &

这样执行之后，再观察数据库中的数据，通过执行 walk 或 dump，可以看到确确实实有1000条数据插入了。

为了验证数据准确性，甚至我还写了一个校验脚本，这个脚本每次一行从测试数据中读出key与data，然后再去数据库中取数据做对比，

经过验证，一条不差！

感兴趣的可以参考一下这个脚本：

testq.sh

 1 #! /bin/sh
 2 OLD_IFS="$IFS"
 3 IFS=""
 4 n=0
 5while read line
 6do
 7 #  echo $line
 8   array=($line)
 9   key=${array[0]}
10   data=${array[1]}
11   resp=`./db yunh query $key $data`
12if [ "$resp" != "$data" ]; then
13echo"query $key with $resp != $data"
14     n=$(($n+1))
15fi
16done <demo
17echo"total different: $n"
18
19 IFS="$OLD_IFS"
20