[apue]apue_db:一个可以充当"注册表"的keyvalue数据库

编程

apue 最后两章都是通过一个完整的实例来解释一些 linux 功能,第20章就是通过一个数据库实例来解释文件锁的使用,

说实话,当时没兴趣,因为满页都是源码和解析,有点看不下去。但是再拾起来硬着头皮看的时候,发现这哪里是个小 demo,明明是个五脏俱全的 key-value 数据库嘛,

而且这个数据库,提供多进程并发读写的安全性保证(通过文件锁)、提供已删除节点循环再利用的能力、提供根据用户需求调节内部 hash 表参数的能力……

特别是它的索引与数据文件格式,采用字符串存储各种偏移量与数字,非常便于直接打开文件去做一些 “观察”,然后也能很方便地基于 SDK 构建查找、增删改数据库的工具……

这简直就是一个 linux 上的 “注册表” 工具!

 

先来看看这个数据库提供的 SDK 接口:

apue_db.h

 1#ifndef __APUE_DB_H__

2#define __APUE_DB_H__

3

4 typedef void* DBHANDLE;

5

6// db_store flags

7#define DB_INSERT 1

8#define DB_REPLACE 2

9#define DB_STORE 3

10

11#define IDXLEN_MIN 6

12#define IDXLEN_MAX 1024 // single index can not exceed this size

13#define DATLEN_MIN 2

14#define DATLEN_MAX 1024 // single data can not exceed this size

15#define NHASH_DEF 137 // default hash table size

16

17 DBHANDLE db_open (charconst* pathname, int oflag, .../*mode*/);

18void db_close (DBHANDLE db);

19int db_store (DBHANDLE db, constchar *key, constchar *data, int flag);

20char* db_fetch (DBHANDLE db, char *key);

21int db_delete (DBHANDLE db, constchar *key);

22void db_rewind (DBHANDLE db);

23char *db_nextrec (DBHANDLE db, char *key);

24void db_dump (DBHANDLE db);

25

26#endif

 

通过 db_open/db_close 打开关闭数据库,拿到DBHANDLE后就可以基于这个做操作了:

  • db_store 存储一个key,flag 指定覆盖方式:

    • DB_INSERT 当已经有这个key时会返回失败
    • DB_REPLACE 当没有这个key时会返回失败
    • DB_STORE 综合了上面两种情况,有时REPLACE,没有时INSERT

  • db_fetch 获取一个key对应的data
  • db_delete 删除一个key
  • db_rewind/db_nextrec 用来无序遍历数据库中的所有key
  • db_dump 是我自己加的一个接口,用来打印数据库内部状态,如索引哈希表、索引空闲节点列表,调试时使用

 

实现比较长,就不贴了,只给一个链接:apue_db.c

依据书中代码,纯手工输入,同时加入了习题中可以指定索引哈希表大小的能力

(编译时指定 HAS_HASHSIZE 宏,运行时通过环境变量 APUE_DB_HASH_SIZE 指定具体的哈希值,当然这个只在创建数据库时起作用,如果数据库已经存在,

将直接使用数据库中记录的哈希表大小值,如果没有环境变量,使用 NHASH_DEF 作为默认的哈希表尺寸,PS:尽量使用质数来保证哈希效果)

有了SDK,搞个数据库小工具就是小菜一碟了:

db.c

  1 #include "../apue.h"

2 #include "apue_db.h"

3 #include <fcntl.h>

4 #include <strings.h>

5 #include <errno.h>

6

7void Usage ()

8{

9 printf ("Usage: db filename insert key data

");

10 printf (" db filename query key

");

11 printf (" db filename delete key

");

12 printf (" db filename walk

");

13 printf (" db filename dump

");

14 exit (-1);

15}

16

17int main (int argc, char *argv[])

18{

19if (argc < 3)

20 Usage ();

21

22char *filename = argv[1];

23char *action = argv[2];

24char *key = NULL;

25char *data = NULL;

26if (strcasecmp (action, "walk") == 0

27 || strcasecmp (action, "dump") == 0)

28 {

29// no extra param

30 }

31elseif (strcasecmp (action, "delete") == 0

32 || strcasecmp (action, "query") == 0)

33 {

34if (argc < 4)

35 Usage ();

36

37 key = argv[3];

38 }

39elseif (strcasecmp (action, "insert") == 0)

40 {

41if (argc < 5)

42 Usage ();

43

44 key = argv[3];

45 data = argv[4];

46 }

47else

48 {

49 Usage ();

50 }

51

52 DBHANDLE db;

53char *ptr = NULL;

54#ifdef HAS_HASHSIZE

55int hashsize = 0;

56 ptr = getenv ("APUE_DB_HASH_SIZE");

57if (ptr)

58 hashsize = atoi (ptr);

59

60if (hashsize <= 0)

61 hashsize = NHASH_DEF;

62

63if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE, hashsize)) == NULL)

64#else

65if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE)) == NULL)

66#endif

67 err_sys ("db_open error");

68

69int ret = 0;

70if (strcasecmp (action, "dump") == 0)

71 {

72 db_dump (db);

73 }

74elseif (strcasecmp (action, "walk") == 0)

75 {

76//db_rewind ();

77int n = 0;

78char buf[IDXLEN_MAX] = { 0 };

79while ((ptr = db_nextrec(db, buf)) != NULL)

80 {

81 n ++;

82 printf ("[%5d] %s --- %s

", n, buf, ptr);

83 }

84

85 printf ("walk done!

");

86 }

87elseif (strcasecmp (action, "insert") == 0)

88 {

89 ret = db_store (db, key, data, DB_STORE);

90if (ret < 0)

91 fprintf (stderr, "insert %s.%s failed, errno %d

", key, data, errno);

92elseif (ret == 1)

93 fprintf (stderr, "insert %s.%s cover old data

", key, data);

94else

95 printf ("db %s "%s" code %d

", action, key, ret);

96 }

97elseif (strcasecmp (action, "delete") == 0)

98 {

99 ret = db_delete (db, key);

100if (ret < 0)

101 fprintf (stderr, "delete %s failed, errno %d

", key, errno);

102else

103 printf ("db %s "%s" code %d

", action, key, ret);

104 }

105elseif (strcasecmp (action, "query") == 0)

106 {

107 ptr = db_fetch (db, key);

108//printf ("%s === %s

", key, ptr);

109// only print data to allow assigned in shell script

110 printf ("%s

", ptr == NULL ? "nil" : ptr);

111 }

112else

113 Usage ();

114

115 db_close (db);

116return ret;

117 }

 

如果给定的参数不合法,会弹出 usage:

Usage: db filename insert key data

db filename query key

db filename delete key

db filename walk

db filename dump

 

其中:

  • insert 底层使用 db_store(..., DB_STORE); 来插入一条数据
  • query 底层使用 db_fetch 来查询一条数据
  • delete 底层使用 db_delete 来删除一条数据
  • walk 底层使用 db_nextrec 来遍历所有数据
  • dump 底层使用 db_dump 来查看数据库内部状态

 

好了,有了这个工具,我们就可以用脚本来开展测试工作了,为了验证这个数据库是“靠谱”的,我主要测试的是多进程并行写入、删除的能力。

在开始搞事情之前,我需要先准备一些测试数据,这个由一个awk脚本来完成:

gen.awk

 1 #! /bin/awk -f

2BEGIN {

3 WORDNUM = 10

4for (i = 1; i <= WORDNUM; i++) {

5 printf("%s %s

", randword(randint(20)), randword(randint(150)))

6 }

7}

8

9 # randint(n): return a random integer number which is >= 1 and <= n

10function randint(n) {

11 return int(n *rand()) + 1

12}

13

14 # randlet(): return a random letter, which maybe upper, lower or number.

15function randlet() {

16 return substr("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", randint(62), 1)

17}

18

19# randword(LEN): return a rand word with a length of LEN

20function randword(LEN) {

21 randw=""

22for( j = 1; j <= LEN; j++) {

23 randw=randw randlet()

24 }

25 return randw

26 }

 

执行这个脚本,得到测试数据文件:

$./gen.awk > demo

$ cat demo

s0jKl kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV

TmD516yvmt JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq

BOhc40pKXhCbCu8 yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf

Pw1o1fcg6kHIm ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE

GalRFwb YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai

2X staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l

zW4dQI 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7

0Jde UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2

yNSPh9ev0rnu0yU I3XVWF8h7to0

UivjVVXnSN60cre Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

 

这个文件每行都是一个 "key data",其中 key 为 1-20 长度的随机字符串,data 为 1-150 长度的随机字符串,共10条。

写入数据的测试脚本就可以这样写了:

testi.sh

 1 #! /bin/sh

2 OLD_IFS="$IFS"

3 IFS=""

4while read line

5do

6 # echo $line

7 array=($line)

8 key=${array[0]}

9 data=${array[1]}

10echo"$key -> $data"

11 ./db yunh insert $key $data

12done <demo

13

14 IFS="$OLD_IFS"

 

执行这个脚本,结果如下:

$ ./testi.sh 

s0jKl -> kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV

db insert "s0jKl" code 0

TmD516yvmt -> JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq

db insert "TmD516yvmt" code 0

BOhc40pKXhCbCu8 -> yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf

db insert "BOhc40pKXhCbCu8" code 0

Pw1o1fcg6kHIm -> ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE

db insert "Pw1o1fcg6kHIm" code 0

GalRFwb -> YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai

db insert "GalRFwb" code 0

2X -> staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l

db insert "2X" code 0

zW4dQI -> 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7

db insert "zW4dQI" code 0

0Jde -> UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2

db insert "0Jde" code 0

yNSPh9ev0rnu0yU -> I3XVWF8h7to0

db insert "yNSPh9ev0rnu0yU" code 0

UivjVVXnSN60cre -> Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

db insert "UivjVVXnSN60cre" code 0

 

可以看到都插入进去了。如果有兴趣的话,现在可以打开数据库的索引与数据文件,一探究竟:

$ cat yunh.idx

0 137 0 0 0 0 0 0 0 0 0 0 0 0 0 857
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 1043 0 0 0 0 0
0 0 0 0 995 0 0 0 0 0 0 0 0 0 1076 0
0 949 0 0 0 0 0 0 0 0 0 0 0 0 0 1020
0 0 0 0 0 0 0 0 0 0 974 0 0 0 0 885
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 918 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 835

0 12s0jKl:0:123

0 18TmD516yvmt:123:52

0 23BOhc40pKXhCbCu8:175:76

0 21Pw1o1fcg6kHIm:251:64

0 15GalRFwb:315:79

0 112X:394:110

0 15zW4dQI:504:151

0 130Jde:655:104

0 23yNSPh9ev0rnu0yU:759:13

0 23UivjVVXnSN60cre:772:59

$ cat yunh.dat

kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV

JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq

yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf

ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE

YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai

staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l

6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7

UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2

I3XVWF8h7to0

Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

 

这里就不细说了,不过总的感觉,这个数据库还是比较“透明”的。

做多进程并发,这点儿数据当然不够了,我们修改gen.awk,让它生成1000条数据,

然后在插入脚本调用 db 命令的位置,使用后台运行来同时跑多个进程:

  ./db yunh insert $key $data &

 

这样执行之后,再观察数据库中的数据,通过执行 walk 或 dump,可以看到确确实实有1000条数据插入了。

为了验证数据准确性,甚至我还写了一个校验脚本,这个脚本每次一行从测试数据中读出key与data,然后再去数据库中取数据做对比,

经过验证,一条不差!

 

感兴趣的可以参考一下这个脚本:

testq.sh

 1 #! /bin/sh

2 OLD_IFS="$IFS"

3 IFS=""

4 n=0

5while read line

6do

7 # echo $line

8 array=($line)

9 key=${array[0]}

10 data=${array[1]}

11 resp=`./db yunh query $key $data`

12if [ "$resp" != "$data" ]; then

13echo"query $key with $resp != $data"

14 n=$(($n+1))

15fi

16done <demo

17echo"total different: $n"

18

19 IFS="$OLD_IFS"

20

 

最近在做 windows 到 linux 程序移植的工作,其中注册表访问的部分一直很头疼,因为写配置文件实在是又零散又不能保证并发问题,

于是自然而然想到,把这个SDK封装在一个跨平台访问配置信息的类中,用于模拟 windows 上访问注册表的机制,结果很完美。

 

最后总结一下,就是 apue 本身是个大宝库,看似简单的一个demo都蕴藏着巨大的潜力,作者不愧为一代巨匠,赞~~~

 

以上是 [apue]apue_db:一个可以充当&quot;注册表&quot;的keyvalue数据库 的全部内容, 来源链接: utcz.com/z/515333.html

回到顶部