sqlite3是否压缩数据?
我有一个7.4Gbcsv文件。使用python脚本将其转换为sqlite数据库后,输出数据库为4.7Gb,约为原始大小的60%。
CSV大约有150,000,000行。它具有标题:
tkey,ipaddr,healthtime,numconnections,policystatus,activityflag
每行看起来像
261846,172.10.28.15,2012-02-03 16:15:00,22,1,1
该脚本使用运行状况时间将数据分成表192个表
当我第一次看到这些数字时,我以为我在某个地方犯了错误。从仅写入运行状况时间192次而不是150,000,000次的附加效率中,我期望文件大小减少多少?
我发布此后,我就意识到了答案。我要删除大约40%的字符串,因此减小了40%的大小。
让我们计算纯文本之间的大小差异:
"261846,172.10.28.15,2012-02-03 16:15:00,22,1,1"
和数据库条目:
db(261846,'172.10.28.15',22,1,1)
首先,我们将纯文本表示形式从46个字符减少到26个字符。
其余字符为:
"261846,172.10.28.15,22,1,1"
或26个字节。如果每个整数需要存储在32位(4个字节)中,则我们有:
12个字节(ipaddr)+ 4个字节* 4个(整数字段)= 28个字节。
这样看来,转换为整数会使存储效率略有降低,而我所有的收获都来自减少每行中存储的字符数。
回答:
SQLite没有运行压缩算法,但是它将数据存储在二进制文件而不是文本文件中。这意味着可以更有效地存储数据,例如使用32位(4字节)数字表示10,000,000
而不是将其存储为8字节的文本(如果文件是unicode,则存储更多)。
如果您有兴趣,这里是有关SQL数据库文件格式的更多详细信息。
那有意义吗?
以上是 sqlite3是否压缩数据? 的全部内容, 来源链接: utcz.com/qa/412096.html