大量小文件存储提高效率要点详解[python高级教程]

大量小文件存储提高效率要点详解[python高级教程]

在WEB开发中经常会遇到写文件的情况,最常见的莫过于保存图片文件。如果是文件数量不多,那我们完全没有必要担心其效率问题。但是当你有大量的用户,大量的图片的时候,我们怎么存储图片文件,就会直接影响整个图片存储系统的效率。

通常,有一种说法是:如1个目录下有10000个子文件,那么读取某个文件的速度将会明显下降。那这种说法到底正确不正确呢?下面我们来看一下:

  问:为什么单目录下子文件过多会影响性能?如1个目录下有10000个子文件,那么读取某个文件的速度将会明显慢下来?这和文件索引有关吗?索引中如何组织这些节点?

  答:是的,与索引有关。1w个不算多。上百万个就看出来了。但是建议不要超过10000个。

  问:上百万个慢是文件系统整体吧,那么和当前目录怎么关系上呢?一个差不多的文件系统支持几百万个文件不算什么

  答:我是说一个目录下,不分子目录,直接放他几十万上百万的文件,此时检索这个目录索引很费资源。

  支持数量有限是因为目录这个对象本身容纳的大小有被限制,目录就是一个容纳文件名和文件对应inode号的容器,被限制了,那么容纳的条目也就被限制了。

  读取某个文件速度没影响。但是查找就费劲了。某些文件系统的索引机制不完善,甚至没有什么优化算法,致使每次查找耗费更多的时间。


从上面的问答我们可以知道,“如1个目录下有10000个子文件,那么读取某个文件的速度将会明显下降。”的说法是对的。那如何分目录呢?


其实也比较简单,可以按月份分,hash分,时间加hash组合分,至于用哪种方法,那就要看你的项目需求了。。。

以上是 大量小文件存储提高效率要点详解[python高级教程] 的全部内容, 来源链接: utcz.com/z/540247.html

回到顶部