先上一张图
以下是引用网上的说法
一份数据写入es会产生多份数据用于不同查询方式,会比原数据占用更多磁盘空间。而索引setting里"codec": "best_compression"是针对_source进行压缩的,压缩算法是deflate压缩比为6。
存储原文_source的文件.fdt .fdm .fdx;存储倒排索引的文件.tim .tip .doc;用于聚合排序的列存文件.dvd .dvm;全文检索文件.pos .pay .nvd .nvm等。加载到内存中的文件有.fdx .tip .dvm,其中.tip占用内存最大,而.fdt . tim .dvd文件占用磁盘最大,例如
另外segment较小时文件内容是保存在.cfs文件中,.cfe文件保存Lucene各文件在.cfs文件的位置信息,这是为了减少Lucene打开的文件句柄数。