数据存储方式：行式存储&列式存储

快速聚合查询：当执行涉及大量读取但只针对少数几列的查询时（如统计分析、聚合操作），列式存储能够显著提高性能，因为它只需要读取相关的列，而不需要扫描整个表。

高效的数据压缩：因为同一列的数据类型通常是一样的，并且往往具有相似的值域，所以可以更有效地进行压缩，减少磁盘空间占用。在列式存储中相邻的数据类型是一致性的，并且通常会出现前缀一样，甚至完全相同的数据的特点，比如在用户的地址信息中，同一个地方的用户，省市县都是完全相同的，这非常适合使用 RLE 压缩、前缀压缩和字典压缩等压缩算法去压缩。

RLE 压缩：“AAABBBBCC” ⇒ 3A4B2C，适用场景较少。图像 mask 存储的时候就先使用 RLE 压缩，然后进一步转换
字典压缩：比如某一列是 enum 类型，那么就直接用数字来表示，从而压缩文本。

写入成本较高：由于数据是按列存储的，更新或插入记录可能需要对多个文件进行修改，这会增加写操作的成本。因此，列式存储更适合于以读为主的工作负载。

索引优化：对于经常被查询的列，可以创建高效的索引，进一步加快查询速度。

🪴 Obsidian Publish

探索

数据存储方式：行式存储&列式存储

列式存储优点

列式存储场景

参考链接

目录

反向链接