点击流数据应该怎么存储

  • Kafka:理论无上限,但实际受限于单机存储;顺序写,速度快
  • HDFS:可以水平扩展;随机写,速度慢;基于 Hive SQL 的查询
  • 分布式流数据存储
  • 时序数据库

分布式存储是怎么保存文件的?

在文件存储时,会将一个文件进行切块,比如 1MB 大小。然后将文件块放到容器中存储,基于容器进行主从复制。同时有一个元数据模块,用于记录文件的映射关系。还有一个网关模块。

对象存储通过半同步复制的方式来复制数据,即有一部分复制完了,就返回 OK。

参考链接

18 | 分布式存储:你知道对象存储是如何保存图片文件的吗?-后端存储实战课-极客时间
21 | 类似“点击流”这样的海量数据应该如何存储? - 极客时间已完结课程限时免费阅读