什么是高可用?

一个系统大多数时间是可用的,即使是硬件故障或者系统升级时候,依旧可用。

高可用的度量方式

  • MTBF(Mean Time Between Failure)是平均故障间隔的意思,代表两次故障的间隔时间,也就是系统正常运转的平均时间。这个时间越长,系统稳定性越高。
  • MTTR(Mean Time To Repair)表示故障的平均恢复时间,也可以理解为平均故障时间。这个值越小,故障对于用户的影响越小。
  • Availability = MTBF / (MTBF + MTTR)
  • 系统可用性 9999

|400

哪些情况会导致系统不可用?

  1. 访问者不怀好意:黑客攻击;
  2. 访问者正常访问:并发量/用户请求量激增导致整个服务宕掉或者部分服务不可用;
  3. 开发者代码问题:代码中的坏味道导致内存泄漏或者其他问题导致程序挂掉;
  4. 外力因素:硬件故障,比如服务器坏掉;自然灾害或者人为破坏。

如何提升系统可用性?

稳定性提升方向

如何提升不同场景下高可用?

排查问题的经验贴

参考链接