@2 Pod 详解

1 Pod 基础知识

1.1 什么是 Pod

Pod 是一个或多个容器的集合，运行中的一组容器，Pod 是 kubernetes 中应用的最小单位。

Pod 中除了用户自己创建的容器，还有一个根容器，Pause 容器，作用两个：

可以以它为依据，评估整个 Pod 的健康状态
可以在根容器上设置 IP 地址，其它容器都此 IP（Pod IP），以实现 Pod 内部的网路通信

Pod 中的容器，共享存储和网络。Pod 中的容器共享 IP 地址和端口号，它们之间可以通过 localhost 互相发现。它们之间可以通过进程间通信，例如 SystemV 信号或者 POSIX 共享内存。Pod 中的容器也有访问共享 volume 的权限，这些 volume 会被定义成 pod 的一部分并挂载到应用容器的文件系统中。

image-20200407121501907|350

1.2 Pod 动机

管理

Pod 是一个服务的多个进程的聚合单位，pod 提供这种模型能够简化应用部署管理，通过提供一个更高级别的抽象的方式。Pod 作为一个独立的部署单位，支持横向扩展和复制。共生（协同调度），命运共同体（例如被终结），协同复制，资源共享，依赖管理，pod 都会自动的为容器处理这些问题。

资源共享和通信

Pod 中的应用可以共享网络空间（IP 地址和端口），因此可以通过 localhost 互相发现。因此，pod 中的应用必须协调端口占用。每个 pod 都有一个唯一的 IP 地址，跟物理机和其他 pod 都处于一个扁平的网络空间中，它们之间可以直接连通。

Pod 中应用容器的 hostname 被设置成 Pod 的名字。

Pod 中的应用容器可以共享卷。持久化卷能够保证 pod 重启时使用的数据不丢失。

1.3 Pod 定义

- apiVersion <string> # 版本，由 kubernetes 内部定义，版本号必须可以用 kubectl api-versions 查询到
- kind <string> # 类型，由 kubernetes 内部定义，版本号必须可以用 kubectl api-resources 查询到
- metadata <Object> # 元数据，主要是资源标识和说明，常用的有 name、namespace、labels 等
- spec <Object> # 描述，这是配置中最重要的一部分，里面是对各种资源配置的详细描述
- status <Object> # 状态信息，里面的内容不需要定义，由 kubernetes 自动生成
 
# 在上面的属性中，spec 是接下来研究的重点，继续看下它的常见子属性:
 
- containers <[]Object> # 容器列表，用于定义容器的详细信息
- nodeName <String> # 根据 nodeName 的值将 pod 调度到指定的 Node 节点上
- nodeSelector <map[]> # 根据 NodeSelector 中定义的信息选择将该 Pod 调度到包含这些 label 的 Node 上
- hostNetwork <boolean> # 是否使用主机网络模式，默认为 false，如果设置为 true，表示使用宿主机网络
- volumes <[]Object> # 存储卷，用于定义 Pod 上面挂在的存储信息
- restartPolicy <string> # 重启策略，表示 Pod 在遇到故障的时候的处理策略

1.4 Pod 资源清单

下面是 Pod 的资源清单：

apiVersion: v1     #必选 ，版本号，例如 v1
kind: Pod       　 #必选 ，资源类型，例如 Pod
metadata:       　 #必选 ，元数据
  name: string     #必选 ，Pod 名称
  namespace: string  #Pod所属的命名空间 ,默认为"default"
  labels:       　　  #自定义标签列表
    - name: string

spec:  #必选 ，Pod 中容器的详细定义
  containers:  #必选 ，Pod 中容器列表
  - name: string   #必选 ，容器名称
    image: string  #必选 ，容器的镜像名称
    imagePullPolicy: [ Always|Never|IfNotPresent ]  #获取镜像的策略
    command: [string]   #容器的启动命令列表 ，如不指定，使用打包时使用的启动命令
    args: [string]      #容器的启动命令参数列表
    workingDir: string  #容器的工作目录
    volumeMounts:       #挂载到容器内部的存储卷配置
    - name: string      #引用pod定义的共享存储卷的名称 ，需用 volumes[]部分定义的的卷名
      mountPath: string #存储卷在容器内mount的绝对路径 ，应少于 512 字符
      readOnly: boolean #是否为只读模式
    ports: #需要暴露的端口库号列表
    - name: string        #端口的名称
      containerPort: int  #容器需要监听的端口号
      hostPort: int       #容器所在主机需要监听的端口号 ，默认与 Container 相同
      protocol: string    #端口协议 ，支持 TCP 和 UDP，默认 TCP
    env:   #容器运行前需设置的环境变量列表
    - name: string  #环境变量名称
      value: string #环境变量的值
    resources: #资源限制和请求的设置
      limits:  #资源限制的设置
        cpu: string     #Cpu的限制 ，单位为 core 数，将用于 docker run --cpu-shares 参数
        memory: string  #内存限制 ，单位可以为 Mib/Gib，将用于 docker run --memory 参数
      requests: #资源请求的设置
        cpu: string    #Cpu请求 ，容器启动的初始可用数量
        memory: string #内存请求 ,容器启动的初始可用数量
    lifecycle: #生命周期钩子
        postStart: #容器启动后立即执行此钩子 ,如果执行失败,会根据重启策略进行重启
        preStop: #容器终止前执行此钩子 ,无论结果如何,容器都会终止
    livenessProbe:  #对Pod内各容器健康检查的设置 ，当探测无响应几次后将自动重启该容器
      exec:       　 #对Pod容器内检查方式设置为exec方式
        command: [string]  #exec方式需要制定的命令或脚本
      httpGet:       #对Pod内个容器健康检查方法设置为HttpGet ，需要制定 Path、port
        path: string
        port: number
        host: string
        scheme: string
        HttpHeaders:
        - name: string
          value: string
      tcpSocket:     #对Pod内个容器健康检查方式设置为tcpSocket方式
         port: number
       initialDelaySeconds: 0       #容器启动完成后首次探测的时间 ，单位为秒
       timeoutSeconds: 0    　　    #对容器健康检查探测等待响应的超时时间 ，单位秒，默认 1 秒
       periodSeconds: 0     　　    #对容器监控检查的定期探测时间设置 ，单位秒，默认 10 秒一次
       successThreshold: 0
       failureThreshold: 0
       securityContext:
         privileged: false
  restartPolicy: [Always | Never | OnFailure]  #Pod的重启策略
  nodeName: <string> #设置NodeName表示将该Pod调度到指定到名称的node节点上
  nodeSelector: obeject #设置NodeSelector表示将该Pod调度到包含这个label的node上
  imagePullSecrets: #Pull镜像时使用的secret名称 ，以 key：secretkey 格式指定
  - name: string
  hostNetwork: false   #是否使用主机网络模式 ，默认为 false，如果设置为 true，表示使用宿主机网络
  volumes:   #在该pod上定义共享存储卷列表
  - name: string    #共享存储卷名称 （volumes 类型有很多种）
    emptyDir: {}       #类型为emtyDir的存储卷 ，与 Pod 同生命周期的一个临时目录。为空值
    hostPath: string   #类型为hostPath的存储卷 ，表示挂载 Pod 所在宿主机的目录
      path: string      　　        #Pod所在宿主机的目录 ，将被用于同期中 mount 的目录
    secret:       　　　#类型为secret的存储卷 ，挂载集群与定义的 secret 对象到容器内部
      scretname: string
      items:
      - key: string
        path: string
    configMap:         #类型为configMap的存储卷 ，挂载预定义的 configMap 对象到容器内部
      name: string
      items:
      - key: string
        path: string

1.5 Pod 基本命令

# 查看 default 名称空间的 Pod
kubectl get pod
# 查看所有命名空间的 Pod
kubectl get pod -A
# 查看指定命名空间的 Pod
kubectl get pod -n dev
# 查看指定 pod（特定格式 wide、json、yaml）
kubectl get pod -A -owide
# 描述
kubectl describe pod Pod 名字
# 查看 Pod 的运行日志
kubectl logs Pod 名字
 
# 创建 pod - 以指定镜像创建 pod
kubectl run nginx --image=nginx:latest --port=80
# 进入容器内部（pod 内单个容器）
kubectl exec -it myapp -- /bin/bash
# 进入容器内部（pod 内多个容器）
kubectl exec -it myapp -c nginx -- /bin/bash
kubectl exec -it myapp --container nginx -- /bin/bash
 
# 删除 pod
kubectl delete pod Pod 名字
# 删除 deployment 才完全删除 pod（如果 pod 是由 deployment 管理的）
kubectl get deployment
kubectl delete deploy nginx
 
# 每个 Pod - k8s 都会分配一个 IP
kubectl get pod -owide
# 使用 Pod 的 IP+pod 里面运行容器的端口
curl 192.168.169.136
 
# 集群中的任意一个机器以及任意的应用都能通过 Pod 分配的 IP 来访问这个 Pod
 
# 配置文件
kubectl create -f pod-nginx.yaml
kubectl delete -f pod-nginx.yaml

apiVersion: v1
kind: Pod
metadata:
  name: nginx
  namespace: dev
spec:
  containers:
    - image: nginx:latest
      name: pod
      ports:
        - name: nginx-port
          containerPort: 80
          protocol: TCP

2 Pod 容器配置

研究 pod.spec.containers 属性，这也是 pod 配置中最为关键的一项配置。

[ root@k8s-master01 ~]# kubectl explain pod.spec.containers
KIND:     Pod
VERSION:  v1
RESOURCE: containers <[]Object>   # 数组，代表可以有多个容器
FIELDS:
   name  <string>     # 容器名称
   image <string>     # 容器需要的镜像地址
   imagePullPolicy  <string> # 镜像拉取策略
   command  <[]string> # 容器的启动命令列表，如不指定，使用打包时使用的启动命令
   args     <[]string> # 容器的启动命令需要的参数列表
   env      <[]Object> # 容器环境变量的配置
   ports    <[]Object>     # 容器需要暴露的端口号列表
   resources <Object>      # 资源限制和资源请求的设置

2.1 Pod 容器基本配置

apiVersion: v1
kind: Pod
metadata:
  name: pod-base
  namespace: dev
  labels:
    user: heima
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1 # 轻量级 Web 容器

2.2 配置容器的镜像拉取策略

在配置 Pod 中容器的时候，可以配置容器镜像的拉取策略 imagePullPolicy。

Kubernetes 支持配置三种镜像拉取策略：

Always：总是从远程仓库拉取镜像（一直远程下载）
IfNotPresent：本地有则使用本地镜像，本地没有则从远程仓库拉取镜像（本地有就本地本地没远程下载）
Never：只使用本地镜像，从不去远程仓库拉取，本地没有就报错（一直使用本地）

镜像拉取策略的默认值：

若 tag 为具体的版本好，则策略默认为 IfNotPresent
若 tag 为 latest，则策略默认为 Always

apiVersion: v1
kind: Pod
metadata:
  name: pod-imagepullpolicy
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
      imagePullPolicy: Always # 用于设置镜像拉取策略

2.3 配置容器的启动命令

有些容器需要一些启动命令 command，因此需要在 yaml 文件中进行配置。

apiVersion: v1
kind: Pod
metadata:
  name: pod-command
  namespace: dev
spec:
  containers:
    - name: busybox
      image: busybox:1.30
      command:
        [
          "/bin/sh",
          "-c",
          "touch /tmp/hello.txt;while true;do /bin/echo $(date +%T) >> /tmp/hello.txt; sleep 3; done;",
        ]

command 可以完成启动命令 + 传递参数，为什么还需要 args 选项：

这其实跟 Docker 有点关系，kubernetes 中的 command、args 两项其实是实现覆盖 Dockerfile 中 ENTRYPOINT 的功能。

command 和 args 的效果：

如果 command 和 args 均没有写，那么用 Dockerfile 的配置。
如果 command 写了，但 args 没有写，那么 Dockerfile 默认的配置会被忽略，执行输入的 command
如果 command 没写，但 args 写了，那么 Dockerfile 中配置的 ENTRYPOINT 的命令会被执行，使用当前 args 的参数
如果 command 和 args 都写了，那么 Dockerfile 的配置被忽略，执行 command 并追加上 args 参数

2.4 配置容器的环境变量

apiVersion: v1
kind: Pod
metadata:
  name: pod-env
  namespace: dev
spec:
  containers:
    - name: busybox
      image: busybox:1.30
      command:
        ["/bin/sh", "-c", "while true;do /bin/echo $(date +%T);sleep 60; done;"]
      env: # 设置环境变量列表
        - name: "username"
          value: "admin"
        - name: "password"
          value: "123456"

# 创建 Pod
kubectl create -f pod-env.yaml
# 进入容器
## -n 指定 namespace, -c 指定 pod 内容器名
kubectl exec pod-env -n dev -c busybox -it /bin/sh
# 输出环境变量
echo $username
echo $password

不过不推荐该方法，更推荐将其单独存储在配置文件中。

2.5 配置容器的端口

首先看下 ports 支持的子选项：

[ root@k8s-master01 ~]# kubectl explain pod.spec.containers.ports
KIND:     Pod
VERSION:  v1
RESOURCE: ports <[]Object>
FIELDS:
   name         <string>  # 端口名称，如果指定，必须保证 name 在 pod 中是唯一的
   containerPort<integer> # 容器要监听的端口(0<x<65536)
   hostPort     <integer> # 容器要在主机上公开的端口，如果设置，主机上只能运行容器的一个副本(一般省略)
   hostIP       <string>  # 要将外部端口绑定到的主机 IP(一般省略)
   protocol     <string>  # 端口协议。必须是 UDP、TCP 或 SCTP。默认为“TCP”。

apiVersion: v1
kind: Pod
metadata:
  name: pod-ports
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
      ports: # 设置容器暴露的端口列表
        - name: nginx-port
          containerPort: 80
          protocol: TCP

访问容器中的程序需要使用的是 Pod-IP:containerPort，pod-IP 通过 kubectl get pod 查看。

2.6 配置容器的资源额度

K8S 可以对容器的 cpu + memory 进行上限 + 下限的额度配置，

通过 resources 选项实现资源的配置，他有两个子选项：

limits：容器的最大占用资源，当容器占用资源超过 limits 时会被终止，并进行重启
requests ：容器需要的最小资源，如果环境资源不够，容器将无法启动

cpu 和 memory 的单位设置：

cpu：core 数，可以为整数或小数
memory：内存大小，可以使用 Gi、Mi、G、M 等形式

apiVersion: v1
kind: Pod
metadata:
  name: pod-resources
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
      resources: # 资源配额
        limits: # 限制资源（上限）
          cpu: "2" # CPU 限制，单位是 core 数
          memory: "10Gi" # 内存限制
        requests: # 请求资源（下限）
          cpu: "1" # CPU 限制，单位是 core 数
          memory: "10Mi" # 内存限制

3 Pod 生命周期

pod 对象从创建至终的这段时间范围称为 pod 的生命周期，它主要包含下面的过程：

pod 创建过程
运行初始化容器（init container）过程
运行主容器（main container）
- 容器启动后钩子（post start）、容器终止前钩子（pre stop）
- 容器的存活性探测（liveness probe）、就绪性探测（readiness probe）
pod 终止过程

Pod 的 status 字段是一个 PodStatus 对象，PodStatus 中有一个 phase 字段。

Pod 的相位（phase）是 Pod 在其生命周期中的简单宏观概述。该字段并不是对容器或 Pod 的综合汇总，也不是为了做为综合状态机。

在整个生命周期中，Pod 会出现 5 种状态（相位），分别如下：

挂起（Pending）：apiserver 已经创建了 pod 资源对象，但它尚未被调度完成或者仍处于下载镜像的过程中
运行中（Running）：pod 已经被调度至某节点，并且所有容器都已经被 kubelet 创建完成
成功（Succeeded）：pod 中的所有容器都已经成功终止并且不会被重启
失败（Failed）：所有容器都已经终止，但至少有一个容器终止失败，即容器返回了非 0 值的退出状态
未知（Unknown）：apiserver 无法正常获取到 pod 对象的状态信息，通常由网络通信失败所导致

3.1 Pod 状态示例

Pod 中只有一个容器并且正在运行。容器成功退出。
- 记录完成事件。
- 如果 restartPolicy 为：
  - Always：重启容器；Pod phase 仍为 Running。
  - OnFailure：Pod phase 变成 Succeeded。
  - Never：Pod phase 变成 Succeeded。
Pod 中只有一个容器并且正在运行。容器退出失败。
- 记录失败事件。
- 如果 restartPolicy 为：
  - Always：重启容器；Pod phase 仍为 Running。
  - OnFailure：重启容器；Pod phase 仍为 Running。
  - Never：Pod phase 变成 Failed。
Pod 中有两个容器并且正在运行。容器 1 退出失败。
- 记录失败事件。
- 如果 restartPolicy 为：
  - Always：重启容器；Pod phase 仍为 Running。
  - OnFailure：重启容器；Pod phase 仍为 Running。
  - Never：不重启容器；Pod phase 仍为 Running。
- 如果有容器 1 没有处于运行状态，并且容器 2 退出：
  - 记录失败事件。
  - 如果 restartPolicy 为：
    - Always：重启容器；Pod phase 仍为 Running。
    - OnFailure：重启容器；Pod phase 仍为 Running。
    - Never：Pod phase 变成 Failed。
Pod 中只有一个容器并处于运行状态。容器运行时内存超出限制：
- 容器以失败状态终止。
- 记录 OOM 事件。
- 如果 restartPolicy 为：
  - Always：重启容器；Pod phase 仍为 Running。
  - OnFailure：重启容器；Pod phase 仍为 Running。
  - Never: 记录失败事件；Pod phase 仍为 Failed。
Pod 正在运行，磁盘故障：
- 杀掉所有容器。
- 记录适当事件。
- Pod phase 变成 Failed。
- 如果使用控制器来运行，Pod 将在别处重建。
Pod 正在运行，其节点被分段。
- 节点控制器等待直到超时。
- 节点控制器将 Pod phase 设置为 Failed。
- 如果是用控制器来运行，Pod 将在别处重建。

3.2 Pod 生命周期之创建和终止

Pod 的创建过程

用户通过 kubectl 或其他 api 客户端提交需要创建的 pod 信息给 apiServer
apiServer 开始生成 pod 对象的信息，并将信息存入 etcd，然后返回确认信息至客户端
apiServer 开始反映 etcd 中的 pod 对象的变化，其它组件使用 watch 机制来跟踪检查 apiServer 上的变动
scheduler 发现有新的 pod 对象要创建，开始为 Pod 分配主机并将结果信息更新至 apiServer
node 节点上的 kubelet 发现有 pod 调度过来，尝试调用 docker 启动容器，并将结果回送至 apiServer
apiServer 将接收到的 pod 状态信息存入 etcd 中

Pod 的终止过程

用户向 apiServer 发送删除 pod 对象的命令
apiServcer 中的 pod 对象信息会随着时间的推移而更新，在宽限期内（默认 30s），pod 被视为 dead
将 pod 标记为 terminating 状态
kubelet 在监控到 pod 对象转为 terminating 状态的同时启动 pod 关闭过程
端点控制器监控到 pod 对象的关闭行为时将其从所有匹配到此端点的 service 资源的端点列表中移除
如果当前 pod 对象定义了 preStop 钩子处理器，则在其标记为 terminating 后即会以同步的方式启动执行
pod 对象中的容器进程收到停止信号
宽限期结束后，若 pod 中还存在仍在运行的进程，那么 pod 对象会收到立即终止的信号
kubelet 请求 apiServer 将此 pod 资源的宽限期设置为 0 从而完成删除操作，此时 pod 对于用户已不可见

3.3 Pod 生命周期之初始化容器

初始化容器有很多的应用场景，例如：

提供主容器镜像中不具备的工具程序或自定义代码。
初始化容器要（必须）先于应用容器串行启动并运行完成，因此可用于延后应用容器的启动直至其依赖的条件得到满足。

与普通容器的不同之处：

Init 容器支持应用容器的全部字段和特性，包括资源限制、数据卷和安全设置。然而，Init 容器对资源请求和限制的处理稍有不同，在下面资源处有说明。而且 Init 容器不支持 Readiness Probe，因为它们必须在 Pod 就绪之前运行完成。
按顺序依次执行，且前面执行成功才执行后者。当所有的 Init 容器运行完成后，Kubernetes 才初始化 Pod 和运行应用容器。

具体行为：

在 Pod 启动过程中，Init 容器会按顺序在网络和数据卷初始化之后启动。每个容器必须在下一个容器启动之前成功退出。如果由于运行时或失败退出，将导致容器启动失败，它会根据 Pod 的 restartPolicy 指定的策略进行重试。然而，如果 Pod 的 restartPolicy 设置为 Always，Init 容器失败时会使用 RestartPolicy 策略。
在所有的 Init 容器没有成功之前，Pod 将不会变成 Ready 状态。Init 容器的端口将不会在 Service 中进行聚集。正在初始化中的 Pod 处于 Pending 状态，但应该会将 Initializing 状态设置为 true。
如果 Pod 重启，所有 Init 容器必须重新执行。
对 Init 容器 spec 的修改被限制在容器 image 字段，修改其他字段都不会生效。更改 Init 容器的 image 字段，等价于重启该 Pod。因为 Init 容器可能会被重启、重试或者重新执行，所以 Init 容器的代码应该是幂等的。特别地当写到 EmptyDirs 文件中的代码，应该对输出文件可能已经存在做好准备。
Init 容器具有应用容器的所有字段。除了 readinessProbe，因为 Init 容器无法定义不同于完成（completion）的就绪（readiness）之外的其他状态。这会在验证过程中强制执行。
在 Pod 上使用 activeDeadlineSeconds，在容器上使用 livenessProbe，这样能够避免 Init 容器一直失败。这就为 Init 容器活跃设置了一个期限。

初始化容器的资源：

在所有 Init 容器上定义的，任何特殊资源请求或限制的最大值，是 有效初始请求/限制
Pod 对资源的有效请求/限制要高于：
- 所有应用容器对某个资源的请求/限制之和
- 对某个资源的有效初始请求/限制
基于有效请求/限制完成调度，这意味着 Init 容器能够为初始化预留资源，这些资源在 Pod 生命周期过程中并没有被使用。
Pod 的 有效 QoS 层，是 Init 容器和应用容器相同的 QoS 层。

Pod 重启，会导致 Init 容器重新执行，主要有如下几个原因：

用户更新 PodSpec 导致 Init 容器镜像发生改变。应用容器镜像的变更只会重启应用容器。
Pod 基础设施容器被重启。这不多见，但某些具有 root 权限可访问 Node 的人可能会这样做。
当 restartPolicy 设置为 Always，Pod 中所有容器会终止，强制重启，由于垃圾收集导致 Init 容器完整的记录丢失。

初始化容器编写示例：

假设要以主容器来运行 nginx，但是要求在运行 nginx 之前先要能够连接上 mysql 和 redis 所在服务器。为了简化测试，事先规定好 mysql (192.168.90.14) 和 redis (192.168.90.15) 服务器的地址。

apiVersion: v1
kind: Pod
metadata:
  name: pod-initcontainer
  namespace: dev
spec:
  containers:
    - name: main-container
      image: nginx:1.17.1
      ports:
        - name: nginx-port
          containerPort: 80
  initContainers:
    - name: test-mysql
      image: busybox:1.30
      command:
        [
          "sh",
          "-c",
          "until ping 192.168.90.14 -c 1 ; do echo waiting for mysql...; sleep 2; done;",
        ]
    - name: test-redis
      image: busybox:1.30
      command:
        [
          "sh",
          "-c",
          "until ping 192.168.90.15 -c 1 ; do echo waiting for reids...; sleep 2; done;",
        ]

Init 容器的状态在 status.initContainerStatuses 字段中以容器状态数组的格式返回（类似 status.containerStatuses 字段）。

# 创建 pod
[ root@k8s-master01 ~]# kubectl create -f pod-initcontainer.yaml
pod/pod-initcontainer created
 
# 查看 pod 状态
# 发现 pod 卡在启动第一个初始化容器过程中（持续了 48s），后面的容器不会运行
[ root@k8s-master01 ~]# kubectl describe pod  pod-initcontainer -n dev
........
Events:
  Type    Reason     Age   From               Message
  ----    ------     ----  ----               -------
  Normal  Scheduled  49s   default-scheduler  Successfully assigned dev/pod-initcontainer to node1
  Normal  Pulled     48s   kubelet, node1     Container image "busybox:1.30" already present on machine
  Normal  Created    48s   kubelet, node1     Created container test-mysql
  Normal  Started    48s   kubelet, node1     Started container test-mysql
 
# 动态查看 pod
[ root@k8s-master01 ~]# kubectl get pods pod-initcontainer -n dev -w
NAME                             READY   STATUS     RESTARTS   AGE
pod-initcontainer                0/1     Init:0/2   0          15s
pod-initcontainer                0/1     Init:1/2   0          52s
pod-initcontainer                0/1     Init:1/2   0          53s
pod-initcontainer                0/1     PodInitializing   0          89s
pod-initcontainer                1/1     Running           0          90s
 
# 接下来新开一个 shell，为当前服务器新增两个 IP，观察 pod 的变化
[ root@k8s-master01 ~]# ifconfig ens33:1 192.168.90.14 netmask 255.255.255.0 up
[ root@k8s-master01 ~]# ifconfig ens33:2 192.168.90.15 netmask 255.255.255.0 up

3.4 Pod 生命周期之钩子函数

钩子函数能够感知自身生命周期中的事件，并在相应的时刻到来时运行用户指定的程序代码。

kubernetes 在主容器的启动之后和停止之前提供了两个钩子函数：

post start：容器创建之后执行，如果失败了会重启容器
pre stop ：容器终止之前执行，执行完成之后容器将成功终止，在其完成之前会阻塞删除容器的操作

钩子处理器支持使用下面三种方式定义动作：

Exec 命令：在容器内执行一次命令
TCPSocket：在当前容器尝试访问指定的 socket
HTTPGet：在当前容器中向某 url 发起 http 请求

Exec 命令 示例：

  ……
    lifecycle:
      postStart:
        exec:
          command:
          - cat
          - /tmp/healthy
  ……

TCPSocket 示例：

  ……
    lifecycle:
      postStart:
        tcpSocket:
          port: 8080
  ……

HTTPGet 示例：

  ……
    lifecycle:
      postStart:
        httpGet:
          path: / #URI地址
          port: 80 #端口号
          host: 192.168.5.3 #主机地址
          scheme: HTTP #支持的协议 ，http 或者 https
  ……

以 exec 方式为例，演示下钩子函数的使用

apiVersion: v1
kind: Pod
metadata:
  name: pod-hook-exec
  namespace: dev
spec:
  containers:
    - name: main-container
      image: nginx:1.17.1
      ports:
        - name: nginx-port
          containerPort: 80
      lifecycle:
        postStart:
          exec: # 在容器启动的时候执行一个命令，修改掉 nginx 的默认首页内容
            command:
              [
                "/bin/sh",
                "-c",
                "echo postStart... > /usr/share/nginx/html/index.html",
              ]
        preStop:
          exec: # 在容器停止之前停止 nginx 服务
            command: ["/usr/sbin/nginx", "-s", "quit"]

# 创建 pod
kubectl create -f pod-hook-exec.yaml
# 查看 pod （获得 IP 地址）
kubectl get pods  pod-hook-exec -n dev -o wide
# 访问 nginx 首页
curl 10.244.2.48   # postStart...

3.5 Pod 生命周期之容器探测

容器探测用于检测容器中的应用实例是否正常工作，是保障业务可用性的一种传统机制。如果经过探测，实例的状态不符合预期，那么 kubernetes 就会把该问题实例” 摘除 “，不承担业务流量。

kubernetes 提供了两种探针来实现容器探测：

liveness probes：存活性探针，检测当前是否处于正常运行状态，如果不是，k8s 会重启容器。
readiness probes：就绪性探针，检测当前是否可以接收请求，如果不能，k8s 不会转发流量给容器。

上面两种探针目前均支持三种探测方式（Yaml 编写方法同上）：

Exec 命令：在容器内执行一次命令，如果命令执行的退出码为 0，则认为程序正常，否则不正常
TCPSocket：将会尝试访问一个用户容器的端口，如果能够建立这条连接，则认为程序正常，否则不正常
HTTPGet：调用容器内 Web 应用的 URL，如果返回的状态码在 200 和 399 之间，则认为程序正常，否则不正常

每次探测都将获得以下三种结果之一：

成功：容器通过了诊断。
失败：容器未通过诊断。
未知：诊断失败，因此不会采取任何行动。

Exec 命令示例（LivenessProbe）

apiVersion: v1
kind: Pod
metadata:
  name: pod-liveness-exec
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
      ports:
        - name: nginx-port
          containerPort: 80
      livenessProbe:
        exec:
          command: ["/bin/cat", "/tmp/hello.txt"] # 执行一个查看文件的命令

基于 Yaml 创建好 Pod 后，查看 Pod Events，以下发现：

LivenessProbe 在执行指令时，由于没有 /tmp/hello.txt 文件，所以指令执行出错，一直重启。
容器启动之后，就会开始进行 LivenessProbe。
此时 kubectl get pod 可以看到 RESTARTS 数值增加。

[ root@k8s-master01 ~]# kubectl describe pods pod-liveness-exec -n dev
......
  Normal   Created    20s (x2 over 50s)  kubelet, node1     Created container nginx
  Normal   Started    20s (x2 over 50s)  kubelet, node1     Started container nginx
  Normal   Killing    20s                kubelet, node1     Container nginx failed liveness probe, will be restarted
  Warning  Unhealthy  0s (x5 over 40s)   kubelet, node1     Liveness probe failed: cat: can't open '/tmp/hello11.txt': No such file or directory

TCPSocket 示例（LivenessProbe）

apiVersion: v1
kind: Pod
metadata:
  name: pod-liveness-tcpsocket
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
      ports:
        - name: nginx-port
          containerPort: 80
      livenessProbe:
        tcpSocket:
          port: 8080 # 尝试访问 8080 端口

HTTPGet 示例（LivenessProbe）

apiVersion: v1
kind: Pod
metadata:
  name: pod-liveness-httpget
  namespace: dev
spec:
  containers:
  - name: liveness
    image: k8s.gcr.io/liveness
    ports:
    - name: nginx-port
      containerPort: 80
    livenessProbe:
      httpGet:  # 其实就是访问 http://127.0.0.1:80/hello
        port: 80 #端口号
        path: /hello #URI地址
        # when "host" is not defined, "PodIP" will be used
        # host: my-host
        # when "scheme" is not defined, "HTTP" scheme will be used. Only "HTTP" and "HTTPS" are allowed
        # scheme: HTTPS
        path: /healthz
        port: 8080
        httpHeaders:
        - name: X-Custom-Header
          value: Awesome
      initialDelaySeconds: 15
      timeoutSeconds: 1
    name: liveness

livenessProbe 的子属性，会发现除了这三种方式，还有一些其他的配置，在这里一并解释下：

[ root@k8s-master01 ~]# kubectl explain pod.spec.containers.livenessProbe
FIELDS:
   exec <Object>
   tcpSocket    <Object>
   httpGet      <Object>
   initialDelaySeconds  <integer>  # 容器启动后等待多少秒执行第一次探测
   timeoutSeconds       <integer>  # 探测超时时间。默认 1 秒，最小 1 秒
   periodSeconds        <integer>  # 执行探测的频率。默认是 10 秒，最小 1 秒
   failureThreshold     <integer>  # 连续探测失败多少次才被认定为失败。默认是 3。最小值是 1
   successThreshold     <integer>  # 连续探测成功多少次才被认定为成功。默认是 1

3.6 Pod 生命周期之重启策略

K8S 中 pod 有 3 种重启策略，分别如下：

Always：容器失效时，自动重启该容器，这也是默认值。
OnFailure：容器终止运行且退出码不为 0 时重启
Never：不论状态为何，都不重启该容器

重启策略适用于 pod 对象中的所有容器，首次需要重启的容器，将在其需要时立即进行重启，随后再次需要重启的操作将由 kubelet 延迟一段时间后进行，且反复的重启操作的延迟时长以此为 10s、20s、40s、80s、160s 和 300s，300s 是最大延迟时长，并在成功执行十分钟后重置。

apiVersion: v1
kind: Pod
metadata:
  name: pod-restartpolicy
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
      ports:
        - name: nginx-port
          containerPort: 80
      livenessProbe:
        httpGet:
          scheme: HTTP
          port: 80
          path: /hello
  restartPolicy: Never # 设置重启策略为 Never

4 Pod 调度

Pod 在哪个节点上运行，是由 Scheduler 组件采用相应的算法计算出来的，无法人为控制。如果想控制 Pod 到达某些节点，需要了解 kubernetes 对 Pod 的调度方式：

自动调度：运行在哪个节点上完全由 Scheduler 经过一系列的算法计算得出
定向调度：NodeName、NodeSelector
亲和性调度：NodeAffinity、PodAffinity、PodAntiAffinity
污点（容忍）调度：Taints、Toleration

4.1 Pod 调度之定向调度

NodeName

NodeName 用于强制约束将 Pod 调度到指定的 Name 的 Node 节点上。这种方式，其实是直接跳过 Scheduler 的调度逻辑，直接将 Pod 调度到指定名称的节点。

apiVersion: v1
kind: Pod
metadata:
  name: pod-nodename
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  nodeName: node1 # 指定调度到 node1 节点上

若存在 node1 节点，则在 node1 节点上创建与运行；若没有，则无法运行。
Kubernetes @2 Pod 详解-2.png

NodeSelector

NodeSelector 用于将 pod 调度到添加了指定标签的 node 节点上。它是通过 kubernetes 的 label-selector 机制实现的，也就是说，在 pod 创建之前，会由 scheduler 使用 MatchNodeSelector 调度策略进行 label 匹配，找出目标 node，然后将 pod 调度到目标节点，该匹配规则是强制约束。

# 为 node 打标签
kubectl label nodes node1 nodeenv=pro
kubectl label nodes node2 nodeenv=test

apiVersion: v1
kind: Pod
metadata:
  name: pod-nodeselector
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  nodeSelector:
    nodeenv: pro # 指定调度到具有 nodeenv=pro 标签的节点上

4.2 Pod 调度之亲和性调度

对于定向调度，若没有符合条件的节点，那么就无法调度 Pod。为此，引入亲和性调度。

亲和性调度（Affinity）在 NodeSelector 的基础之上的进行了扩展，可以通过配置的形式，实现优先选择满足条件的 Node 进行调度，如果没有，也可以调度到不满足条件的节点上，使调度更加灵活。

Affinity 主要分为三类：

nodeAffinity(node 亲和性）: 以 node 为目标，解决 pod 可以调度到哪些 node 的问题
podAffinity(pod 亲和性) : 以 pod 为目标，解决 pod 可以和哪些已存在的 pod 部署在同一个拓扑域中的问题
podAntiAffinity(pod 反亲和性) : 以 pod 为目标，解决 pod 不能和哪些已存在 pod 部署在同一个拓扑域中的问题

关于亲和性(反亲和性)使用场景的说明：

亲和性：如果两个应用频繁交互，那就有必要利用亲和性让两个应用的尽可能的靠近，这样可以减少因网络通信而带来的性能损耗。
反亲和性：当应用的采用多副本部署时，有必要采用反亲和性让各个应用实例打散分布在各个 node 上，这样可以提高服务的高可用性。

NodeAffinity

首先来看一下 NodeAffinity 的可配置项：

pod.spec.affinity.nodeAffinity
  requiredDuringSchedulingIgnoredDuringExecution  # Node 节点必须满足指定的所有规则才可以，相当于硬限制
    nodeSelectorTerms # 节点选择列表
      matchFields       # 按节点字段列出的节点选择器要求列表
      matchExpressions  # 按节点标签列出的节点选择器要求列表(推荐)
        key     # 键
        values  # 值
        operat  # or 关系符支持 Exists, DoesNotExist, In, NotIn, Gt, Lt
  preferredDuringSchedulingIgnoredDuringExecution # 优先调度到满足指定的规则的 Node，相当于软限制 (倾向)
    preference  # 一个节点选择器项，与相应的权重相关联
      matchFields       # 按节点字段列出的节点选择器要求列表
      matchExpressions  # 按节点标签列出的节点选择器要求列表(推荐)
        key      # 键
        values   # 值
        operator # 关系符支持 In, NotIn, Exists, DoesNotExist, Gt, Lt
	weight # 倾向权重，在范围 1-100。

关系符的使用说明

- matchExpressions:
    - key: nodeenv # 匹配存在标签 key=nodeenv 的节点
      operator: Exists
    - key: nodeenv # 匹配存在标签 key=nodeenv，value="xxx"或"yyy"的节点
      operator: In
      values: ["xxx", "yyy"]
    - key: nodeenv # 匹配存在标签 key=nodeenv, value 大于 "xxx"的节点
      operator: Gt
      values: "xxx"

接下来首先演示一下 requiredDuringSchedulingIgnoredDuringExecution ,

apiVersion: v1
kind: Pod
metadata:
  name: pod-nodeaffinity-required
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  affinity: #亲和性设置
    nodeAffinity: #设置node亲和性
      requiredDuringSchedulingIgnoredDuringExecution: # 硬限制
        nodeSelectorTerms:
          - matchExpressions: # 匹配 env 的值在["xxx","yyy"]中的标签
              - key: nodeenv
                operator: In
                values: ["xxx", "yyy"]

# 创建与查看 pod
kubectl create -f pod-nodeaffinity-required.yaml
kubectl get pods pod-nodeaffinity-required -n dev -o wide
......
NAME                        READY   STATUS    RESTARTS   AGE   IP       NODE    ......
pod-nodeaffinity-required   0/1     Pending   0          16s   <none>   <none>  ......
 
# 查看 Pod 的详情
kubectl describe pod pod-nodeaffinity-required -n dev
......
  Warning  FailedScheduling  <unknown>  default-scheduler  0/3 nodes are available: 3 node(s) didn't match node selector.
  Warning  FailedScheduling  <unknown>  default-scheduler  0/3 nodes are available: 3 node(s) didn't match node selector.
 
# 删除 pod、修改 yaml、重启、重新查看 pod
kubectl delete -f pod-nodeaffinity-required.yaml
vim pod-nodeaffinity-required.yaml
kubectl create -f pod-nodeaffinity-required.yaml
kubectl get pods pod-nodeaffinity-required -n dev -o wide
......
NAME                        READY   STATUS    RESTARTS   AGE   IP            NODE  ......
pod-nodeaffinity-required   1/1     Running   0          11s   10.244.1.89   node1 ......

接下来再演示一下 requiredDuringSchedulingIgnoredDuringExecution ,

apiVersion: v1
kind: Pod
metadata:
  name: pod-nodeaffinity-preferred
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  affinity: #亲和性设置
    nodeAffinity: #设置node亲和性
      preferredDuringSchedulingIgnoredDuringExecution: # 软限制
        - weight: 1
          preference:
            matchExpressions: # 匹配 env 的值在["xxx","yyy"]中的标签(当前环境没有)
              - key: nodeenv
                operator: In
                values: ["xxx", "yyy"]

# 创建与查看 pod
kubectl create -f pod-nodeaffinity-preferred.yaml
kubectl get pod pod-nodeaffinity-preferred -n dev
......
NAME                         READY   STATUS    RESTARTS   AGE
pod-nodeaffinity-preferred   1/1     Running   0          40s

NodeAffinity 规则设置的注意事项：

如果同时定义了 nodeSelector 和 NodeAffinity，那么必须两个条件都得到满足，Pod 才能运行在指定的 Node 上
如果 NodeAffinity 指定了多个 nodeSelectorTerms，那么只需要其中一个能够匹配成功即可
如果一个 nodeSelectorTerms 中有多个 matchExpressions ，则一个节点必须满足所有的才能匹配成功
如果一个 pod 所在的 Node 在 Pod 运行期间其标签发生了改变，不再符合该 Pod 的节点亲和性需求，则系统将忽略此变化

PodAffinity

PodAffinity 主要实现以运行的 Pod 为参照，实现让新创建的 Pod 跟参照 pod 在一个区域的功能。

首先来看一下 PodAffinity 的可配置项：

pod.spec.affinity.podAffinity
  requiredDuringSchedulingIgnoredDuringExecution # 硬限制
    namespaces      # 指定参照 pod 的 namespace
    topologyKey     # 指定调度作用域
    labelSelector   # 标签选择器
      matchExpressions # 按节点标签列出的节点选择器要求列表(推荐)
        key      # 键
        values   # 值
        operator # 关系符支持 In, NotIn, Exists, DoesNotExist.
      matchLabels      # 指多个 matchExpressions 映射的内容
  preferredDuringSchedulingIgnoredDuringExecution # 软限制
    podAffinityTerm # 选项
	  namespaces      # 指定参照 pod 的 namespace
      topologyKey     # 指定调度作用域
      labelSelector   # 标签选择器
        matchExpressions
          key      # 键
          values   # 值
          operator # 关系符支持 In, NotIn, Exists, DoesNotExist.
        matchLabels   # 指多个 matchExpressions 映射的内容
    weight # 倾向权重，在范围 1-100

topologyKey 用于指定调度时作用域,例如:

如果指定为 kubernetes.io/hostname ，那就是以 Node 节点为区分范围
如果指定为 beta.kubernetes.io/os ，则以 Node 节点的操作系统类型来区分

接下来，演示下 requiredDuringSchedulingIgnoredDuringExecution,

创建基础 pod

apiVersion: v1
kind: Pod
metadata:
  name: pod-podaffinity-target
  namespace: dev
  labels:
    podenv: pro #设置标签
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  nodeName: node1 # 将目标 pod 名确指定到 node1 上

# 启动目标 pod
[ root@k8s-master01 ~]# kubectl create -f pod-podaffinity-target.yaml
pod/pod-podaffinity-target created
 
# 查看 pod 状况
[ root@k8s-master01 ~]# kubectl get pods  pod-podaffinity-target -n dev
NAME                     READY   STATUS    RESTARTS   AGE
pod-podaffinity-target   1/1     Running   0          4s

创建新 pod

apiVersion: v1
kind: Pod
metadata:
  name: pod-podaffinity-required
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  affinity: # 亲和性设置
    podAffinity: # 设置 pod 亲和性
      requiredDuringSchedulingIgnoredDuringExecution: # 硬限制
        - labelSelector:
            matchExpressions: # 匹配 env 的值在["xxx","yyy"]中的标签
              - key: podenv
                operator: In
                values: ["xxx", "yyy"]
          topologyKey: kubernetes.io/hostname

新 Pod 要求，含有 key 为 podenv 的标签，并且 value 属于 xxx 或 yyy 中。显然没有，所以 pod 状态为 pending。将 value 改为 [“pro”, “yyy”] 后，pod 就可以调度了。

PodAntiAffinity

PodAntiAffinity 主要实现以运行的 Pod 为参照，让新创建的 Pod 跟参照 pod 不在一个区域中的功能。配置方式和选项相同。

1）继续使用上个案例中目标 pod

[ root@k8s-master01 ~]# kubectl get pods -n dev -o wide --show-labels
NAME                     READY   STATUS    RESTARTS   AGE     IP            NODE    LABELS
pod-podaffinity-required 1/1     Running   0          3m29s   10.244.1.38   node1   <none>
pod-podaffinity-target   1/1     Running   0          9m25s   10.244.1.37   node1   podenv=pro

2）创建 pod-podantiaffinity-required.yaml，内容如下：

apiVersion: v1
kind: Pod
metadata:
  name: pod-podantiaffinity-required
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  affinity: #亲和性设置
    podAntiAffinity: #设置pod亲和性
      requiredDuringSchedulingIgnoredDuringExecution: # 硬限制
        - labelSelector:
            matchExpressions: # 匹配 podenv 的值在["pro"]中的标签
              - key: podenv
                operator: In
                values: ["pro"]
          topologyKey: kubernetes.io/hostname

上面配置表达的意思是：新 Pod 必须要与拥有标签 nodeenv=pro 的 pod 不在同一 Node 上，运行测试一下。

4.3 Pod 调度之污点和容忍

污点（Taints）

前面的调度方式都是站在 Pod 的角度上，通过在 Pod 上添加属性，来确定 Pod 是否要调度到指定的 Node 上，其实我们也可以站在 Node 的角度上，通过在 Node 上添加污点属性，来决定是否允许 Pod 调度过来。

Node 被设置上污点之后就和 Pod 之间存在了一种相斥的关系，进而拒绝 Pod 调度进来，甚至可以将已经存在的 Pod 驱逐出去。

污点的格式为：key=value:effect, key 和 value 是污点的标签，effect 描述污点的作用。

effect 支持如下三个选项：

PreferNoSchedule：kubernetes 将尽量避免把 Pod 调度到具有该污点的 Node 上，除非没有其他节点可调度
NoSchedule：kubernetes 将不会把 Pod 调度到具有该污点的 Node 上，但不会影响当前 Node 上已存在的 Pod
NoExecute：kubernetes 将不会把 Pod 调度到具有该污点的 Node 上，同时也会将 Node 上已存在的 Pod 驱离

使用 kubectl 设置和去除污点的命令示例如下：

# 设置污点
kubectl taint nodes node1 key=value:effect
 
# 去除污点
kubectl taint nodes node1 key:effect-
 
# 去除所有污点
kubectl taint nodes node1 key-

接下来，演示下污点的效果：

准备节点 node1（为了演示效果更加明显，暂时停止 node2 节点）
为 node1 节点设置一个污点: tag=heima:PreferNoSchedule；然后创建 pod1( pod1 可以 )
修改为 node1 节点设置一个污点: tag=heima:NoSchedule；然后创建 pod2( pod1 正常 pod2 失败 )
修改为 node1 节点设置一个污点: tag=heima:NoExecute；然后创建 pod3 ( 3 个 pod 都失败 )

补充：使用 kubeadm 搭建的集群，默认就会给 master 节点添加一个污点标记,所以 pod 就不会调度到 master 节点

容忍（Toleration）

上面介绍了污点的作用，我们可以在 node 上添加污点用于拒绝 pod 调度上来，但是如果就是想将一个 pod 调度到一个有污点的 node 上去，这时候应该怎么做呢？这就要使用到容忍。

污点就是拒绝，容忍就是忽略，Node 通过污点拒绝 pod 调度上去，Pod 通过容忍忽略拒绝。

apiVersion: v1
kind: Pod
metadata:
  name: pod-toleration
  namespace: dev
spec:
  containers:
    - name: nginx
      image: nginx:1.17.1
  tolerations: # 添加容忍
    - key: "tag" # 要容忍的污点的 key
      operator: "Equal" # 操作符
      value: "heima" # 容忍的污点的 value
      effect: "NoExecute" # 添加容忍的规则，这里必须和标记的污点规则相同

下面看一下容忍的详细配置:

[ root@k8s-master01 ~]# kubectl explain pod.spec.tolerations
......
FIELDS:
   key       # 对应着要容忍的污点的键，空意味着匹配所有的键
   value     # 对应着要容忍的污点的值
   operator  # key-value 的运算符，支持 Equal 和 Exists（默认）
   effect    # 对应污点的 effect，空意味着匹配所有影响
   tolerationSeconds   # 容忍时间, 当 effect 为 NoExecute 时生效，表示 pod 在 Node 上的停留时间

5 其他 Pod 相关

5.1 Pause 容器

Pause 容器，又叫 Infra 容器，本文将探究该容器的作用与原理。

我们知道在 kubelet 的配置中有这样一个参数：

KUBELET_POD_INFRA_CONTAINER=--pod-infra-container-image=registry.access.redhat.com/rhel7/pod-infrastructure:latest

上面是 openshift 中的配置参数，kubernetes 中默认的配置参数是：

KUBELET_POD_INFRA_CONTAINER=--pod-infra-container-image=gcr.io/google_containers/pause-amd64:3.0

Pause 容器，是可以自己来定义，官方使用的 gcr.io/google_containers/pause-amd64:3.0 容器的代码见 Github，使用 C 语言编写。

Pause 容器特点

镜像非常小，目前在 700KB 左右
永远处于 Pause (暂停) 状态

Pause 容器背景

像 Pod 这样一个东西，本身是一个逻辑概念。那在机器上，它究竟是怎么实现的呢？这就是我们要解释的一个问题。

既然说 Pod 要解决这个问题，核心就在于如何让一个 Pod 里的多个容器之间最高效的共享某些资源和数据。

因为容器之间原本是被 Linux Namespace 和 cgroups 隔开的，所以现在实际要解决的是怎么去打破这个隔离，然后共享某些事情和某些信息。这就是 Pod 的设计要解决的核心问题所在。

所以说具体的解法分为两个部分：网络和存储。

Pause 容器就是为解决 Pod 中的网络问题而生的。

Pause 容器实现

Pod 里的多个容器怎么去共享网络？下面是个例子：

比如说现在有一个 Pod，其中包含了一个容器 A 和一个容器 B，它们两个就要共享 Network Namespace。在 Kubernetes 里的解法是这样的：它会在每个 Pod 里，额外起一个 Infra container 小容器来共享整个 Pod 的 Network Namespace。

Infra container 是一个非常小的镜像，大概 700KB 左右，是一个 C 语言写的、永远处于“暂停”状态的容器。由于有了这样一个 Infra container 之后，其他所有容器都会通过 Join Namespace 的方式加入到 Infra container 的 Network Namespace 中。

所以说一个 Pod 里面的所有容器，它们看到的网络视图是完全一样的。即：它们看到的网络设备、IP 地址、Mac 地址等等，跟网络相关的信息，其实全是一份，这一份都来自于 Pod 第一次创建的这个 Infra container。这就是 Pod 解决网络共享的一个解法。

在 Pod 里面，一定有一个 IP 地址，是这个 Pod 的 Network Namespace 对应的地址，也是这个 Infra container 的 IP 地址。所以大家看到的都是一份，而其他所有网络资源，都是一个 Pod 一份，并且被 Pod 中的所有容器共享。这就是 Pod 的网络实现方式。

由于需要有一个相当于说中间的容器存在，所以整个 Pod 里面，必然是 Infra container 第一个启动。并且整个 Pod 的生命周期是等同于 Infra container 的生命周期的，与容器 A 和 B 是无关的。这也是为什么在 Kubernetes 里面，它是允许去单独更新 Pod 里的某一个镜像的，即：做这个操作，整个 Pod 不会重建，也不会重启，这是非常重要的一个设计。

Pause 容器的作用

我们检查 node 节点的时候会发现每个 node 上都运行了很多的 pause 容器，例如如下。

$ docker ps
CONTAINER ID        IMAGE                                                                                                                    COMMAND                  CREATED             STATUS              PORTS               NAMES
2c7d50f1a7be        docker.io/jimmysong/ heapster-grafana-amd64@sha256 :d663759b3de86cf62e64a43b021f133c383e8f7b0dc2bdd78115bc95db371c9a       "/run.sh"                3 hours ago         Up 3 hours                              k8s_grafana_monitoring-influxdb-grafana-v4-5697c6b59-76zqs_kube-system_5788a3c5-29c0-11e8-9e88-525400005732_0
5df93dea877a        docker.io/jimmysong/ heapster-influxdb-amd64@sha256 :a217008b68cb49e8f038c4eeb6029261f02adca81d8eae8c5c01d030361274b8      "influxd --config ..."   3 hours ago         Up 3 hours                              k8s_influxdb_monitoring-influxdb-grafana-v4-5697c6b59-76zqs_kube-system_5788a3c5-29c0-11e8-9e88-525400005732_0
9cec6c0ef583        jimmysong/pause-amd64:3.0                                                                                                "/pause"                 3 hours ago         Up 3 hours                              k8s_POD_monitoring-influxdb-grafana-v4-5697c6b59-76zqs_kube-system_5788a3c5-29c0-11e8-9e88-525400005732_0
54d06e30a4c7        docker.io/jimmysong/ kubernetes-dashboard-amd64@sha256 :668710d034c4209f8fa9a342db6d8be72b6cb5f1f3f696cee2379b8512330be4   "/dashboard --inse..."   3 hours ago         Up 3 hours                              k8s_kubernetes-dashboard_kubernetes-dashboard-65486f5fdf-lshl7_kube-system_27c414a1-29c0-11e8-9e88-525400005732_0
5a5ef33b0d58        jimmysong/pause-amd64:3.0                                                                                                "/pause"                 3 hours ago         Up 3 hours                              k8s_POD_kubernetes-dashboard-65486f5fdf-lshl7_kube-system_27c414a1-29c0-11e8-9e88-525400005732_0

kubernetes 中的 pause 容器主要为每个业务容器提供以下功能：

在 pod 中担任 Linux 命名空间共享的基础；
启用 pid 命名空间，开启 init 进程。

这篇文章做出了详细的说明，pause 容器的作用可以从这个例子中看出，首先见下图：

Pause 容器|475

Pause 容器

我们首先在节点上运行一个 pause 容器。

docker run -d --name pause -p 8880:80 --IPc=shareable jimmysong/pause-amd64:3.0

然后再运行一个 nginx 容器，nginx 将为 localhost:2368 创建一个代理。

$ cat <<EOF >> nginx.conf
error_log stderr;
events { worker_connections  1024; }
http {
    access_log /dev/stdout combined;
    server {
        listen 80 default_server;
        server_name example.com www.example.com ;
        location / {
            proxy_pass http://127.0.0.1:2368 ;
        }
    }
}
EOF
$ docker run -d --name nginx -v `pwd`/nginx.conf:/etc/nginx/nginx.conf --net=container:pause --IPc=container:pause --pid=container:pause nginx

然后再为 ghost 创建一个应用容器，这是一款博客软件。

$ docker run -d --name ghost --net=container:pause --IPc=container:pause --pid=container:pause ghost

现在访问 http://localhost:8880/ 就可以看到 ghost 博客的界面了。

解析

pause 容器将内部的 80 端口映射到宿主机的 8880 端口，pause 容器在宿主机上设置好了网络 namespace 后，nginx 容器加入到该网络 namespace 中，我们看到 nginx 容器启动的时候指定了 --net=container:pause，ghost 容器同样加入到了该网络 namespace 中，这样三个容器就共享了网络，互相之间就可以使用 localhost 直接通信，--IPc=contianer:pause --pid=container:pause 就是三个容器处于同一个 namespace 中，init 进程为 pause，这时我们进入到 ghost 容器中查看进程情况。

# ps aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root         1  0.0  0.0   1024     4 ?        Ss   13:49   0:00 /pause
root         5  0.0  0.1  32432  5736 ?        Ss   13:51   0:00 nginx: master p
systemd+     9  0.0  0.0  32980  3304 ?        S    13:51   0:00 nginx: worker p
node        10  0.3  2.0 1254200 83788 ?       Ssl  13:53   0:03 node current/in
root        79  0.1  0.0   4336   812 pts/0    Ss   14:09   0:00 sh
root        87  0.0  0.0  17500  2080 pts/0    R+   14:10   0:00 ps aux

在 ghost 容器中同时可以看到 pause 和 nginx 容器的进程，并且 pause 容器的 PID 是 1。而在 Kubernetes 中容器的 PID=1 的进程即为容器本身的业务进程。

5.2 Pod 安全策略

Pod 安全策略 | 云原生资料库

Pod 安全策略 是集群级别的资源，它能够控制 Pod 运行的行为，以及它具有访问什么的能力。

5.3 Pod Preset

Pod Preset | 云原生资料库

5.4 Pod 中断与 PDB（Pod 中断预算）

Pod 中断与 PDB（Pod 中断预算） | 云原生资料库

🪴 Obsidian Publish

探索