文档中心 > 聚石塔

集群节点运维手册

更新时间：2023/05/04 访问次数：7636

一、操作手册
二、节点内部升级或维护
三、节点重启
四、节点不可用(Not Ready)
五、一些节点容器实例状态异常的解决方案

一、操作手册

1. 节点排空(排水)

排空的意思是，将本节点上的POD容器进行驱逐，驱逐后原Pod会由集群重新调度到其他节点。排空操作一般用于节点问题排查与升级等。

1）选择设置为不可调度，节点状态变为不可调度。即在后续进行应用部署时，Pod不会再调度到该节点。

2）选择设置为可调度，节点状态变为可调度。

3）选择排空节点（同时设置为不可调度），节点状态变为不可调度，同时会将节点上已经存在的Pod进行(排空)驱逐，pod会被调度到其他节点进行重建。注意：节点上由守护进程集DaemonSet控制的Pod不会被排空。

2. 节点不可调度

当节点不可调度时，新的容器(比如新的发布)不会再调度到该节点。可以手动将节点状态设置为不可调度。

3. 节点不可用

节点不可用，集群认为节点not ready。

通常地，节点不可调用(非主动设置)和节点不可用，一般是由于节点出现了异常状况，比如磁盘满、机器负载过高(节点上kubelet进程无法和集群通信)、网络不可用、docker进程hung住、PLEG异常等，可以进入运维中心-集群-节点-管理，看到节点状态。

例如：某个节点出现PLEG异常导致节点不可用。

导致PLEG异常的原因可能是：

1）由于Docker管理进程（Docker Daemon）异常导致，可以尝试重启kubelet；再尝试重启Docker进程。

//重启kubelet
systemctl restart kubelet
//重启docker
systemctl restart docker
//查看docker日志
journalctl -xeu docker > docker.log

2）是由于systemd版本问题导致，重启节点可短暂修复，彻底解决的话需要升级节点的systemd。

systemd: (rpm -qa | grep systemd, 版本<219-67.el7需要升级)
升级systemd指令: 
yum update -y systemd && systemctl daemon-reexec && killall runc

附：journalctl -xeu kubelet > kubelet.log，将kubelet日志输出到文件中，具体问题具体分析

二、节点内部升级或维护

在某些情况下，需要对ECS本身进行升级和维护，比如上面例子中的升级systemd，或者磁盘清理、挂载新的数据盘、漏洞修复、扩容系统盘等等。操作过程中如果会影响到docker或kubelet的运行，导致节点上面的业务POD不可用。

推荐的操作流程如下：

1）排空节点并设置为不可调度。目的是将已经部署的POD部署到其他节点上，注意：其他节点如果资源不够(或者因为什么原因状态异常不可调度)，也是无法部署的，会影响业务。

2）进行节点升级或维护操作。

3）重新设置节点为可调度。

三、节点重启

ECS节点重启会导致已经运行中的容器失联而引发线上业务问题，所以一般不推荐直接重启集群中的ECS机器。最好在节点排空已有容器之后操作。参考上方《节点排空》的操作步骤。

四、节点不可用(Not Ready)

通用恢复流程：

1. 先登录异常节点重启kubelet，然后查看是否恢复可用。

//重启节点上的kubelet，对已运行的容器没有影响
systemctl restart kubelet

如果恢复，则问题解决。后续如果怀疑该节点ECS异常，可以排空(节点维护)将Pod迁移到其他节点避免再次发生不可用影响业务，后续针对该ECS定位问题。

2. 登录异常节点重启docker daemon进程，然后查看是否恢复可用。

//重启docker，对已运行的容器没有影响
systemctl restart docker

3. 如果步骤1、2中重启kubelet docker等均没有效果，节点依然不可用，那么需要强制重启ECS节点。通常该操作后可以恢复。不可用的原因包括负载过高等因素。

4. 避免节点不可用的建议: 保持节点和集群的合理水位，避免节点超卖严重。高负载情况会让kubelet得不到同步状态的机会。即便有部分节点NotReady，也可以使Pod驱逐、排水到其他节点。部署npd，node export等监控组件，npd可以发现PID、磁盘空间不足等异常；node export可以较好发现NodeNotReady的异常。

五、一些节点容器实例状态异常的解决方案

容器实例状态异常包括但不限于：

1）本该下线的容器实例长时间没有下线成功

2）部分容器实例一直挂起（需要先排除由于健康检查配置导致的异常）

请在容器实例页面找到容器对应宿主机，登录宿主机执行下面的命令尝试恢复：

1. 重启kubelet服务(不影响已运行的容器)

//重启节点上的kubelet，对已运行的容器没有影响
systemctl restart kubelet
//查看kubelet日志
journalctl -xeu kubelet > kubelet.log

等待几分钟，观察容器实例状态是否正常同步。

2. 重启docker服务(不影响已运行的容器)

一般docker主进程挂掉会导致像docker ps，或docker exec等命令hung住或异常失败。

//重启节点上的docker daemon，对运行中容器没有影响
systemctl restart docker
//查看docker日志
journalctl -xeu docker > docker.log

等待几分钟，观察容器实例状态是否正常同步。

3. 在ECS节点已经排空的情况下尝试节点重启。

ECS节点重启会导致已经运行中的容器失联而引发线上业务问题，所以最好在节点排空已有容器之后操作。参考上方《节点排空》的操作步骤。

FAQ

关于此文档暂时还没有FAQ

有用(0) 我要提问