文档中心 > 聚石塔

大促集群操作手册

更新时间：2023/05/05 访问次数：6727

一、集群扩容节点
二、集群节点运维
三、给集群(节点)配置事件告警
四、集群升级说明
五、DNS组件升级说明

一、集群扩容节点

当容器集群的CPU、内存请求率以及使用率达到70%以后，需要对集群进行扩容以保证当出现以外流量峰值的时候，有足够的集群资源可以用于应用扩容。

1）先在ECS控制台购买相应规格的ECS，注意ECS所属VPC与集群相同；

2）在「运维中心-集群管理-节点列表」找到相应的集群，并且将ECS添加到集群中。

二、集群节点运维

1. 节点内部系统升级或者规格升级。

先排空节点，将节点上的pod进行驱逐(重新调度到其他节点)。

升级操作完成后将节点设置为可调度。

2. 节点不可用时处理方法，具体请参考：节点运维手册。

三、给集群(节点)配置事件告警

为每个集群配置事件告警，可以及时发现集群节点运行时问题，例如节点不可用、docker异常、磁盘等资源不足等问题。告警使用文档：点击查看。

关于告警联系人的设置：点击查看。

关于事件类型选择：

目前，我们推荐配置四种类型：

1）通用warning；

2）节点不可用；

3）节点资源不足；

4）节点磁盘资源不足；

首先，通用warning包含了集群上Node级别的所有Warning事件，比如OOM、docker hung、PLEG异常等，能够比较广泛的感知到节点上的一般异常警告事件。节点不可用，是节点运行期间偶尔会出现的问题，会较大的影响节点上容器的运行和新部署容器的调度。节点磁盘等资源不足，也是云应用运行期间，影响比较大的异常问题，特别是当磁盘使用率达到一定值时，节点上的容器会被驱逐然后被集群重新调度，大面积的驱逐会影响云应用的稳定性。综上，这四种事件类型强烈建议配置上。

异常事件参加解决方案：点击查看。

四、集群升级说明

专业托管版(ACK Pro)集群稳定性更高，在标准版基础上进一步增强了可靠性、安全性，并且提供可赔付的SLA，属于收费产品；关于ACK Pro专业托管版集群。

默认集群与专业托管版(ACK Pro)集群比较：

	标准托管版集群(默认)	专业托管版集群(ACK Pro)
特点	简单、低成本、高可用，无需管理Master节点	简单、低成本、高可用，无需管理Master节点。进一步增强了可靠性、安全性，并且提供可赔付的SLA
费用	集群本身免费； ECS等资源需付费；集群SLB费用	集群本身按量付费，每个集群0.64元/小时； ECS等资源需付费；集群SLB费用
适用场景	适用于所有场景	适用于所有场景
使用步骤	创建集群添加ECS 应用发布	创建集群添加ECS 应用发布

在运维中心集群列表页，1.16版本以上的集群均可以进行升级(迁移至ACK Pro)操作。

五、DNS组件升级说明

部分集群CoreDNS组件过低，有稳定性风险；请收到平台相关升级通知的集群及时升级CoreDNS版本。

操作手册说明：点击查看。

FAQ

关于此文档暂时还没有FAQ

有用(0) 我要提问