注意:以下文档只适用于TOP接口,请谨慎使用!

文档中心 > 聚石塔

大促集群操作手册

更新时间:2022/01/18 访问次数:493

1. 集群扩容节点

当容器集群的CPU、内存请求率以及使用率达到70%以后,需要对集群进行扩容以保证当出现以外流量峰值的时候,有足够的集群资源可以用于应用扩容。

  1. 先在ECS控制台购买相应规格的ECS,注意ECS所属VPC与集群相同;
  2. 在「运维中心-集群管理-节点列表」找到相应的集群,并且将ECS添加到集群中

image.png


2. 集群节点运维

1)节点内部系统升级或者规格升级

先排空节点,将节点上的pod进行驱逐(重新调度到其他节点)

image.png

升级操作完成后将节点设置为可调度

image.png

2)节点不可用时处理方法,https://www.yuque.com/fczggw/wu7u0k/cxzzca#4RUwi

具体请参考:节点运维手册


3. 给集群(节点)配置事件告警

为每个集群配置事件告警,可以及时发现集群节点运行时问题,例如节点不可用、docker异常、磁盘等资源不足等问题。告警使用文档:https://www.yuque.com/fczggw/wu7u0k/nbfa90

image.png

image.png

关于告警联系人的设置:https://www.yuque.com/fczggw/wu7u0k/nbfa90#laROP

关于事件类型选择:

目前,我们推荐配置四种类型,

  • 通用warning
  • 节点不可用
  • 节点资源不足
  • 节点磁盘资源不足

首先,通用warning包含了集群上Node级别的所有Warning事件,比如OOM、docker hung、PLEG异常等,能够比较广泛的感知到节点上的一般异常警告事件。节点不可用,是节点运行期间偶尔会出现的问题,会较大的影响节点上容器的运行和新部署容器的调度。节点磁盘等资源不足,也是云应用运行期间,影响比较大的异常问题,特别是当磁盘使用率达到一定值时,节点上的容器会被驱逐然后被集群重新调度,大面积的驱逐会影响云应用的稳定性。综上,这四种事件类型强烈建议配置上。

异常事件参加解决方案:

https://www.yuque.com/fczggw/wu7u0k/yrsmk6#IhNms

4. 集群升级说明

专业托管版(ACK Pro)集群稳定性更高,在标准版基础上进一步增强了可靠性、安全性,并且提供可赔付的SLA,属于收费产品;关于ACK Pro专业托管版集群

?

默认集群与专业托管版(ACK Pro)集群比较:


标准托管版集群(默认)

专业托管版集群(ACK Pro)

特点

简单、低成本、高可用,无需管理Master节点

简单、低成本、高可用,无需管理Master节点。

进一步增强了可靠性、安全性,并且提供可赔付的SLA

费用

集群本身免费;

ECS等资源需付费;

集群SLB费用

集群本身按量付费,每个集群0.64元/小时;

ECS等资源需付费;

集群SLB费用

适用场景

适用于所有场景

适用于所有场景

使用步骤

创建集群

添加ECS

应用发布

创建集群

添加ECS

应用发布

?

在运维中心集群列表页,1.16版本以上的集群均可以进行升级(迁移至ACK Pro)操作

image.png

5. DNS组件升级说明

部分集群CoreDNS组件过低,有稳定性风险;请收到平台相关升级通知的集群及时升级CoreDNS版本。

操作手册说明:https://www.yuque.com/fczggw/wu7u0k/ownm2l

FAQ

关于此文档暂时还没有FAQ
返回
顶部