注意:以下文档只适用于TOP接口,请谨慎使用!

文档中心 > 聚石塔

聚石塔常见事件操作手册

更新时间:2022/01/18 访问次数:689

应用

应用实例相关

异常排查

1. 应用实例一直重启(应用存活探针失败)

  1. 查看应用【健康检查配置】是否正确
  • 进入“应用发布” -> “环境管理”,找实例所在环境以及环境关联的配置

image.png

  • 进入“部署配置”,找到上上一步那个配置后点编辑,找到编辑页面下方“健康检查配置”中“应用存活探针”,确认“应用存活探针”配置是否正确

image.png

  1. 结合查看应用日志,根据日志输出确认相关问题

见本文档如何查看应用日志部分


  1. 结合应用监控,查看应用(实例)的各项指标,比如CPU,内存水位。结合应用日志,请开发者自己判断瓶颈是否可以通过实例扩容解决。


  1. 尝试通过应用环境扩容解决。请参考具体操作:如何给应用扩容;如果由于资源不足导致容器无法正常启动(常见提示为Insufficient CPU Insufficient Memory),请参考集群扩容,先扩容容器集群。


2. 应用实例在高负载出现dns解析失败

核心应用所在集群已提前进行DNS扩容。如大促期间仍出现DNS解析问题,请立即联系@杭羽 对集群后台进行扩容和优化。



操作手册

1. 如何给应用配置应用存活探针(应用就绪探针)


  1. 进入“应用发布”-> “部署配置”-> 修改已有配置点“编辑”,新建配置点“新建部署配置”,在配置页面底部点击“健康检查配置”Tab,在“应用就绪探针”部分进行相应配置。
  2. 支持两种类型的就绪探针:http get和shell script。
  • shell script,脚本检查,在容器中执行配置中编写的脚本,脚本执行后退出返回0表示Success
  • http get,HTTP检查,向配置的url和端口发起一次HTTP请求,如果返回码为200表示Success

具体健康检查配置的说明可参考云应用如何配置健康检查


2. 如何让应用实例更均匀分配


  1. 首先请保证集群内有多台ECS,且ECS上的可用CPU内存资源足够应用实例部署。ECS节点资源详情请参考集群内节点的详情信息。操作路径:运维中心 -> 集群管理 -> 节点列表 -> 节点管理。


  1. 理论上,一次发布的多个容器在ECS节点资源足够的情况下会尽量分散部署。也给可手动指定环境资源分配策略,让多容器尽量分布在不同的ECS节点上。参考文档:为环境手动分配计算资源策略


  1. 如果后期新加入ECS节点,而想把之前部署的比较密集分布的容器迁移到新的ECS节点上,可以在业务低峰期将业务重新发布一次,让系统将容器重新调度。


  1. 还有一种方式,是在不重新执行环境发布的情况下,手动执行应用实例重建让集群将单个应用实例重新调度一次。请注意,应用实例重建会导致该实例在重建成功的时间段内不可用,且原实例内没有进行挂载的数据会丢失。请在业务低峰期,考虑清楚后果后谨慎操作。操作入口:应用 -> 实例列表 -> 重建实例

image.png


3. 如何查看应用监控


应用监控的入口在「应用列表 -> 更多 -> 监控」。

image.png


进入监控页之后,可以把监控分为两个维度:


  • 基础监控:基础监控的数据来源是阿里云云监控,是免费产品。可以看到某个环境下分组(分实例)的CPU,内存,Load等常用基础监控值。
  • 应用监控:应用监控的数据来源是阿里云ARMS,arms是收费产品,需要购买资源包才能看到监控数据。arms可以看到更细粒度的业务监控数据,比如QPS,HTTP监控,慢SQL监控,JVM监控等。参考文档:应用接入ARMS


4. 如何查看应用日志

  1. 远程登录到容器,查看日志

进入“应用发布”-> “环境管理”,找到实例所在环境,点击“管理资源”,在实例列表中点击“远程登录”,进入日志目录查看

image.png

  1. 查看应用发布日志

进入“应用发布”-> “发布流程”,点击相应的环境,点击“发布记录”,找到最近一条发布单,点击“详情”,找到需要查看的发布阶段“进行中”或“已完成”,点击查看日志

image.png


5. 如何给应用扩容

应用扩容是指针对应用的某个环境扩容应用实例,比如将应用实例个数从1个调整到2个。

请在「应用-环境管理」控制台执行扩缩容操作。


注:如果碰到应用扩容资源不足的问题(https://www.yuque.com/fczggw/wu7u0k/riku5o#c62iS),请先去集群管理扩容集群。再来扩容应用。

image.png

image.png


6. 如何调整环境部署实例的CPU、内存配置

请在环境关联的部署配置中,修改CPU,内存配置。并且重新发布后生效。

image.png


发布相关


异常排查

1. SLB流量接入返回503错误码

1)首先通过查看系统日志,看下后端是否有明显的报错日志。如果有明显的报错,则需要自己根据异常来判断错误原因;

查看日志方式:

如果已接入SLS并且通过SLS采集了系统日志,可以通过SLS查看;

如果未接入SLS,可以通过下面的方式查看:应用发布 -> 环境管理 -> 管理资源 ,进入后点击应用实例后的 【远程登录】,然后查看自己的系统日志

image.png


image.png


2)如果未发现明显的异常日志,则一般是SLB的规格过低导致连接被断开或拒绝,此种情况需要升级SLB的规格


观察SLB负载情况:观察SLB负载情况:

聚石塔控制台 -> 资源视图 -> 负载均衡

image.png

image.png



升级SLB规格:升级SLB规格:

image.png


2. 流量太大导致发布不成功或卡住

如果发布时系统流量太大导致发布不成功或卡住,一般表现为:

a) 外部流量比平时正常情况下要高出较多

b) 应用实例刚开始能启动,但随后很快就被重启,发布单一直处于部署中状态


1)、先走应用实例扩容操作,保障应用水位处于一个相对较低的水位。

image.png

2)、(如果扩容成功,跳过此步)如果扩容起不来新的应用实例,说明已有的应用实例都处于假死状态,请按以下步骤解决:


a) 可以先将健康检查配置为肯定能成功的,比如:脚本类型的 return "success",优先保障pod能起来接收流量,并且调大应用实例数量,然后提交新的发布单

image.png

b)如果调整健康检查后扔未能扩容成功,一般不会出现这种情况;极端情况下可以考虑将外部流量暂时摘除,不让流量进来。此时再去扩容,扩容成功后再将流量引入。注意:流量摘除后对外的服务也将完全不可用,此方案请慎重执行


3)、如果有功能变动或bug修复,在扩容成功后,再提交新的发布,发布时请将分批数量设置大点,保证处于服务中的应用实例数量


操作手册



集群

节点相关

异常排查

1. 节点ephemeral-storage空间无法释放

2. 节点不可用-集群水位足够,但是POD依然无法调度

1)运维中心-集群管理-节点列表

image.png

2)查看节点实例信息

image.png

这里可以看到节点的状态,检测每一项。例如:

如果磁盘空间超标为True,则说明节点磁盘不可用,检测磁盘使用情况,释放一些空间。

如果网络不可用为True,可能是集群的规模超过了上限,节点上无法分配容器IP,详情见:

https://www.yuque.com/fczggw/wu7u0k/rlqugf#XtRRN,由于集群规模创建时候指定就无法更改了,所以不能添加新ECS节点了,考虑对原有ECS做垂直弹升。


集群创建相关

集群创建过程中可能遇到的问题,请参考:https://www.yuque.com/fczggw/wu7u0k/yi8257#iPOQs


集群扩容相关

异常排查

1. 添加ECS时报错 VPC RouteEntry over quota

VPC路由表条目超限。需要去VPC控制台申请配额上限,扩容一台ECS需要一个路由表条目。

https://www.yuque.com/fczggw/wu7u0k/yi8257#hJ20L


2. 添加ECS时提示 Eip over quota

找到创建集群使用的VPC,提交阿里云工单,申请一下该VPC下的EIP quota


3. 添加ECS节点时报错“InstanceSecurityGroupLimitExceeded”

所选ECS已经加入了5个安全组,阿里云限制每台ECS最多加入5个安全组,加入集群需要加入另一个安全组

解决办法,将ECS退出其他安全组,保证加入的安全组数量<=4


特别地,如果是下列两种名字开头的安全组,可以直接退出该安全组

image.png


4.选择ECS时,无法选择到自己想选的机器

首先,确认下ECS是否和集群的VPC属于同一个

其次,确认下ECS是否已经关联到聚石塔的应用,关联了应用的机器原则上不能添加进集群(机器会被重置)

最后,确认ECS实例的状态,是否过期,是否为running状态


操作手册

1. 如何给集群扩容节点(ECS)

1)进入聚石塔运维中心

image.png

2)集群-管理-节点列表-添加已有节点

image.png

3)勾选要添加的节点image.png

4)等待扩容执行,扩容完成节点状态变为“运行中”则表示添加成功

image.png

FAQ

关于此文档暂时还没有FAQ
返回
顶部