注意:以下文档只适用于TOP接口,请谨慎使用!
核心应用代表参与订单处理链路的所有应用,或手淘参与双11的重点小程序应用。
请给自己相关应用做核心应用的打标。平台会从10月份进行打标情况的扫描。
1)平台侧会给核心应用更多的资源保障,双11期间非核心应用的告警将会被降级。
2)核心应用以及核心应用所在集群会有平台侧协同阿里云相关团队的统一监控和保障措施。
应用水位的充裕可以保证在有突发流量的时候,应用有更多CPU或内存资源可供使用而不至于被流量冲垮。
1)平台要求,封网前,应用常态资源使用率(CPU,内存)需要低于70%(不包含测试应用环境)。
2)平台会大促前开始周期性扫描,并且对不符合标准的应用发出扩容通知。
附:应用扩容操作手册。
应用的健康检查配置至关重要,决定了容器是否可以正常对外提供服务。目前应用健康检查分为两类:
1)应用存活健康检查:指示应用是否是存活状态,如果健康检查失败并且达到一定阈值,会触发容器重启。
2)应用就绪健康检查:指示应用是否已经准备好对外提供服务,如果健康检查成功,应用关联的SLB会自动enable对应的容器。
① HTTP健康检查HTTP CODE返回200为成功;脚本健康检查exit 0 为成功了;建议使用HTTP健康检查,对CPU等资源消耗更低。
② 注意配置合理的失败次数阈值:为了防止抖动造成的容器频繁重启,请将失败次数阈值配置适当调大(与检查延迟配合,建议至少检查3分钟失败再重启,失败次数阈值*检查延迟 > 3min)。
附:健康检查配置操作手册。
应用的CPU内存配置决定了每个容器使用多少计算资源。
CPU/内存请求值:约束了容器最低的起始计算资源。
CPU/内存限制值:约束了容器最多可使用计算资源,内存用量超过该值,容器会因为OOM被强制Kill。
请求值与限制值可以实现容器所使用的资源在一定范围内波动,也就是一定程度的资源弹性,有助于更好的利用一个宿主机上的资源。
① 容器内存达到限制值之后,会引发容器OOM,也就是容器直接被操作系统干掉;CPU则不会。
② 对于稳定性要求较高的应用,建议配置「请求值=限制值」,这样在宿主机的容器争抢计算资源时,被逐出(被重新在其他节点上调度)的可行性最小。
③ 注意资源弹性的比例建议小于1.5(限制值/请求值);过高的弹性比例会引发资源争抢以及容器的驱逐(服务不可用);
④ 单环境实例数需要大于1,避免单点故障。
附:应用资源配置操作手册。
目前,应用可配置的告警包括两类:
1)实例阈值告警:包括CPU使用量,内存使用量,LOAD(即将支持),网络错误;
2)事件监控告警:包括容器以及ECS节点的事件,比如容器重启事件,容器健康检查失败,节点不可用等事件。
建议给所有线上应用都配置阈值告警以及事件监控告警。
针对核心应用,若没有配置告警,系统会在双11前自动配置默认的基本告警规则,包括:
1)实例阈值告警:CPU,内存,load;
2)高危事件的告警:比如容器健康检查失败,容器自动重启,容器被驱逐,或者是严重的ECS节点故障;
非核心应用的告警,在双11当天会被降级到10分钟一次,双11封网结束后自动恢复。
附:应用告警配置手册。
我们推荐使用NAT+EIP的公网访问模式,方便统一监控集群的带宽使用率与运维带宽大小。
目前 EIP 支持三种付费模式:
预付费按固定带宽计费:该计费模式下,单个 EIP 最大带宽为 1000Mbps;
后付费按固定带宽计费:该计费模式下,单个 EIP 最大带宽为 500Mbps;
后付费按使用流量计费:该计费模式下,单个 EIP 最大带宽为 200Mbps。
通过 资源视图
- 弹性公网 IP
进入列表页,可以查看 付费模式 以及当前的实例 带宽大小,同时可以通过监控列点击进入,查看 历史带宽 使用情况。
建议检查当前已设置的带宽大小(或者历史最大使用量),最好不超过最大带宽的 60%,以避免带宽不足时,无法通过升降配,调整带宽大小(升降配参考链接:点击查看)。
1)预/后付费按固定带宽计费:建议使用 共享带宽,操作方案参考:点击查看。
2)后付费按使用流量计费:建议在 NAT 网关上绑定多个 EIP ,操作方案参考:点击查看。