注意:以下文档只适用于TOP接口,请谨慎使用!

文档中心 > 聚石塔

监控告警使用说明

更新时间:2023/04/12 访问次数:5689

image.png


一、关于监控


入口1:应用列表-应用详情页-应用监控;

入口2:应用列表-应用监控(进入老版监控页面)-查看应用监控ARMS的监控页面。


监控类型

说明

应用基础监控

云应用(实例)运行过程中CPU 内存等基础指标趋势。默认免费集成。

应用性能监控

提供了快速接入阿里云ARMS(收费云产品)的能力,主要是针对JAVA和PHP类应用

应用事件监控

应用和集群生命周期事件,异常事件展示等。


二、关于告警


入口:https://console.cloud.tmall.com/component/monitoralarm#/index


告警类型

说明

实例阈值告警

基于基础监控,云应用容器POD的各项指标如CPU、内存使用量等。配置告警后,超过设定的阈值就会告警通知。

实例事件告警

云应用容器POD的各种异常事件,如容器重启、驱逐、探针失败、启动失败等。配置告警后,当有异常事件发生时就会告警通知。

资源告警-集群事件告警

监控集群节点(计算资源)的各种异常事件,如节点不可用、节点资源不足等,当有事件发生时产生告警。


注:事件监控以及告警,需要先为集群安装组件和开通事件告警,否则无法采集到集群中产生的事件 并且无法告警。

安装手册:点击查看


三、告警对象


1. 按角色,可以在告警配置中指定 【负责人、开发、运维、测试】;

2. 按用户,可以在告警配置中指定具体的用户。


四、告警通知方式


1)淘宝账号绑定的邮箱;

2)钉钉账号工作通知;

3)TMC消息。


邮箱和钉钉通知的说明


如果是淘宝账号,告警信息只会发送到邮箱。钉钉登录的账号会发送到钉钉工作通知 + 邮箱。

邮箱接收请确保邮箱设置正确,否则无法收到告警信息。

邮箱设置:权限管理/我的账号/个人信息。


image.png

 

五、告警示例

1. 云应用内存告警


钉钉通知的告警示例:云应用容器实例,内存使用量超过设定的阈值。


image.png

 

2. 云应用POD异常事件


主要是应用POD上的事件,例如容器重启(异常原因导致)、镜像拉取失败、健康检查失败、实例驱逐等。


[聚石塔事件告警]
类型:Pod
原因:Container Restart:Created container jck-container-13097-9016
告警项:K8s通用Warn警示事件(容器重启)
名称:jck-deployment-yacs-13097-9016-106932-55f7bbbf88-b5g9c
应用:test_webhook(13097)
环境:正式环境(9016)
主机:cn-zhangjiakou.192.168.49.240
集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4)
告警时间:2020-06-15 19:50:11
用户:杭羽测试账号33
备注:POD所在节点最近半小时内存在OOM事件
推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#lfIj5


3. 集群异常事件


主要是集群ECS节点、集群系统应用或组件上的事件。比如docker hung、OOM、节点不可调度、节点NTP不可用、集群组件如coredns异常等。


[聚石塔事件告警]
类型:Node
原因:Memory cgroup out of memory: Kill process 21417 (java) score 2012 or sacrifice childKilled process 21316 (java), UID 0, total-vm:2786708kB, anon-rss:253788kB, file-rss:13156kB, shmem-rss:0kB
告警项:K8s通用Warn警示事件
名称:cn-zhangjiakou.192.168.49.240
主机:cn-zhangjiakou.192.168.49.240
集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4)
告警时间:2020-06-15 19:50:11
用户:杭羽测试账号33
推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#08qwG

 

FAQ

关于此文档暂时还没有FAQ
返回
顶部