注意:以下文档只适用于TOP接口,请谨慎使用!

文档中心 > 聚石塔

监控告警使用说明

更新时间:2022/01/18 访问次数:736

image.png

关于监控

入口1:应用列表-应用详情页-应用监控

入口2:应用列表-应用监控(进入老版监控页面)-查看应用监控ARMS的监控页面

  • 应用基础监控,云应用(实例)运行过程中CPU 内存等基础指标趋势。默认免费集成
  • 应用性能监控,提供了快速接入阿里云ARMS(收费云产品)的能力,主要是针对JAVA和PHP类应用
  • 应用事件监控,应用和集群生命周期事件,异常事件展示等

关于告警

入口:https://console.cloud.tmall.com/component/monitoralarm#/index

  • 实例阈值告警,基于基础监控,云应用容器POD的各项指标如CPU、内存使用量等。配置告警后,超过设定的阈值就会告警通知
  • 实例事件告警,云应用容器POD的各种异常事件,如容器重启、驱逐、探针失败、启动失败等。配置告警后,当有异常事件发生时就会告警通知
  • 资源告警-集群事件告警,监控集群节点(计算资源)的各种异常事件,如节点不可用、节点资源不足等,当有事件发生时产生告警


注:事件监控以及告警,需要先为集群安装组件和开通事件告警,否则无法采集到集群中产生的事件 并且无法告警。安装手册:https://www.yuque.com/fczggw/wu7u0k/lft9ah

告警对象

  • 按角色,可以在告警配置中指定 [负责人、开发、运维、测试]
  • 按用户,可以在告警配置中指定具体的用户

告警通知方式

  • 淘宝账号绑定的邮箱
  • 钉钉账号工作通知
  • TMC消息

邮箱和钉钉通知的说明

如果是淘宝账号,告警信息只会发送到邮箱。钉钉登录的账号会发送到钉钉工作通知 + 邮箱。


邮箱接收请确保邮箱设置正确,否则无法收到告警信息。

邮箱设置:权限管理/我的账号/个人信息

image.png


告警示例

云应用内存告警

钉钉通知的告警示例:云应用容器实例,内存使用量超过设定的阈值

image.png


云应用POD异常事件

主要是应用POD上的事件,例如容器重启(异常原因导致)、镜像拉取失败、健康检查失败、实例驱逐等。

[聚石塔事件告警]
类型:Pod
原因:Container Restart:Created container jck-container-13097-9016
告警项:K8s通用Warn警示事件(容器重启)
名称:jck-deployment-yacs-13097-9016-106932-55f7bbbf88-b5g9c
应用:test_webhook(13097)
环境:正式环境(9016)
主机:cn-zhangjiakou.192.168.49.240
集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4)
告警时间:2020-06-15 19:50:11
用户:杭羽测试账号33
备注:POD所在节点最近半小时内存在OOM事件
推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#lfIj5

集群异常事件

主要是集群ECS节点、集群系统应用或组件上的事件。比如docker hung、OOM、节点不可调度、节点NTP不可用、集群组件如coredns异常等。

[聚石塔事件告警]
类型:Node
原因:Memory cgroup out of memory: Kill process 21417 (java) score 2012 or sacrifice childKilled process 21316 (java), UID 0, total-vm:2786708kB, anon-rss:253788kB, file-rss:13156kB, shmem-rss:0kB
告警项:K8s通用Warn警示事件
名称:cn-zhangjiakou.192.168.49.240
主机:cn-zhangjiakou.192.168.49.240
集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4)
告警时间:2020-06-15 19:50:11
用户:杭羽测试账号33
推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#08qwG


FAQ

关于此文档暂时还没有FAQ
返回
顶部