注意:以下文档只适用于TOP接口,请谨慎使用!
入口1:应用列表-应用详情页-应用监控
入口2:应用列表-应用监控(进入老版监控页面)-查看应用监控ARMS的监控页面
入口:https://console.cloud.tmall.com/component/monitoralarm#/index
注:事件监控以及告警,需要先为集群安装组件和开通事件告警,否则无法采集到集群中产生的事件 并且无法告警。安装手册:点击查看。
如果是淘宝账号,告警信息只会发送到邮箱。钉钉登录的账号会发送到钉钉工作通知 + 邮箱。
邮箱接收请确保邮箱设置正确,否则无法收到告警信息。
邮箱设置:权限管理/我的账号/个人信息
钉钉通知的告警示例:云应用容器实例,内存使用量超过设定的阈值
主要是应用POD上的事件,例如容器重启(异常原因导致)、镜像拉取失败、健康检查失败、实例驱逐等。
[聚石塔事件告警] 类型:Pod 原因:Container Restart:Created container jck-container-13097-9016 告警项:K8s通用Warn警示事件(容器重启) 名称:jck-deployment-yacs-13097-9016-106932-55f7bbbf88-b5g9c 应用:test_webhook(13097) 环境:正式环境(9016) 主机:cn-zhangjiakou.192.168.49.240 集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4) 告警时间:2020-06-15 19:50:11 用户:杭羽测试账号33 备注:POD所在节点最近半小时内存在OOM事件 推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#lfIj5
主要是集群ECS节点、集群系统应用或组件上的事件。比如docker hung、OOM、节点不可调度、节点NTP不可用、集群组件如coredns异常等。
[聚石塔事件告警] 类型:Node 原因:Memory cgroup out of memory: Kill process 21417 (java) score 2012 or sacrifice childKilled process 21316 (java), UID 0, total-vm:2786708kB, anon-rss:253788kB, file-rss:13156kB, shmem-rss:0kB 告警项:K8s通用Warn警示事件 名称:cn-zhangjiakou.192.168.49.240 主机:cn-zhangjiakou.192.168.49.240 集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4) 告警时间:2020-06-15 19:50:11 用户:杭羽测试账号33 推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#08qwG