集群成功创建后,会默认创建如下云资源:
注意:删除 SLB,将导致该集群彻底不可用;修改集群安全组,将导致集群无法正常部署及 ECS 无法内网互通。
创建入口:聚石塔-控制台-运维中心。
设置集群名称、选择region、专有网络和虚拟交换机;专有网络选择目前ECS集群所在的VPC。
注意:
集群创建成功之后,初始化大概需要10-15分钟,请耐心等待,在集群列表页可以观察集群运行状态的变化。集群运行状态会由 集群不可用 -> running。running 状态说明集群最终状态正常,可以发布部署了。
集群初始化需要 10-15 分钟;之后需先创建节点池,再添加 ECS 节点才能用于容器部署。
注意:
向集群添加 ECS 有两种方式:
注意:
目前Kubernetes集群默认只提供Terway网络插件。
1)创建集群时如果勾选“配置SNAT”,且VPC网络内不存在NAT网关,则会创建如下资源:一个后付费的NAT网;一个后付费的弹性公网IP;
2)创建集群时不勾选“配置SNAT”。
如果VPC本身没有手动配置过SNAT,则创建集群会提示失败;
如果VPC本身已经有了SNAT,则可以复用原来的,集群可以成功创建。
集群工作负载代表 Pod 分配的资源水位,不代表实际 Pod 资源使用水位。
可能是系统脏数据导致,请在提交工单反馈。
首先找到集群使用的VPC的网段,保证Pod以及Service的网段不和VPC网段冲突。
比如VPC网段为192.****,那完全可以设置Pod的Service的网段以172开头的,网页上有提示设置的网段规则,比如分别设置为172.20.0.0/16,172.21.0.0/20。
如果之前创建过集群,那么查看这个集群已经设置好的Pod的Service的网段,然后相应的增加就好,比如分别设置
172.22.0.0/16,172.23.0.0/20。
需创建节点池,添加已有节点或扩容节点池。
所选ECS已经加入了5个安全组,阿里云限制每台ECS最多加入5个安全组,加入集群需要加入另一个安全组。
解决办法,将ECS退出其他安全组,保证加入的安全组数量<=4。
VPC路由表超限,找到创建集群使用的VPC,提交阿里云工单,申请一下该VPC下的路由表quota。
首先,确认下ECS是否和集群的VPC属于同一个。
其次,确认下ECS是否已经关联到聚石塔的应用,关联了应用的机器原则上不能添加进集群(机器会被重置)。
首先,每台ECS交付到手后,内存会有500-1000M左右折损,8G的机器实际最大容量只有7.5G(7500M)左右;
其次,每台接入到集群后的ECS,会预留额外的800M内存,给集群内部组件以及除开集群外的其他进程使用(这个是为了保证集群中每个节点的稳定性);
再次,每台接入到集群后的ECS,会启用集群节点相关组件,占用 0.35C+100M内存;
最后,集群各个核心组件,一共还需要占用1C + 1000M资源,这些资源量会随机地占用集群内机器的资源。
总之,对于N台ECS的集群来说,
不可调度CPU = N*0.35C + 1C
不可调度内存 = N*500M(折损)+ N* 800M(系统预留)+??N*100M(系统proxy组件占用) + 1000M(集群其他组件)
当N=2时,不可调度cpu=1.7c,不可调度内存=4G
资源限制主要在于内存,平均每台机器上可调度的内存大约为6G,极端情况下如果集群各个核心组件都部署在一台ECS上,此时两台机器上可调度内存可能分别为 4.2G,5.8G。
所以两台机器的集群可以部署两个2C4G的容器实例;2C5G的实例至少能部署起来一个;2C6G的实例无法部署。
如上面一个问题中所述,集群管理ECS,实际可以调度的资源可以认为要比购买规格少2G左右,比如购买4C8G的机器,可以用来部署容器的大约3C 6G(如果你只有一两台机器,可能连一个3C 6G的机器也部署不起来,集群规模太小,可能这台机器被占用了很多资源来运行集群核心组件)。另外,为了稳定性,集群要保证资源水位健康,集群中的机器也不建议跑满。