注意:以下文档只适用于TOP接口,请谨慎使用!

文档中心 > 聚石塔

创建集群

更新时间:2021/03/30 访问次数:6066

0.写在前面

集群成功创建后,会默认创建如下网络资源:

一个内网SLB(用途:访问api server)


千万不要随意删除这些资源,否则会导致集群连接不上从而导致页面功能瘫痪!!!

创建入口:https://console.cloud.tmall.com/component/operationcenter?spm=a219a.7386653.0.0.4f74669ai5Bo9r#/index


1.设置基本信息

设置集群名称、选择region、专有网络、虚拟交换机、Pod虚拟交换机;专有网络选择目前ECS集群所在的VPC。

image.png

目前默认的linux托管版集群,使用的网络插件默认为Terway网络,需要给每个节点交换机指定对应的Pod虚拟交换机,具体请见 集群terway网络说明

注:

交换机别选C区的,否则创建集群会提示失败,也可见后面常见问题2


注意,

1)设置POD和Service的CIDR网段,如果是首次创建,就按照默认值不需要改动,直接点击“完成”;

2)如果是创建第二个集群,可以把这里相应的改下,原则就是这里设置的网段不能与VPC以及之前创建的网段冲突;比如可以设置成172.22.0.0/16,172.23.0.0/20

3)如果点击“完成”仍然报CIDR相关问题,请到答疑群反馈

4)这一步如果点击“完成”,出现其他问题,也请到答疑群反馈


2.当前配置确认

1)集群创建需要开通相关服务,如果未开通,请依次点击右侧“RAM授权”进行授权,点击下方“刷新”按钮进行查看

2)集群创建会创建相关云产品,也列在下方了

image.png


3.等待集群初始化

集群创建成功之后,初始化和ECS节点添加大概需要10分钟左右,请耐心等待,在集群列表页可以观察集群运行状态的变化。集群运行状态会由 空白->initial->scaling->running。running状态说明集群最终状态正常,可以发布部署了。

image.png


4.添加ECS节点

集群列表-管理-节点列表-添加已有节点

image.png

  • 添加类型,“自动添加”只需在页面操作,ECS会进行系统盘重置,然后自动加入到集群中。“手动添加”,确认后页面上会生成一条linux指令,需要人工登录到机器上执行该条指令。“手动添加”的方式不会重置系统盘和集群上的其他数据
  • “自动添加”类型由于会重置ECS,所以需要重新设置ECS登录方式,密钥和密码方式都可以,推荐使用密钥方式
  • 自定义标签,非必填,节点加入集群后会自动打上相应的标签,用于集群资源分配(指定应用容器调度到某些节点),参考:https://www.yuque.com/fczggw/wu7u0k/gpw7mu#x1r55
  • 支持自定义系统镜像,参考 https://www.yuque.com/fczggw/wu7u0k/fyk8ur
  • 支持将容器运行目录挂载到数据盘,参考 https://www.yuque.com/fczggw/wu7u0k/igy9gg#U0bz1


PS,添加节点时没有列出想要的实例,一般是因为1)ECS与集群不在同一个VPC; 2)ECS已经添加到其他集群

3)ECS过期 4)ECS关联了应用(如果关联了需要先取消关联)。可以手动校验一下:

image.png



5.集群详情

基本信息——查看集群概况

image.png


节点列表——管理节点

image.png

注意:

1)添加已有节点,只能选择当前集群VPC下的,如果ECS之前关联到了应用,这里也没法添加,请先解除关联(确保机器可以添加到集群,因为系统盘会有一次被重置的操作)

2)添加节点报错,请先看文档下面的常见问题自行排查,仍有问题请在答疑群反馈


常见问题

1.创建集群时,当前配置确认,RAM授权失败

image.png


可能是系统脏数据导致,请在答疑群反馈


2.创建集群报错,the current zone cn-zhangjiakou-c does not support creating SLB

一直“上一步”,回到集群基本信息设置,别勾选可用区c的交换机,之后再继续往后走


3.创建集群报错,the vpc already hava public network access

请直接在答疑群反馈,找hangyu


4.创建集群报错,再次提交提示cluster name已存在

请直接在答疑群反馈,找hangyu


5.创建集群报错,提示类似CIDR 网段冲突

首先找到集群使用的VPC的网段,保证Pod以及Service的网段不和VPC网段冲突。

比如VPC网段为192.****,那完全可以设置Pod的Service的网段以172开头的,网页上有提示设置的网段规则,比如分别设置为172.20.0.0/16,172.21.0.0/20。

如果之前创建过集群,那么查看这个集群已经设置好的Pod的Service的网段,然后相应的增加就好,比如分别设置

172.22.0.0/16,172.23.0.0/20


6.创建集群成功后,状态为running,为什么看不到节点?

可能是集群初始化后,异步添加节点失败了,需要手动再添加一下,集群管理-节点列表-添加已有节点


7.添加ECS时报错“InstanceSecurityGroupLimitExceeded”

所选ECS已经加入了5个安全组,阿里云限制每台ECS最多加入5个安全组,加入集群需要加入另一个安全组

解决办法,将ECS退出其他安全组,保证加入的安全组数量<=4


8.添加ECS时提示 VPC RouteEntry over quota

VPC路由表超限,找到创建集群使用的VPC,提交阿里云工单,申请一下该VPC下的路由表quota


9.添加ECS时提示 Eip over quota 

找到创建集群使用的VPC,提交阿里云工单,申请一下该VPC下的EIP quota


10.添加ECS时,看不到想要选的机器?

首先,确认下ECS是否和集群的VPC属于同一个

其次,确认下ECS是否已经关联到聚石塔的应用,关联了应用的机器原则上不能添加进集群(机器会被重置)


11.两台4C8G的机器,能部署几个2C4G的实例?

首先,每台ECS交付到手后,内存会有500-1000M左右折损,8G的机器实际最大容量只有7.5G(7500M)左右;

其次,每台接入到集群后的ECS,会预留额外的800M内存,给集群内部组件以及除开集群外的其他进程使用(这个是为了保证集群中每个节点的稳定性);

再次,每台接入到集群后的ECS,会启用集群节点相关组件,占用 0.35C+100M内存

最后,集群各个核心组件,一共还需要占用1C + 1000M资源,这些资源量会随机地占用集群内机器的资源


总之,对于N台ECS的集群来说,

不可调度CPU = N*0.35C + 1C

不可调度内存 = N*500M(折损)+ N* 800M(系统预留)+  N*100M(系统proxy组件占用) + 1000M(集群其他组件)


当N=2时,不可调度cpu=1.7c,不可调度内存=4G

资源限制主要在于内存,平均每台机器上可调度的内存大约为6G,极端情况下如果集群各个核心组件都部署在一台ECS上,此时两台机器上可调度内存可能分别为 4.2G,5.8G。

所以两台机器的集群可以部署两个2C4G的容器实例;2C5G的实例至少能部署起来一个;2C6G的实例无法部署


12.每台4c8G的机器,只能部署一个2C4G的容器。为什么会有这么多浪费?

如上面一个问题中所述,集群管理ECS,实际可以调度的资源可以认为要比购买规格少2G左右,比如购买4C8G的机器,可以用来部署容器的大约3C 6G(如果你只有一两台机器,可能连一个3C 6G的机器也部署不起来,集群规模太小,可能这台机器被占用了很多资源来运行集群核心组件)。另外,为了稳定性,集群要保证资源水位健康,集群中的机器也不建议跑满。

1)建议买更大规格的机器;10台4C8G的机器,不如买5台 8C16G

2)建议增加节点数量,节点越多,集群自身占用的资源就可以忽略不计,其他的资源都可以被集群调度了

3)建议增加集群中的实例规格类型,大小搭配,可以将集群可调度的资源发挥到最大


FAQ

关于此文档暂时还没有FAQ
返回
顶部