728x90
반응형

개요

갑자기 작업 이후에는 괜찮았는데, 그 다음 날에 aws-node-xxx 파트가 살아나지 못하고 계속 ContainerCreating에서 무한 루프 되는 현상이 나타났다. 쿠버네티스에서 확인 가능한 로그를 살펴 보았다.

 

 

1.

Network plugin cni failed to set up pod network: add cmd: failed to assign an IP address to container

 

2.

Error response from daemon: failed to start shim: fork/exec /usr/bin/containerd-shim: resource temporarily unavailable: unknown

Warning FailedCreatePodSandBox 23m (x2203 over 113m) kubelet, ip-xx-xx-xx-xx.xx-xxxxx-x.compute.internal (combined from similar events): Failed create pod sandbox: rpc error: code = Unknown desc = failed to set up sandbox container "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" network for pod "provisioning-XXXXXXXXXXXXXXX": networkPlugin cni failed to set up pod "provisioning-XXXXXXXXXXXXXXX" network: add cmd: failed to assign an IP address to container

 

3.

Error while dialing dial tcp 127.0.0.1:50051: connect: connection refused

Warning  FailedCreatePodSandBox  51s  kubelet, ip-xx-xx-xx-xx.ec2.internal  Failed create pod sandbox: rpc error: code = Unknown desc = [failed to set up sandbox container "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" network for pod "example_pod": NetworkPlugin cni failed to set up pod "example_pod" network: add cmd: Error received from AddNetwork gRPC call: rpc error: code = Unavailable desc = connection error: desc = "transport: Error while dialing dial tcp 127.0.0.1:50051: connect: connection refused", failed to clean up sandbox container

 

4. 

Getting running pod sandboxes from \"unix:///var/run/dockershim.sock\

위 와 같은 로그가 떨어진 것을 확인 할 수 있을 것이다.

그랬을 때 해결 방법은 3가지 정도가 있다

728x90
1. aws-node 포드를 다시 시작합니다. 다시 시작하면 포드가 마운트 지점을 다시 매핑하는 데 도움이 될 수 있습니다.
2. 그래도 문제가 해결되지 않으면 노드를 코든(cordon)하고 노드 그룹에서 노드를 확장합니다.
3. Virtual Private Cloud(VPC) CNI를 지원되는 최신 버전의 클러스터로 업그레이드해 보세요.

 

해당 해결 방법으로 처리 해 보도록 한다.

관련하여 AWS의 CNI의 특정 버전으로 인해 발생되는 버그로 확인 된다.

본인 환경의 CNI 버전에 대해 확인 해보자

kubectl -n kube-system describe ds aws-node
728x90
300x250

+ Recent posts