728x90
반응형

#1 Cluster Autoscaler 란?

Kubernetes에서 애플리케이션 수요에 맞추려면 워크로드를 실행하는 노드 수를 조정해야 할 수 있습니다. Kubernetes 사용의 가장 큰 장점 중 하나는 사용자 요구에 따라 인프라를 동적으로 확장할 수 있습니다.

(Cluster AutoScaler는 일반적으로 Cluster내 Deployment로 설치됩니다)

Cluster AutoScaler는 리소스 제약 조건으로 인해 예약할 수 없는 즉 Pending 상태의 Pod를 확인할 수 있습니다.

Cluster Autoscaler Process

문제가 발견되면 Pod 수요에 맞게 Worker Node 풀의 노드 수가 증가합니다. 또한 실행 중인 Pod가 부족한지 노드를 주기적으로 확인하고 필요에 따라 노드 수가 감소하여 WorkerNode 수를 자동으로 조정하여 노드 수를 ScaleOut 하거나 ScaleIn을 통해 효율적으로 비용 효과적인 인프라를 구성할 수 있습니다.

여러 종류의 ASG & Auto Scaling Policy

목적에 따라 다양한 ASG를 설정하고 다른 ASG Policy를 적용할 수 있습니다.

기존 Spot Instance는 On-demand 대비 80% 이상 할인률이 적용되었지만 중간에 허가 없이 종료 되지만, EKS의 Spot Interrupt Handler(DaemonSet)에 의해 정상적으로 실행 중인 Pod를 재배치 할 수 있습니다.

# Node 리소스 부족으로 Pod를 예약할 수 없는 경우

Cluster Autoscaler는 클러스터가 확장되어야 한다고 결정합니다. 확장기 인터페이스를 사용하면 다양한 포드 배치 전략을 적용할 수 있습니다. 현재 다음 전략이 지원됩니다.

  • Random – 사용 가능한 노드 그룹을 무작위로 선택합니다.
  • Most Pods – 가장 많은 노드를 예약할 수 있는 그룹을 선택합니다. 이것은 노드 그룹 간에 부하를 분산하는 데 사용할 수 있습니다.
  • Least-waste – cpu, memory가 가장 적게 남는 node group을 선택
  • price – cost가 가장 적은 node group을 선택
  • priority - 우선순위가 높은 node group을 선택

#CA는 다음 옵션에서 노드를 제거불가

  • 제한적인 PDB가 있는 포드.
  • 배포된(즉, 기본적으로 노드에서 실행되지 않거나 PDB가 없는) kube-system 네임스페이스에서 실행되는 파드.
  • 컨트롤러 객체가 지원하지 않는 포드(배포, 복제본 세트, 작업, 상태 저장 세트 등에 의해 생성되지 않음).
  • 로컬 스토리지와 함께 실행되는 포드.
  • 다양한 제약(리소스 부족, 일치하지 않는 노드 선택기 또는 선호도, 일치하는 반선호도 등)으로 인해 다른 곳으로 이동할 수 없는 실행 중인 포드.

#2 Cluster Autoscaler 설치

전제 조건

Cluster Autoscaler를 배포하려면 먼저 다음 사전 조건을 충족해야 합니다.

  • 기존 Amazon EKS 클러스터
  • 클러스터에 대한 기존 IAM OIDC 공급자입니다. 하나가 있는지 또는 생성해야 하는지 여부를 확인하려면 클러스터에 대한 IAM OIDC 공급자 생성 섹션을 참조하세요.
  • Auto Scaling 그룹 태그가 있는 노드 그룹 Cluster Autoscaler에서는 Auto Scaling 그룹에 다음과 같은 태그가 있어야 자동 검색됩니다.
    • eksctl을 사용하여 노드 그룹을 생성한 경우 이 태그는 자동으로 적용됩니다.
    • eksctl을 사용하지 않았다면 다음 태그로 Auto Scaling 그룹에 수동으로 태그를 지정해야 합니다. 자세한 내용은 Linux 인스턴스용 Amazon EC2 사용 설명서에서 Amazon EC2 리소스 태깅을 참조하세요.
    • k8s.io/cluster-autoscaler/<cluster-name> :  owned
      k8s.io/cluster-autoscaler/enabled  : TRUE

IAM 정책 및 역할 생성

  1. IAM 정책을 생성합니다.
  • 다음 콘텐츠를 cluster-autoscaler-policy.json이라는 파일에 저장합니다. 기존 노드 그룹이 eksctl을 사용하여 생성되었고 -asg-access 옵션을 사용했다면 이 정책이 이미 존재하며 2단계로 건너뛸 수 있습니다.
{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "autoscaling:DescribeAutoScalingGroups",
                "autoscaling:DescribeAutoScalingInstances",
                "autoscaling:DescribeLaunchConfigurations",
                "autoscaling:DescribeTags",
                "autoscaling:SetDesiredCapacity",
                "autoscaling:TerminateInstanceInAutoScalingGroup",
                "ec2:DescribeLaunchTemplateVersions"
            ],
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}

다음 명령을 사용하여 정책을 생성합니다. policy-name의 값을 변경할 수 있습니다.

aws iam create-policy \
    --policy-name AmazonEKSClusterAutoscalerPolicy \
    --policy-document file://cluster-autoscaler-policy.json
  1. iamserviceaccount 생성

eksctl을 사용하여 Amazon EKS 클러스터를 생성한 경우 다음 명령을 실행합니다. -asg-access 옵션을 사용하여 노드 그룹을 생성한 경우 <AmazonEKSClusterAutoscalerPolicy>eksctl이 생성한 IAM 정책의 이름으로 바꿉니다. 정책 이름은 eksctl-<cluster-name>-nodegroup-ng-<xxxxxxxx>-PolicyAutoScaling과 유사합니다.

eksctl create iamserviceaccount \
  --cluster=<my-cluster> \
  --namespace=kube-system \
  --name=cluster-autoscaler \
  --attach-policy-arn=arn:aws:iam::<AWS_ACCOUNT_ID>:policy/<AmazonEKSClusterAutoscalerPolicy> \
  --override-existing-serviceaccounts \
  --approve
  • asg-access 옵션을 사용하여 노드 그룹을 생성한 경우 eksctl이 생성하여 해당 eksctl이 노드 그룹에 대해 생성한 Amazon EKS 노드 IAM 역할에 연결한 IAM 정책을 분리합니다. Cluster Autoscaler가 제대로 작동하도록 노드 IAM 역할에서 정책을 분리합니다. 정책을 분리해도 노드의 다른 포드에는 정책의 권한이 부여되지 않습니다.
  1. 생성 확인

다음 명령어로 iamserviceaccount 의 생성을 확인하고,
AWS Management Console IAM Role ARN 을 확인합니다. (Cluster Autoscaler에서 사용)

kubectl get sa -n kube-system | grep -i cluster-autoscaler


Cluster Autoscaler 배포

  1. Cluster Autoscaler YAML 파일을 다운로드합니다.
  2. curl -o cluster-autoscaler-autodiscover.yaml https://raw.githubusercontent.com/kubernetes/autoscaler/master/cluster-autoscaler/cloudprovider/aws/examples/cluster-autoscaler-autodiscover.yaml
  3. YAML 파일을 수정하고 을 클러스터 이름으로 바꿉니다.

  1. YAML 파일을 클러스터에 적용합니다.
kubectl apply -f cluster-autoscaler-autodiscover.yaml
  1. 이전에 생성한 IAM 역할의 ARN을 사용하여 cluster-autoscaler 서비스 계정에 주석을 지정합니다. <example values>를 위에 생성한 역할의 ARN 값으로 바꿉니다.
kubectl annotate serviceaccount cluster-autoscaler \
  -n kube-system \
  eks.amazonaws.com/role-arn=arn:aws:iam::<ACCOUNT_ID>:role/<AmazonEKSClusterAutoscalerRole>

ServiceAccount - cluster-autoscaler Annotation 변경을 확인합니다.

$ kubectl describe sa -n kube-system cluster-autoscaler
========================================================
Name:                cluster-autoscaler
Namespace:           kube-system
Labels:              k8s-addon=cluster-autoscaler.addons.k8s.io
                     k8s-app=cluster-autoscaler
Annotations:         eks.amazonaws.com/role-arn: arn:aws:iam::279424994673:role/eksctl-EKS-Project-addon-iamserviceaccount-k-Role1-13DTLSGQPNNJB
Image pull secrets:  <none>
Mountable secrets:   cluster-autoscaler-token-6x8mg
Tokens:              cluster-autoscaler-token-6x8mg
Events:              <none>
  1. 다음 명령으로 배포를 패치하여 cluster-autoscaler.kubernetes.io/safe-to-evict 주석을 Cluster Autoscaler 포드에 추가합니다. CA가 자체 포드가 실행 중인 노드를 제거하는 것을 방지하기 위해 false로 설정합니다. 해당 주석의 값이 True인 경우 ClusterAutoscaler가 노드를 제거할 수 없습니다.
kubectl patch deployment cluster-autoscaler \
  -n kube-system \
  -p '{"spec":{"template":{"metadata":{"annotations":{"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"}}}}}'

  1. 다음 명령을 사용하여 Cluster Autoscaler 배포를 편집합니다.
kubectl -n kube-system edit deployment.apps/cluster-autoscaler

추가할 Flag

  • balance-similar-node-groups
  • skip-nodes-with-system-pods=false
spec:
      containers:
      - command:
        - ./cluster-autoscaler
        - --v=4
        - --stderrthreshold=info
        - --cloud-provider=aws
        - --skip-nodes-with-local-storage=false
        - --expander=least-waste
        - --node-group-auto-discovery=asg:tag=k8s.io/cluster-autoscaler/enabled,k8s.io/cluster-autoscaler/<YOUR CLUSTER NAME>
        - --balance-similar-node-groups
        - --skip-nodes-with-system-pods=false

파일을 저장한 다음 종료하여 변경 사항을 적용합니다

  1. 웹 브라우저의 GitHub에서 Cluster Autoscaler [릴리스(releases)] 페이지를 열고 클러스터의 Kubernetes 메이저 및 마이너 버전과 일치하는 최신 Cluster Autoscaler 버전을 검색합니다. 예를 들어 클러스터의 Kubernetes 버전이 1.21이라면 1.21로 시작하는 최신 Cluster Autoscaler 릴리스를 검색합니다. 다음 단계에서 사용할 수 있도록 이 릴리스의 의미 체계 버전(1.21.*n*)을 적어 둡니다.

(해당 부분 유의 Version에 따라 호환성)

  1. 다음 명령을 사용하여 Cluster Autoscaler 이미지 태그를 이전 단계에서 적어 둔 버전으로 설정합니다. 1.21.n을 사용자의 고유한 값으로 교체하고 확인합니다.
kubectl set image deployment cluster-autoscaler \
  -n kube-system \
  cluster-autoscaler=k8s.gcr.io/autoscaling/cluster-autoscaler:v1.21.2

#3 동작 검증

테스트용 Nginx Deployment 생성

cat <<EOF | kubectl apply -f -
apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx
  labels:
    app: nginx
spec:
  replicas: 5
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx
        ports:
        - containerPort: 80
        resources:
          requests:
            cpu: 1
            memory: 1Gi
          limits:
            cpu: 2
            memory: 2Gi
EOF

주목하여야 할 부분은 spec.spec.containers.resource 부분이다.

resources:
requests:
cpu: 1
memory: 1Gi
limits:
cpu: 2
memory: 2Gi

리소스의 요청이 노드의 자원을 초과하므로 ClusterAutocaler는 AWS ASG를 통해 노드를 추가합니다.

Untitled

노드가 추가된 후 Pod의 Pending 상태가 Running으로 변경됩니다.

Untitled

# 4 참고문서

Cluster Autoscaler 배포를 최적화하기 위한 고려 사항

Cluster Autoscaler 공식 가이드

Cluster Autoscaler 에 대한 이해

728x90
300x250
728x90
반응형

AWS LoadBalancer Controller

#1. AWS LoadBalancer Controller 란?

AWS LoadBalancer Controller는 Kubernetes 클러스터의 Elastic Load Balancer(NLB or ALB)를 관리하는 데 Ingress.yaml 템플릿에 명시 된 Rule을 통해 LoadBalancer를 관리하는 컨트롤러 입니다.
(Application Load Balancer & Network Load Balancer를 모두 지원합니다)

Kubernetes Application은 외부 트래픽에 노출 되어야 하며, EKS Client는 ELB를 사용하여 태스크를 수행합니다.

Controller를 통해 External Access Allow

Controller를 통해 만들면 Ingress Annotation 값 확인하여, Controller가 LoadBalancer를 대신 만들어 주는 형태입니다.

이때 사용되는 인그레스(Ingress) 는 L7 영역의 요청을 처리합니다.

주로 클러스터 외부에서 쿠버네티스 내부로 접근할 때, 요청들을 어떻게 처리할지 정의해놓은 규칙이자 리소스 오브젝트입니다. 한마디로 외부의 요청이 내부로 접근하기 위한 관문의 역할을 하는 것이죠.

Ingress를 AWS Loadbalancer Controller를 통해 ALB로 선언

외부 요청에 대한 로드 밸런싱, TLS/SSL 인증서 처리, HTTP 경로에 대한 라우팅 등을 설정할 수 있습니다.

NLB는 LoadBalancer 유형의 Kubernetes 서비스에 대한 응답으로 생성되며, 초당 수백만 건의 요청으로 확장할 수 있는 고성능 트래픽 서비스를 제공합니다.

EC2 Loadbalancer 항목에서 추가 됨

AWS Loadbalancer Controller는 Kubernetes Ingress 객체에 대한 반응으로 Application Load Balancer를 자동으로 프로비저닝 합니다.

  • TIP과거 "AWS ALB Ingress Controller"로 알려졌으며 "AWS Load Balancer Controller"로 브랜드를 변경했습니다.

Application LoadBalancer 의 Traffic Mode Option

AWS Load Balancer Controller에서 지원하는 Traffic Mode는 Default Instance를 대상으로 Cluster 내 node를 ALB 대상으로 등록하는 방법은 ALB에 도달하는 트래픽은 NodePort로 Routing 된 다음 Pod로 프록시 하거나 IP기반으로 Pod를 IP대상으로 등록하는 방법이 있습니다.

ALB에 도달하는 트래픽은 Pod로 직접 Routing되며, 해당 트래픽 모드를 사용하기 위해 ‘ingress.yaml’파일에 Annotation을 사용하여 지정해야 합니다.

728x90

ALB가 생성되면서 각 Application 별 PATH 기반 트래픽 분기

쿠버네티스에서 서비스 타입 중, NodePort 혹은 LoadBalancer로도 외부로 노출할 수 있지만
인그레스 없이 서비스를 사용할 경우, 모든 서비스에게 라우팅 규칙 및 TLS/SSL 등의 상세한 옵션들을 적용해야합니다. 그래서 인그레스가 필요합니다.

Pod형태로 LoadBalancer Controller의 Running 상태

#2. 설치방법

1. Service Account 에 대한 IAM 역할 설정

  1. AWS Load Balancer 컨트롤러를 배포하기 전,
    클러스터에 대한 IAM OIDC(OpenID Connect identity Provider)를 생성합니다.
    쿠버네티스가 직접 관리하는 사용자 계정을 의미하는 service account에 IAM role을 연결하기 위해, 클러스터에 IAM OIDC provider가 존재해야 합니다.
eksctl utils associate-iam-oidc-provider \
    --region ${AWS_REGION} \
    --cluster CLUSTER-NAME \
    --approve

(참고) 생성한 IAM OIDC 자격 증명 공급자는 IAM 콘솔 Identity providers 메뉴 혹은 아래의 명령어를 통해 확인할 수 있습니다. 클러스터의 OIDC provider URL을 아래의 명령어들을 통해 확인합니다.

aws eks describe-cluster --name CLUSTER-NAME --query "cluster.identity.oidc.issuer" --output text

명령어 결과 나오는 값은 아래와 같은 형식을 가지고 있습니다

https://oidc.eks.ap-northeast-2.amazonaws.com/id/8A6E78112D7F1C4DC352B1B511DD13CF

위의 결과 값에서 /id/ 뒤에 있는 값을 복사한 후, 아래와 같이 명령어를 수행합니다.

aws iam list-open-id-connect-providers | grep 8A6E78112D7F1C4DC352B1B511DD13CF

결과 값이 출력되면 IAM OIDC identity provider가 클러스터에 생성이 된 것이고,
아무 값도 나타나지 않으면 생성 작업을 수행해야 합니다.


b. AWS 로드 밸런서 컨트롤러에 대한 IAM 정책 다운로드

curl -o iam-policy.json https://raw.githubusercontent.com/kubernetes-sigs/aws-load-balancer-controller/v2.3.1/docs/install/iam_policy.json

c. AWSLoadBalancerControllerIAMPolicy라는 IAM 정책 생성

aws iam create-policy \
    --policy-name AWSLoadBalancerControllerIAMPolicy \
    --policy-document file://iam-policy.json

반환된 정책 ARN을 기록해 둡니다.

d. AWS Load Balancer 컨트롤러에 대한 IAM 역할 및 ServiceAccount를 eksctl를 통해 생성하고
위 단계의 ARN을 붙여 넣습니다.

eksctl create iamserviceaccount \
--cluster=<cluster-name> \
--namespace=kube-system \
--name=aws-load-balancer-controller \
--attach-policy-arn=arn:aws:iam::<AWS_ACCOUNT_ID>:policy/AWSLoadBalancerControllerIAMPolicy \
--override-existing-serviceaccounts \
--region <region-code> \
--approve

또한, 아래의 명령어를 통해, service account가 생성된 것을 확인할 수 있습니다.

kubectl get sa aws-load-balancer-controller -n kube-system -o yaml

2-1 클러스터에 컨트롤러 추가 (helm 사용)

  1. helm에 EKS 차트 리포지토리 추가
helm repo add eks https://aws.github.io/eks-charts

b. helm upgrade 차트를 통해 업그레이드 한다면 TargetGroupBinding CRD를 설치합니다

kubectl apply -k "github.com/aws/eks-charts/stable/aws-load-balancer-controller//crds?ref=master"

c. 서비스 계정에 IAM 역할을 사용하는 helm 차트를 설치합니다.

helm install aws-load-balancer-controller eks/aws-load-balancer-controller -n kube-system --set clusterName=<cluster-name> --set serviceAccount.create=false --set serviceAccount.name=aws-load-balancer-controller

helm을 사용하여 load-balancer-controller를 생성할 경우, 기본값으로 Replicas: 2 desired 이며
두 개의 파드가 작동합니다.

2-2 클러스터에 컨트롤러 추가 (Yaml Manifest 사용)

(Fargate에서 컨트롤러를 실행하려면 cert-manager에 의존하지 않는 Helm 차트를 사용하세요.)

  1. 먼저, 인증서 구성을 웹훅에 삽입할 수 있도록 cert-manager를 설치합니다. Cert-manager는 쿠버네티스 클러스터내에서 TLS인증서를 자동으로 프로비저닝 및 관리하는 오픈 소스입니다.
kubectl apply --validate=false -f https://github.com/jetstack/cert-manager/releases/download/v1.5.3/cert-manager.yaml

b. Load balancer controller YAML 다운로드합니다.

wget https://github.com/kubernetes-sigs/aws-load-balancer-controller/releases/download/v2.3.1/v2_3_1_full.yaml

c. 텍스트 편집기를 통해 저장된 YAML 파일을 편집합니다.

Deployment.spec.args의 --cluster-name의 EKS클러스터 이름을 수정합니다.

apiVersion: apps/v1
kind: Deployment
. . .
name: aws-load-balancer-controller
namespace: kube-system
spec:
    . . .
    template:
        spec:
            containers:
                - args:
                    - --cluster-name=<INSERT_CLUSTER_NAME> # 생성한 클러스터 이름을 입력

d. 이전에 ServiceAccount를 생성하였으므로 해당 섹션을 전부 삭제합니다.
이렇게 하면 eksctl에서 생성한 iamserviceaccount가 유지됩니다.

apiVersion: v1
kind: ServiceAccount

e. YAML 파일 적용

kubectl apply -f v2_3_1_full.yaml

3. 검증

전제 조건

ALB에는 가용 영역에 걸쳐 최소 2개의 서브넷이 필요하고 NLB에는 1개의 서브넷이 필요합니다.


Subnet Auto Discovery

자동 검색이 작동하려면 서브넷에 적절하게 태그를 지정해야 합니다.
구성한 서브넷에 다음 태그를 포함해야 합니다.

공통 태그

  • kubernetes.io/cluster/$CLUSTER_NAME프라이빗 서브넷
  • $CLUSTER_NAME 지정한 클러스터 이름과 동일하게 입력합니다.
    AWS LoadBalancer Controller 버전 v2.1.1 이하에서는 퍼블릭 서브넷과 프라이빗 서브넷 모두 다음과 같이 클러스터 이름으로 태그를 지정해야 합니다.
  • kubernetes.io/role/internal-elb1퍼블릭 서브넷
  • 내부 로드 밸런서의 경우 1 또는 빈 태그 값 으로 설정해야 합니다 .
  • kubernetes.io/role/elb1
  • 인터넷 연결 로드 밸런서의 경우 1 또는 빈 태그 값 으로 설정해야 합니다 .

EKS-Project 이름의 클러스터에 대한 올바른 태그가 있는 퍼블릭 서브넷의 예는 다음과 같습니다.

Subnet Discovery에 대한 자세한 내용은 아래 링크에서 확인 하실 수 있습니다.

https://kubernetes-sigs.github.io/aws-load-balancer-controller/v2.3/deploy/subnet_discovery/


  1. 모든 echoserver 리소스(네임스페이스, 서비스, 배포) 배포
kubectl apply -f https://raw.githubusercontent.com/kubernetes-sigs/aws-load-balancer-controller/v2.0.0/docs/examples/echoservice/echoserver-namespace.yaml &&\
kubectl apply -f https://raw.githubusercontent.com/kubernetes-sigs/aws-load-balancer-controller/v2.0.0/docs/examples/echoservice/echoserver-service.yaml &&\
kubectl apply -f https://raw.githubusercontent.com/kubernetes-sigs/aws-load-balancer-controller/v2.0.0/docs/examples/echoservice/echoserver-deployment.yaml

각 yaml 파일의 내용은 다음과 같습니다.

echoserver-namespace.yaml
---
apiVersion: v1
kind: Namespace
metadata:
  name: echoserver

---
echoserver-service.yaml
apiVersion: v1
kind: Service
metadata:
  name: echoserver
  namespace: echoserver
spec:
  ports:
    - port: 80
      targetPort: 8080
      protocol: TCP
  type: NodePort
  selector:
    app: echoserver

---
echoserver-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: echoserver
  namespace: echoserver
spec:
  selector:
    matchLabels:
      app: echoserver
  replicas: 1
  template:
    metadata:
      labels:
        app: echoserver
    spec:
      containers:
      - image: gcr.io/google_containers/echoserver:1.4
        imagePullPolicy: Always
        name: echoserver
        ports:
        - containerPort: 8080

b. echoserver Ingress 매니페스트를 로컬로 다운로드합니다.

wget https://raw.githubusercontent.com/kubernetes-sigs/aws-load-balancer-controller/v2.0.0/docs/examples/echoservice/echoserver-ingress.yaml

c. echoserver-ingress.yaml 분석

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
    name: echoserver
    namespace: echoserver
    annotations:
        alb.ingress.kubernetes.io/scheme: internet-facing # internal 시 내부 로드 밸런서
        alb.ingress.kubernetes.io/subnets: subnet-05e1c98ed0f5b109e,subnet-07f5bb81f661df61b 두 개 이상의 서브넷을 포함 하도록 Annotation을 편집합니다 .
        alb.ingress.kubernetes.io/tags: Environment=dev,Team=test # LoadBalancer - Target Group에 태그 추가
spec:
    rules:
    - host: echoserver.chnam.link  # 외부 DNS를 사용하려면 해당 필드를 Route 53에서 소유한 도메인으로 변경
        http:
        paths:

## 아래 부분은 경로 설정에 대한 예시입니다. 현재는 입력하지 않습니다.
          - path: /503
            backend:
              serviceName: response-503
              servicePort: use-annotation
          - path: /eks
            backend:
              serviceName: redirect-to-eks
              servicePort: use-annotation
          - path: /path1
            backend:
              serviceName: forward-single-tg
              servicePort: use-annotation
          - path: /path2
            backend:
              serviceName: forward-multiple-tg
              servicePort: use-annotation

ngress annotations에 대한 관련 정보는 아래에서 확인하실 수 있습니다.

https://kubernetes-sigs.github.io/aws-load-balancer-controller/v2.3/guide/ingress/annotations/

d. kubectl apply -f echoserver-ingress.yaml 명령어를 통해 Ingress 적용

e. Ingress Event 확인 kubectl describe ing -n echoserver echoserver

Name:             echoserver
Labels:           <none>
Namespace:        echoserver
Address:          k8s-echoserv-echoserv-d6f0e2ff88-151887753.ap-northeast-2.elb.amazonaws.com
Default backend:  default-http-backend:80 (<error: endpoints "default-http-backend" not found>)
Rules:
  Host                   Path  Backends
  ----                   ----  --------
  echoserver.chnam.link
                         /   echoserver:80 (10.0.1.218:8080)
Annotations:             alb.ingress.kubernetes.io/scheme: internet-facing
                         alb.ingress.kubernetes.io/subnets: subnet-060ac246c10fc60bb,subnet-088233ffcd75a6151
                         alb.ingress.kubernetes.io/tags: Environment=dev,Team=test
                         kubernetes.io/ingress.class: alb
Events:
  Type    Reason                  Age                From     Message
  ----    ------                  ----               ----     -------
  Normal  SuccessfullyReconciled  26m (x2 over 35m)  ingress  Successfully reconciled

f. 해당 호스트 도메인에 ingress 작동이 잘 수행되었는지 확인합니다.

검증 과정은 아래의 링크를 참조하였습니다.

https://kubernetes-sigs.github.io/aws-load-balancer-controller/v2.3/examples/echo_server/#deploy-ingress-for-echoserver

https://kubernetes-sigs.github.io/aws-load-balancer-controller/v2.3/examples/echo_server/#deploy-ingress-for-echoserver

AWS LoadBalancer Controller-Amazon EKS

NLB Target Group Binding 추가

728x90
300x250
728x90
반응형
카오스 엔지니어링은 특정 시스템에 대한 가설(hypothesis)을 만들고 부하(stress)를 주입한 후 결과를 관찰하는 엔지니어링의 한 분야입니다.
이후 관찰된 결과를 바탕으로 시스템의 성능을 향상시킵니다. 그렇기 때문에 이 과정은 아래 그림처럼 끊임 없이 순환됩니다.
계속해서 새로운 가설을 만들고 이를 통해 시스템을 발전시킵니다. 카오스 엔지니어링은 우리 시스템이 복원력(resilience) 있고 성능이 좋은 시스템을 구축할 수 있게 해줍니다.
728x90

1. Tool

1. 카오스 몽키 (for AWS)

-임의의 인스턴스나 Spring Boot에 장애를 일어킴
-카오스 몽키 종류
-Latency monkey: RESTful 클라이언트-서버 통신 계층에 인공적인 지연 유발
-Conformity monkey: 최상의 조건이 아닌 인스턴스를 찾아 종료 (:자동 스케이링 그룹에 속하지 않은 인스턴스를 찾아 재시작)
-Doctor monkey: 인스턴스들의 상태를 점검하고 CPU 부하율 등의 정보들을 모니터링하여 불안정한 인스턴스를 탐지하여 제거
-Janitoy monkey: 클라우드 환경이 잡음으나 낭비 없이 작동하도록 보장, 사용되지 않는 리소스들을 찾아 제거
-Security monkey:  Conformity monkey의 확장으로 보안에 위배되거나 최약점을 찾고 공격하는 인스턴스 종료
-10-18 monkey: 다양한 언어와 문자를 사용하여 여러 지역에서 고객에서 서비스를 제공할 경우 설정 및 런타임 문제 감지
-monkey: AWS의 가용성 영역을 전체적으로 중단

 

2. LitmusChaos 또는 Chaos Mesh (for Kubernetes)

-리트머스는 크게 위와 같이 구성됨
-Chaos Control Plane: 카오스 센터이며 중앙 집중식 카오스 관리 도구 (Workflow정의, 예약 및 시각화)
-Chaos Excution Plane: 카오스 에이전트와 정의된 대상 Kubernetes 환경내에서 실험을 실행 및 모니터링하는 오퍼레이터로 구성됨

3. Use Case

-Chaos Tests데브옵스 주기의 어느 단계에서나 수행 가능, CI 파이프라인부터 프로덕션까지 다양합니다.
-개발 파이프라인에서는 개발 중인 애플리케이션에 특정한 카오스 Tests를 사용할 수 있습니다.
-운영 또는 프로덕션으로 이동함에 따라 복원력을 확보해야 하는 많은 실패 시나리오가 예상되므로 카오스 테스트의 수가 크게 증가합니다.
-일반적인 사용 사례로는 CI 파이프라인에서의 장애 또는 스테이징 및 프로덕션과 운영 환경, Kubernetes 업그레이드 인증, 업그레이드 후 서비스 검증 등이 있습니다.
-개발자용: 단위 테스트 또는 통합 테스트의 확장으로 애플리케이션 개발 중에 카오스 수행
-SRE: 애플리케이션 및/또는 주변 인프라에 대한 카오스 실험을 계획하고 예약합니다. 이로써 시스템의 약점을 식별하고 복원력을 높입니다.

 

4. 이점
-일반적으로 개발자와 경영진 모두 카오스 도입에 대해 많은 거부감을 느낀다고 합니다.
-카오스 엔지니어링을 실행할 때는 소규모 Chaos Test로 시작하여 개발자와 경영진에게 이점을 보여주면 초기에 신뢰를 얻을 수 있습니다.
-시간이 지남에 따라 테스트 횟수와 관련 복원력도 증가할 것입니다.
-카오스 엔지니어링은 관행입니다.
-위에서 살펴본 바와 같이, 시간이 지남에 따라 SRE의 신뢰도와, IT 투자 기회도 높아지며 이 프로세스를 통해 복원력 지표도 향상됩니다.
728x90
300x250
728x90
반응형

Kubernetes는 복잡한 도구입니다. 대부분의 복잡한 도구의 경우와 마찬가지로 Kubernetes에서 최적의 성능을 얻는 것은 까다로울 수 있습니다. 대부분의 Kubernetes 배포는 성능을 최대화하기 위해 미세 조정되지 않습니다(그렇더라도 사용자 환경에 최적인 방식으로 조정되지 않을 가능성이 높습니다).

이러한 현실을 염두에 두고 Kubernetes 성능 최적화에 대한 팁을 계속 읽으십시오. 이제 막 클러스터 구축을 시작했거나 이미 프로덕션 환경을 실행하고 있는지 여부에 관계없이 Kubernetes 성능을 개선하기 위해 수행할 수 있는 간단한 작업에 중점을 둘 것입니다.

 

 

1새 작업자 노드를 생성하기 전에 기존 작업자 노드에 리소스 추가

아마도 Kubernetes 성능을 개선하는 가장 확실한 방법은 클러스터에 더 많은 작업자 노드를 추가하는 것입니다. 작업자가 많을수록 더 많은 리소스를 사용하여 워크로드를 강화할 수 있습니다. 또한 노드가 많을수록 많은 노드가 실패하여 워크로드가 실패할 가능성이 줄어들기 때문에 가용성이 향상됩니다.

그러나 작업자 노드를 최대한 활용하려는 경우 새 노드를 생성하는 대신 기존 작업자 노드에 메모리 및 CPU 리소스를 추가하여 더 많은 비용을 절감할 수 있습니다. 즉, 각각 8GB의 메모리가 있는 40개의 노드보다 각각 16GB의 메모리가 있는 20개의 노드를 갖는 것이 좋습니다.

이것은 두 가지 이유로 사실입니다. 첫째, 호스트 운영 체제로 인해 각 노드에 일정량의 오버헤드가 있습니다. 노드 수가 적다는 것은 그런 식으로 낭비되는 리소스가 적다는 것을 의미합니다. 둘째, 노드가 많을수록 스케줄러, kube-proxy 및 기타 구성 요소가 모든 것을 추적하기 위해 작동해야 합니다.

당연히 가용성을 고려해야 하며 가용성 목표를 충족하기 위한 최소한의 작업자 노드가 있는지 확인해야 합니다. 그러나 이 임계값을 넘으면 전체 노드 수를 최대화하려고 하기보다 각 노드에 할당된 리소스를 가능한 한 많이 할당하여 전반적인 성능 효율성을 높일 수 있습니다. 극단적으로 가지 마십시오(예를 들어 단일 노드에서 24테라바이트의 메모리를 원하지 않을 것입니다). 노드가 실패할 경우 해당 리소스를 잃을 위험이 있기 때문입니다.

물론 노드의 리소스 할당을 결정하는 데 많은 유연성이 있을 수도 있고 없을 수도 있습니다. 클라우드에서 실행되는 가상 머신인 경우 원하는 만큼 리소스를 할당할 수 있습니다. 온프레미스 가상 머신이나 물리적 서버라면 더 까다롭습니다.

728x90

2여러 마스터 노드 사용

Kubernetes 클러스터에서 여러 마스터를 사용하는 주된 이유는 고가용성을 달성하기 위해서입니다. 마스터가 많을수록 마스터가 모두 실패하여 클러스터가 중단될 가능성이 줄어듭니다.

그러나 더 많은 마스터를 추가하면 마스터에서 호스팅되는 필수 Kubernetes 구성 요소(예: 스케줄러, API 서버 및 기타)에 더 많은 호스팅 리소스를 제공하므로 성능 이점도 제공됩니다. Kubernetes는 모든 마스터 노드의 집합적 리소스를 사용하여 이러한 구성 요소를 구동합니다.

따라서 마스터(또는 2개 또는 4개)를 추가하는 것은 Kubernetes 클러스터의 성능을 향상시키는 쉽고 좋은 방법입니다.

3작업자 노드 점수 제한 설정

Kubernetes 스케줄러가 수행하는 작업의 일부는 작업자 노드를 "점수"하는 것입니다. 즉, 워크로드를 처리하는 데 적합한 작업자 노드를 결정합니다. 수십 개 이상의 작업자 노드가 있는 클러스터에서 스케줄러는 결국 모든 작업자 노드를 확인하는 데 시간을 낭비할 수 있습니다.

이러한 비효율성을 방지하기 위해 percentOfNodesToScore 매개변수를 100보다 낮은 백분율로 설정할 수 있습니다. 그러면 스케줄러는 지정한 노드의 백분율만 확인합니다.

4리소스 할당량 설정

특히 여러 팀이 공유하는 대규모 클러스터에서 Kubernetes 성능을 향상시키는 간단하지만 매우 효과적인 방법은 리소스 할당량을 설정하는 것입니다. 리소스 할당량은 지정된 네임스페이스에서 사용할 수 있는 CPU, 메모리 및 스토리지 리소스의 양에 대한 제한을 설정합니다.

따라서 클러스터를 네임스페이스로 나누고 각 팀에 다른 네임스페이스를 제공하고 각 네임스페이스에 대한 리소스 할당량을 설정하면 모든 워크로드가 리소스를 공평하게 공유하도록 하는 데 도움이 됩니다.

리소스 할당량은 그 자체로 성능 최적화가 아닙니다. 그들은 시끄러운 이웃 문제에 대한 해결책에 가깝습니다. 그러나 각 네임스페이스가 작업을 적절하게 수행하는 데 필요한 리소스를 가지고 있는지 확인하는 데 도움이 됩니다.

5제한 범위 설정

워크로드에서 사용하는 리소스를 제한하고 싶지만 해당 워크로드가 다른 워크로드와 동일한 네임스페이스에서 실행되는 경우에는 어떻게 해야 합니까? 이것이 한계 범위가 하는 일입니다.

리소스 할당량은 각 네임스페이스가 소비할 수 있는 리소스 수에 대한 제한을 설정하는 반면 제한 범위는 포드당 또는 컨테이너당 기준으로 동일한 작업을 수행합니다.

단순화를 위해 대부분의 경우 모범 사례는 네임스페이스 및 리소스 할당량을 사용하여 워크로드를 분할하는 것입니다. 그러나 이러한 접근 방식이 실용적이지 않은 경우 제한 범위를 사용하면 개별 포드 또는 컨테이너가 원하는 대로 수행하는 데 필요한 리소스를 갖도록 보장할 수 있습니다.

6엔드포인트 슬라이스 설정

엔드포인트 슬라이스는 서비스 및 포트 조합을 기반으로 네트워크 엔드포인트를 함께 그룹화할 수 있는 거의 논의되지 않은 Kubernetes 기능입니다. 설정되면 kube-proxy는 트래픽 라우팅 방법을 결정할 때 이를 참조합니다.

엔드포인트가 많은 환경에서 엔드포인트 슬라이스는 클러스터 내에서 트래픽을 라우팅하기 위해 kube-proxy가 수행해야 하는 작업량을 줄임으로써 성능을 향상시킬 수 있습니다.

7미니멀리스트 호스트 OS 사용

마지막으로 기본적이지만 효과적인 팁입니다. Kubernetes 클러스터를 호스팅하는 운영 체제가 가능한 한 최소인지 확인하십시오. Kubernetes를 실행하는 데 반드시 필요하지 않은 추가 구성 요소는 리소스 낭비로 이어져 클러스터의 성능을 저하시킵니다.

사용하는 Kubernetes 배포에 따라 호스트 OS를 선택할 수도 있고 그렇지 않을 수도 있습니다. 하지만 그렇다면 설치 공간이 최소인 Linux 배포판을 선택하십시오.

결론

Kubernetes는 많은 작업을 자동으로 수행하도록 설계되었습니다. 그러나 자체 성능 관리를 자동화하지는 않습니다. Kubernetes 전용 인프라에서 최고의 성능을 얻으려면 인프라를 설계하는 방법과 특정 Kubernetes 구성 요소를 구성하는 방법에 대해 현명해야 합니다.

728x90
300x250
728x90
반응형
  1. 에러 로그 확인kern 로그를 보면 위와 같이 하드웨어 에러가 떨어져 있다.
  2. [test] root@crp-san-xenserver07 /var/log 07:18 오전 root # tail -30 kern.log Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592903] {1}[Hardware Error]: It has been corrected by h/w and requires no further action Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592904] {1}[Hardware Error]: event severity: corrected Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592905] {1}[Hardware Error]: Error 0, type: corrected Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592906] {1}[Hardware Error]: fru_text: B1 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592907] {1}[Hardware Error]: section_type: memory error Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592907] {1}[Hardware Error]: error_status: 0x0000000000000400 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592908] {1}[Hardware Error]: physical_address: 0x0000002be8411480 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592910] {1}[Hardware Error]: node: 2 card: 0 module: 0 rank: 1 bank: 1 device: 4 row: 22160 column: 88 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592910] {1}[Hardware Error]: error_type: 2, single-bit ECC Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592911] {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592948] {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592948] {2}[Hardware Error]: It has been corrected by h/w and requires no further action Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592949] {2}[Hardware Error]: event severity: corrected Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592949] {2}[Hardware Error]: Error 0, type: corrected Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592950] {2}[Hardware Error]: section type: unknown, 330f1140-72a5-11df-9690-0002a5d5c51b Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592951] {2}[Hardware Error]: section length: 0x38 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592956] {2}[Hardware Error]: 00000000: 01010001 00000000 e8411000 0000002b ..........A.+... Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592962] {2}[Hardware Error]: 00000010: 00001000 00000000 e8411fff 0000002b ..........A.+... Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592966] {2}[Hardware Error]: 00000020: 00000080 00000000 00000000 00000000 ................ Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592968] {2}[Hardware Error]: 00000030: 00000000 00000000 ........ Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592975] mce: [Hardware Error]: Machine check events logged Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592998] EDAC skx MC2: HANDLING MCE MEMORY ERROR Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592999] EDAC skx MC2: CPU 0: Machine Check Event: 0 Bank 255: 940000000000009f Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593000] EDAC skx MC2: TSC 0 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593001] EDAC skx MC2: ADDR 2be8411480 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593002] EDAC skx MC2: MISC 0 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593002] EDAC skx MC2: PROCESSOR 0:50657 TIME 1666471643 SOCKET 0 APIC 0 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593010] EDAC MC2: 0 CE memory read error on CPU_SrcID#1_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x2be8411 offset:0x480 grain:32 syndrome:0x0 - err_code:0000:009f socket:1 imc:0 rank:1 bg:0 ba:1 row:5690 col:58) Oct 23 06:07:29 crp-san-xenserver07.test.co.kr kernel: [2909958.818467] UDP Refuse: IN=xenbr0 OUT= MAC=ff:ff:ff:ff:ff:ff:c6:c3:9a:b4:3a:26:08:00 SRC=0.0.0.0 DST=255.255.255.255 LEN=317 TOS=0x00 PREC=0xC0 TTL=64 ID=0 DF PROTO=UDP SPT=68 DPT=67 LEN=297 Oct 23 07:07:40 crp-san-xenserver07.test.co.kr kernel: [2913569.427245] UDP Refuse: IN=xenbr0 OUT= MAC=ff:ff:ff:ff:ff:ff:c6:c3:9a:b4:3a:26:08:00 SRC=0.0.0.0 DST=255.255.255.255 LEN=317 TOS=0x00 PREC=0xC0 TTL=64 ID=0 DF PROTO=UDP SPT=68 DPT=67 LEN=297
  3.  EDAC
    • 하드웨어 에러검출 및 정정을 지원하는 Linux Kernel Module 중 하나이다.
    • PCI 버스 전송에러 및 주변 장치 에러검출도 지원
    • MCE 관련 로그는 OS의 메모리 모니터링 기술 EDAC 기능에 의해 기록되는데 이 기술은 하드웨어의 메모리 모니터링 기술보다 정밀하지 못하다.간혹 실제 오류가 없음에도 OS의 EDAC의 민감한 엔진에 의해 오류로 기록되는 경우가 있다.
    • 메시지 발생 시 하드웨어 정보(iLO,IML)을 통해 중복 확인하여 이상이 없는 경우 해당 메시지는 무시하거나 OS의 MCE 감지 기능을 비활성화 하는 것이 좋다.
    •  
728x90

Types of errors

  • Correctable Error (CE) - the error detection mechanism detected and corrected the error. Such errors are usually not fatal, although some Kernel mechanisms allow the system administrator to consider them as fatal.
  • Uncorrected Error (UE) - the amount of errors happened above the error correction threshold, and the system was unable to auto-correct.
  • Fatal Error - when an UE error happens on a critical component of the system (for example, a piece of the Kernel got corrupted by an UE), the only reliable way to avoid data corruption is to hang or reboot the machine.
  • Non-fatal Error - when an UE error happens on an unused component, like a CPU in power down state or an unused memory bank, the system may still run, eventually replacing the affected hardware by a hot spare, if available.
  1. 해당 로그를 보면 ce memory read error로 나타난다.ce 이벤트는 수정가능한 오류이지만 자주 발생하거나 빈도가 잦으면 교체가 필요하다
  2. EDAC는 어떤 메모리 행 또는 채널이 참조하는지에 대한 정보를 제공하지 않으므로 아래와 같이 조사를 해서 조금 더 알아 볼수 있음

Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592998] EDAC skx MC2: HANDLING MCE MEMORY ERROR Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.592999] EDAC skx MC2: CPU 0: Machine Check Event: 0 Bank 255: 940000000000009f Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593000] EDAC skx MC2: TSC 0 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593001] EDAC skx MC2: ADDR 2be8411480 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593002] EDAC skx MC2: MISC 0 Oct 23 05:47:23 crp-san-xenserver07.test.co.kr kernel: [2908752.593002] EDAC skx MC2: PROCESSOR 0:50657 TIME 1666471643 SOCKET 0 APIC 0 # mc2에서 발생한 것을 위 커널로그로 확인 cd /sys/devices/system/edac/mc root # ls -ltr 합계 0 -rw-r--r-- 1 root root 4096 10월 23 07:22 uevent drwxr-xr-x 2 root root 0 10월 23 07:23 power drwxr-xr-x 7 root root 0 10월 23 07:23 mc2 drwxr-xr-x 7 root root 0 10월 23 07:23 mc0 lrwxrwxrwx 1 root root 0 10월 23 07:23 subsystem -> ../../../../bus/edac drwxr-xr-x 7 root root 0 10월 23 07:23 mc3 drwxr-xr-x 7 root root 0 10월 23 07:23 mc1 root # cd mc2 [test] root@crp-san-xenserver07 /sys/devices/system/edac/mc/mc2 07:45 오전 root # ls ce_count ce_noinfo_count dimm0 dimm1 dimm2 dimm3 max_location mc_name power reset_counters seconds_since_reset size_mb subsystem ue_count ue_noinfo_count uevent 해당 로케이션에서 ce_count나 dimm* 안에 ce_count가 있는 것을 확인 할 수 있다. [test] root@crp-san-xenserver07 /sys/devices/system/edac/mc 07:43 오전 root # cat mc*/dimm*/dimm_ce_count 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

추가적으로 lshw나 lspci, dmidecode로 추가적으로 살펴볼 수 있다.

  1. lshw *-memory description: System Memory physical id: 1000 slot: System board or motherboard size: 256GiB capacity: 7680GiB capabilities: ecc configuration: errordetection=multi-bit-ecc *-bank:0 description: DIMM DDR4 Synchronous Registered (Buffered) 2933 MHz (0.3 ns) product: HMA82GR7CJR8N-WM vendor: 00AD063200AD physical id: 0 serial: 127D8C2F slot: A1 size: 16GiB width: 64 bits clock: 2933MHz (0.3ns) *-bank:1 description: DIMM DDR4 Synchronous Registered (Buffered) 2933 MHz (0.3 ns) product: HMA82GR7CJR8N-WM vendor: 00AD063200AD physical id: 1 serial: 127D8C17 slot: A2 size: 16GiB width: 64 bits clock: 2933MHz (0.3ns) # bank 넘버나 slot에 대해서 확인 할 수 있음. # 로그에서는 bank:255 라고 나타났는데 lshw에서 255는 찾아볼 수 없었음 # EDAC skx MC2: HANDLING MCE MEMORY ERROR # EDAC skx MC2: CPU 0: Machine Check Event: 0 Bank 255: 940000000000009f
  2. 나중에 다른 형태로 발생한 로그에 대해서 해당 페이지를 이어서 업데이트 할 필요가 있음

 

728x90
300x250
728x90
반응형

SSL이 아닌 SMTP 메일 서버로 SSL 보안 연결을 제공하기 위해 stunnel을 사용할 수 있습니다. SMTP 서버는 25번 포트로 TCP 접속을 한다 가정하면, stunnel에 SSL 포트로 465로 설정하고 SSL이 아닌 포트를 25로 설정합니다.
즉 SMTPS를 사용하기 위해 사용하는 것이 Stunnel 이다.

 

https://docs.linuxconsulting.mn.it/notes/postfix-stunnel-smtps

/etc/init.d/stunnel

#!/bin/bash
#
# Init Script to run stunnel in daemon mode at boot time.
#
# Author: Riccardo Riva - RPM S.r.l.
# Revision 1.0  -  2010 November, 11
#
# Revision 1.1 - 2015 September, 21
#
#
# Changed definition of SEXE variable to find automatically the path of stunnel
#

#====================================================================
# Run level information:
#
# chkconfig: 2345 99 99
# description: Secure Tunnel
# processname: stunnel
#
# Run "/sbin/chkconfig --add stunnel" to add the Run levels.
# This will setup the symlinks and set the process to run at boot.
#====================================================================

#====================================================================
# Paths and variables and system checks.

# Source function library
. /etc/rc.d/init.d/functions

# Check that networking is up.
#
[ ${NETWORKING} ="yes" ] || exit 0

# Path to the executable.
#
SEXE=`which stunnel`

# Path to the configuration file.
#
CONF=/etc/stunnel/stunnel.conf

# Check the configuration file exists.
#
if [ ! -f $CONF ]
then
        echo "The configuration file cannot be found!"
        exit 0
fi

# Path to the lock file.
#
LOCK_FILE=/var/lock/subsys/stunnel

#====================================================================

# Run controls:

prog=$"stunnel"

RETVAL=0

# Start stunnel as daemon.
#
start() {
        if [ -f $LOCK_FILE ]
        then
                echo "stunnel is already running!"
                exit 0
        else
                echo -n $"Starting $prog: "
                $SEXE $CONF
        fi

        RETVAL=$?
        [ $RETVAL -eq 0 ] && success
        echo
        [ $RETVAL -eq 0 ] && touch $LOCK_FILE
        return $RETVAL
}

# Stop stunnel.
#
stop() {
        if [ ! -f $LOCK_FILE ]
        then
                echo "stunnel is not running!"
                exit 0

        else

                echo -n $"Shutting down $prog: "
                killproc stunnel
                RETVAL=$?
                [ $RETVAL -eq 0 ]
                rm -f $LOCK_FILE
                echo
                return $RETVAL

        fi
}

# See how we were called.
case "$1" in
        start)
                start
                ;;
        stop)
                stop
                ;;
        restart)
                stop
                start
                ;;
        condrestart)
                if [ -f $LOCK_FILE ]
                then
                        stop
                        start
                        RETVAL=$?
                fi
                ;;
        status)
                status stunnel
                RETVAL=$?
                ;;
        *)
                echo $"Usage: $0 {start|stop|restart|condrestart|status}"
                RETVAL=1
esac

exit $RETVAL

/etc/stunnel/stunnel.conf

output=/var/log/stunnel

[smtp-tls-wrapper]
accept=127.0.0.1:11125
client=yes
sslVersion=TLSv1.2
connect=gw.test.com:465

/etc/postfix/virtual

가장 아래에 추가

root  ldap@test.co.kr
728x90

/etc/postfix/main.tf

윗부분에 
mydomain = test.co.kr

smtp_use_tls = yes
smtp_sasl_auth_enable = yes
smtp_sasl_password_maps = hash:/etc/postfix/sasl_passwd
smtp_sasl_security_options = noanonymous

/etc/postfix/sasl_passwd

[gw.test.com]:11125 'mail_sender':'Wjdqh02)@'

위 설정 후 추가로 sasl_passwd.db로 암호화 되게끔 세팅

추가로 SASL 암호화 관련 링크

https://www.spinics.net/lists/cyrus-sasl/msg02896.html

https://blog.sys4.de/cyrus-sasl-ldapdb-man-page-en.html

728x90
300x250
728x90
반응형

개요

SSH를 막고 SSM 사용할 때 웹터미널로만 접속 해야하는데

이런 부분에 대해 Shell를 사용하여 SSM 명령어로 서버 접속하는 방법이다.

Local Profile을 읽어들어서 AssumeRole하여 ec2 서버를 선택 및 접근이 가능하다.

사전에 session-manager-plugin을 설치 해야함

 

 

#!/usr/bin/env bash
# bash -version 4버전 이후부터 실행 가능.

function select_option {

    # little helpers for terminal print control and key input
    ESC=$( printf "\033")
    cursor_blink_on()  { printf "$ESC[?25h"; }
    cursor_blink_off() { printf "$ESC[?25l"; }
    cursor_to()        { printf "$ESC[$1;${2:-1}H"; }
    print_option()     { printf "   $1 "; }
    print_selected()   { printf "> $ESC[7m $1 $ESC[27m"; }
    get_cursor_row()   { IFS=';' read -sdR -p $'\E[6n' ROW COL; echo ${ROW#*[}; }
    key_input()        { read -s -n3 key 2>/dev/null >&2
                         if [[ $key = $ESC[A ]]; then echo up;    fi
                         if [[ $key = $ESC[B ]]; then echo down;  fi
                         if [[ $key = ""     ]]; then echo enter; fi; }

    # initially print empty new lines (scroll down if at bottom of screen)
    for opt; do printf "\n"; done

    # determine current screen position for overwriting the options
    local lastrow=`get_cursor_row`
    local startrow=$(($lastrow - $#))

    # ensure cursor and input echoing back on upon a ctrl+c during read -s
    trap "cursor_blink_on; stty echo; printf '\n'; exit" 2
    cursor_blink_off

    local selected=0
    while true; do
        # print options by overwriting the last lines
        local idx=0
        for opt; do
            cursor_to $(($startrow + $idx))
            if [ $idx -eq $selected ]; then
                print_selected "$opt"
            else
                print_option "$opt"
            fi
            ((idx++))
        done

        # user key control
        case `key_input` in
            enter) break;;
            up)    ((selected--));
                   if [ $selected -lt 0 ]; then selected=$(($# - 1)); fi;;
            down)  ((selected++));
                   if [ $selected -ge $# ]; then selected=0; fi;;
        esac
    done

    # cursor position back to normal
    cursor_to $lastrow
    printf "\n"
    cursor_blink_on

    return $selected
}


IAM User Data 불러오기
참고로 query에서 나오는 순서는 알파벳 순이다(A-Z, a-z)
아래와 같이 나열한 순서로 나오지 않고, 혼란스러울 것 같아서 결과를 보고 순서를 맞춰나열한 것 뿐이다.
IAM_PROFILE : iam 사용자의 profile env에 IAM_PROFILE이 있다면 env에 세팅되어 있는 값을 사용하자. 없다면 default로 세팅

if [ "$IAM_PROFILE" = "" ]; then
    IAM_PROFILE="default"
fi
UserInfo=$(aws iam get-user \
--query "User.{
            Email:Tags[?Key=='Email']|[0].Value,
            Name:Tags[?Key=='Name']|[0].Value,
            Profile:Tags[?Key=='SsmProfile']|[0].Value,
            Role:Tags[?Key=='Role']|[0].Value,
            User:UserName
        }"  \
--profile ${IAM_PROFILE} --output text)

if [ -z "${UserInfo}" ]; then
    echo "IAM get-user Fail !!! Who are You ???"
fi

KEYWORD=$1
PROFILE=$2 # PROFILE은 받은 인자 값이 있다면 받은 걸로 지정

EMAIL=$(echo "${UserInfo}" | cut -f1)
NAME=$(echo "${UserInfo}" | cut -f2)

# $UserInfo | cut -f3 에 대한 처리
# 2번째 arg 에 값이 없다면 IAM User의 SsmProfile TAG Value 불러오기(Default Profile 이라고 보면 됨.)
if [ "$PROFILE" = "" ]; then
    PROFILE=$(echo "${UserInfo}" | cut -f3)
    # 해당 TAG가 없다면 PROFILE을 입력받도록 유도.
    if [ "$PROFILE" = "None" ]; then
        read -p 'Enter your profile: ' PROFILE
    fi
fi

ROLE=$(echo "${UserInfo}" | cut -f4)
USERNAME=$(echo "${UserInfo}" | cut -f5)

REGION="ap-northeast-2"

# Welcome Message
echo "Hello !! ${NAME}(${EMAIL})"
echo "Welcome to EC2 SSM !!!"
echo "Your IAM profile is ${IAM_PROFILE}"
echo "Your Role profile is ${PROFILE}."

# $1 KEYWORD 입력 받은게 없다면 입력받기
if [ "$KEYWORD" = "" ]; then
    read -p 'Enter ec2 name keyword: ' KEYWORD
fi

# mng-ssm m mng
# work-dev-ssm wd work-dev
# work-prd-ssm wp work-prd
# b2b-prd-ssm bp b2bp b2b-prd
# b2b-dev-ssm bd b2bd b2b-dev
# pts-ssm p pts
# b2c-prd-ssm cp b2cp b2c-prd
# b2c-dev-ssm cd b2cd b2c-dev
declare -A profile_alias
profile_alias["m"]="mng-ssm"
profile_alias["mng"]="mng-ssm"
profile_alias["mng-ssm"]="mng-ssm"
profile_alias["wd"]="work-dev-ssm"
profile_alias["work-dev"]="work-dev-ssm"
profile_alias["work-dev-ssm"]="work-dev-ssm"
profile_alias["wp"]="work-prd-ssm"
profile_alias["work-prd"]="work-prd-ssm"
profile_alias["work-prd-ssm"]="work-prd-ssm"
profile_alias["bp"]="b2b-prd-ssm"
profile_alias["b2bp"]="b2b-prd-ssm"
profile_alias["b2b-prd"]="b2b-prd-ssm"
profile_alias["b2b-prd-ssm"]="b2b-prd-ssm"
profile_alias["bd"]="b2b-dev-ssm"
profile_alias["b2bd"]="b2b-dev-ssm"
profile_alias["b2b-dev"]="b2b-dev-ssm"
profile_alias["b2b-dev-ssm"]="b2b-dev-ssm"
profile_alias["p"]="pts-ssm"
profile_alias["pts"]="pts-ssm"
profile_alias["pts-ssm"]="pts-ssm"
profile_alias["cp"]="b2c-prd-ssm"
profile_alias["b2cp"]="b2c-prd-ssm"
profile_alias["b2c-prd"]="b2c-prd-ssm"
profile_alias["b2c-prd-ssm"]="b2c-prd-ssm"
profile_alias["cd"]="b2c-dev-ssm"
profile_alias["b2cd"]="b2c-dev-ssm"
profile_alias["b2c-dev"]="b2c-dev-ssm"
profile_alias["b2c-dev-ssm"]="b2c-dev-ssm"

if [[ "${profile_alias[${PROFILE}]}" == "" ]]; then
    echo "This Profile is not Matching !!! (${PROFILE})"
    exit 0
fi

PROFILE=${profile_alias[${PROFILE}]}
echo "Your profile full name is ${PROFILE}"

# PROFILE Define
# profile       account         account-number
# mng-ssm       testCompany-mng      123123
# work-ssm-prd  testCompany-work     123123
# work-ssm-dev  testCompany-work     123123
# b2b-ssm-prd   testCompany-b2b      123123
# b2b-ssm-dev   testCompany-b2b      123123
# pts-ssm       testCompany-b2b      123123
# b2c-ssm-prd   testCompany-b2c      123123
# b2c-ssm-dev   testCompany-b2c-dev  123123
declare -A EC2_SSM_PROFILE_INFO
EC2_SSM_PROFILE_INFO["mng-ssm"]="testCompany-mng:123123"
EC2_SSM_PROFILE_INFO["work-prd-ssm"]="testCompany-work:123123"
EC2_SSM_PROFILE_INFO["work-dev-ssm"]="testCompany-work:123123"
EC2_SSM_PROFILE_INFO["b2b-prd-ssm"]="testCompany-b2b:123123"
EC2_SSM_PROFILE_INFO["b2b-dev-ssm"]="testCompany-b2b:123123"
EC2_SSM_PROFILE_INFO["pts-ssm"]="testCompany-b2b:123123"
EC2_SSM_PROFILE_INFO["b2c-prd-ssm"]="testCompany-b2c:123123"
EC2_SSM_PROFILE_INFO["b2c-dev-ssm"]="testCompany-b2c-dev:123123"

echo ${EC2_SSM_PROFILE_INFO[${PROFILE}]}
ACCOUNT=$(echo ${EC2_SSM_PROFILE_INFO[${PROFILE}]} | cut -f2 -d ":")

role name define : ec2-role-${PROFILE} -> IAM에 role이 존재해야한다.
session name define : ec2-session-${PROFILE} -> session name 임의값으로 지정해주는 것임. 각 프로파일마다 겹치지만 않게 하기 위함.

728x90


해당 프로파일 세션이 유효한지 체크
session name 을 구해와서 비교

session_check=$(aws sts get-caller-identity --profile ${PROFILE} --region ${REGION} --query "{User:UserId}" --output text | cut -f2 -d ":" )

# session 비어있으면 같지 않을 것이기에 같지 않으면으로 조건 걸었음.
if [ "$session_check" != "ec2-session-${PROFILE}" ]; then
    echo "Your session is Empty or Expire ($session_check)"

    while [ -z $OTPCODE ] || [ "${OTPCODE}" = "" ]; do
        read -p 'Enter your MFA code : ' OTPCODE
        if ! [[ ${#OTPCODE} = 6 && "${OTPCODE//[0-9]/}" == "" ]]; then
            echo "It's invalid code ($OTPCODE)"
            OTPCODE=""
        fi
    done

    # AssumeRole (역할 체인지)
    aws_configure=$(aws sts assume-role \
    --role-arn "arn:aws:iam::${ACCOUNT}:role/ec2-role-${PROFILE}" \
    --role-session-name "${USERNAME}-ec2-session-${PROFILE}" \
    --serial-number arn:aws:iam::032559872243:mfa/${USERNAME} \
    --query "Credentials.{
            AccessKeyId:AccessKeyId,
            SecretAccessKey:SecretAccessKey,
            SessionToken:SessionToken
        }" \
    --tags Key=Role,Value=${ROLE} \
    --transitive-tag-keys Role \
    --token-code ${OTPCODE} \
    --output text )

    if [ -z "${aws_configure}" ]; then
        echo "AssumeRole Fail!!!"
        exit 0
    fi

    aws_access_key_id_value=$(echo "${aws_configure}" | cut -f1)
    aws_secret_access_key_value=$(echo "${aws_configure}" | cut -f2)
    aws_session_token_value=$(echo "${aws_configure}" | cut -f3)

    aws configure set aws_access_key_id "${aws_access_key_id_value}" --profile ${PROFILE}
    aws configure set aws_secret_access_key "${aws_secret_access_key_value}" --profile ${PROFILE}
    aws configure set aws_session_token "${aws_session_token_value}" --profile ${PROFILE}
fi

echo "Select one option using up/down keys and enter to confirm:"

# 키워드(KEYWORD)가 1글자인 경우는 무시..
if [[ ${#KEYWORD} = 1 ]]; then
    KEYWORD=""
fi
# 키워드가 숫자 10으로 시작하는 경우 IP검색으로 조건 변경.
if [[ "$KEYWORD" == 10* ]]; then
    echo "If the keyword starts with 10, the condition is changed to an IP lookup."
    filter_condition="Name=private-ip-address,Values='${KEYWORD}*'"
else
    filter_condition="Name=tag:Name,Values='*${KEYWORD}*'"
fi

if [ "${PROFILE}" = "work-prd-ssm" ]; then
    runmode="Name=tag:RunMode,Values=PRD"
elif [ "${PROFILE}" = "work-dev-ssm" ]; then
    runmode="Name=tag:RunMode,Values=DEV"
fi

IFS=$'\n' options=($(aws ec2 describe-instances \
--profile ${PROFILE} \
--region "${REGION}" \
--query "Reservations[*].Instances[*].{aInstance:InstanceId,bState:State.Name,cIp:PrivateIpAddress,dName:Tags[?Key=='Name']|[0].Value}" \
--filters ${filter_condition} ${runmode} \
--output text))

if [ -z "${options}" ]; then
    echo "No Result !!!"
    exit 0
fi

select_option "${options[@]}"
choice=$?

echo "Choosen index = $choice"
echo "        value = ${options[$choice]}"
instance_id=$(echo ${options[$choice]} | cut -f1 )

echo "instance id: ${instance_id}"

aws ssm start-session  \
--profile ${PROFILE} \
--region ${REGION} \
--target ${instance_id}
728x90
300x250
728x90
반응형

개요

그룹웨어 DB인 Postgresql에서 User View Table에 임직원이 추가 되거나 부서 이동 하였을 경우

그룹웨어에 먼저 업데이트 되는데 이 데이터를 긁어와서 LDAP에도 자동으로 업데이트 되도록 List를 추출하는 작업이다

Python으로 임직원 목록을 불러오며, 외주직원은 제외하거나, 퇴사한 직원, 전체 부서 리스트 등을 추출 한다.

#-*- coding: euc-kr -*-
import boto3
import json
import psycopg2
import requests
import sys
import chardet

sys.stdout = open('/usr/share/openldap-servers/userList.json', 'w')

try:
    conn_string = "host='gw.testhub.com' dbname='tims' user='test' password='test2164!@' port='5432'"
    conn = psycopg2.connect(conn_string)
    cur = conn.cursor()
    #qry_origin = "select userid, status, username, mailaddr, deptname, updated_at from view_user where updated_at >= current_timestamp + '-240 minute' and deptcode not like 'E%' and order by updated_at desc"
    qry_origin = "select userid, status, username, mailaddr, deptname, updated_at from view_user where deptcode not like 'E%'"
    qry = u"select row_to_json(tmp) from ("+ qry_origin +") tmp;"
    cur.execute(qry)
    rownum = int(cur.rowcount)
    i=0
    while i < rownum:
        result = cur.fetchone()[0]
        print(json.dumps(result, ensure_ascii=False).encode('utf8'))
        i = i + 1
    cur.close()
    conn.close()
except psycopg2.DatabaseError as db_err:
    print('!!! not connected !!!', db_err)

sys.stdout.close()

sys.stdout = open('/usr/share/openldap-servers/userStopList.json', 'w')

try:
    conn_string = "host='gw.testhub.com' dbname='tims' user='test' password='test2164!@' port='5432'"
    conn = psycopg2.connect(conn_string)
    cur = conn.cursor()
    #qry_origin = "select userid, status, username, mailaddr, updated_at from view_user where updated_at >= current_timestamp + '-240 minute' and status='STOP'"
    qry_origin = "select userid, status, username, mailaddr, updated_at from view_user where status='STOP'"
    qry = u"select row_to_json(tmp) from ("+ qry_origin +") tmp;"
    cur.execute(qry)
    rownum = int(cur.rowcount)
    i=0
    while i < rownum:
        result = cur.fetchone()[0]
        print(json.dumps(result, ensure_ascii=False).encode('utf8'))
        i = i + 1
    cur.close()
    conn.close()
except psycopg2.DatabaseError as db_err:
    print('!!! not connected !!!', db_err)

sys.stdout.close()

sys.stdout = open('/usr/share/openldap-servers/gwTotalGroupList.lst', 'w')

try:
    conn_string = "host='gw.testhub.com' dbname='tims' user='test' password='test2164!@' port='5432'"
    conn = psycopg2.connect(conn_string)
    cur = conn.cursor()
    qry_origin = "select distinct deptcode, deptname from view_user where deptcode not like 'E%'"
    qry = u"select row_to_json(tmp) from ("+ qry_origin +") tmp;"
    cur.execute(qry)
    rownum = int(cur.rowcount)
    i=0
    while i < rownum:
        result = cur.fetchone()[0]
        print(json.dumps(result, ensure_ascii=False).encode('utf8'))
        i = i + 1
    cur.close()
    conn.close()
except psycopg2.DatabaseError as db_err:
    print('!!! not connected !!!', db_err)

sys.stdout.close()

Lambda로도 비슷하게 가능하다.

import boto3
import json
import psycopg2 #PostgreSQL 과 연결하려면 반드시 있어야 되는 드라이버 (람다에서는 레이어 붙이는걸로 처리 가능)
import requests

def lambda_handler(event, context):
    
    print('db connect')
    conn = psycopg2.connect(host='gw.testhub.com', dbname='tims', user='test', password='test2164!@', port='5432') #DB 접속 구문 
    print('db connect success!')
    cur = conn.cursor() #커서 생성 (쿼리 칠 때 필요함)
    print('start query')
    
    qry_origin = "select status, empno, username, mailaddr, deptcode, deptname, dutycode, positionname, dutyname, updated_at from view_user where updated_at >= current_timestamp + '-10 minute' and status like 'STOP' and dutyname is null order by updated_at desc"
    qry = "select row_to_json(tmp) from ("+ qry_origin +") tmp;" #쿼리문 (row_to_json으로 바로 JSON 형식으로 뽑아다줌)
    
    cur.execute(qry) #쿼리 실행
    rownum = int(cur.rowcount)  # DB 총 행 개수 구하기
    print(rownum)
    
    i=0
    while i < rownum: #쿼리 결과 값 나온 행 수 만큼 반복해서 
        result = cur.fetchone()[0] #cur.fetchone()로 한 행 결과값 묶어주기 (fetchall() 을 호출하면 전체 행 값이 나옴) ([0] 을 넣어줘야 대괄호나 괄호가 안생김)
        req_url = requests.post('https://intra.testhub.com:7075/RF_COUNT/minsu/insertUsr', json = result) #결과 값 URL 호출
        print(result)
        print(req_url)
        i = i + 1
   

    cur.close()
    conn.close()
728x90
300x250

+ Recent posts