예기치 않게 클러스터가 매일 재시작 중입니다.

최근에 Kubernetes Engine (GCP)에서 클러스터를 생성했으며 이상한 행동을 감지했습니다. 매일 특정 시간대에 노드가 자동으로 중지되고 다시 생성되기 때문에 응용 프로그램을 몇 분 동안 사용할 수 없게됩니다.예기치 않게 클러스터가 매일 재시작 중입니다.

사건은 스택 드라이버 대시 보드에 표시되는 방법 : 문제의 근본 원인을 이해하기 위해서는, 내가 참고로 일어난 사건을 복용, 스택 드라이버의 로그를 분석

오늘 (2017-12-1912:22 pm).

클러스터 로그 :

사건에 관련있는 가장 가까운 항목은 단지 오후 12시 26분에있다 (클러스터가 돌아 오는 것을 아마 순간).

노드 로그 :

인스턴스 로그는 너무 많은 도움이하지 않는 것 같습니다. 사건과 가장 가까운 기록은 12:23 pm에 표시됩니다 (인스턴스가 다시 시작된 후에도).

는 누구도하기 전에 이런 상황을 겪었 또는 우리가 더 잘 디버깅하고이 문제의 원인을 발견 할 수있는 방법에 대해 어떤 생각을 했습니까?

명백하게 사건의 원인은 스택 드라이버 로그에 표시되지 않았습니다.

설명 된 동작은 preemptible nodes in GKE의 동작 방식과 매우 비슷합니다 (최대 24 시간 지속).

당신이 당신의 노드가 선점 경우 확실하지 않은 경우

의 GCP의 웹 UI를 확인 (아래에있는 내 샘플 의 "선점 노드"라인을 확인) 또는 CLI를 통해 :

$ gcloud compute instances list | grep gke | awk '{print $4}'

경우 CLI 명령을 것입니다

$ gcloud compute instances list | grep gke | awk '{print $4}' 
true 
true 
true

참고 : 동일한 프로젝트에서 여러 GKE 클러스터가있는 경우, grep 명령은 GKE 클러스터 이름을 추가 한 후 "true"를 반환, 그 노드 (아래 참조) 선점 것을 의미한다.

2017-12-19 17:27:40 idvoretskyi

답변