2017-04-20 11 views
0

나는 hadoop을 모니터하기 위해 ganglia를 사용합니다. 나는 "dfs.datanode.HeartbeatsAvgTime"이라는 메트릭을 선택하여 데이터 노드 (호스트가 아니라 데이터 노드 서비스를 의미 함)가 다운 되었는지 여부를 판단합니다.ganglia : hadoop 데이터 노드를 멈춘 후에 ganglia remians의 그래프가

데이터 노드가 정상적으로 작동하면 "dfs.datanode.HeartbeatsAvgTime"이 변경된 채로 남아 있습니다. 즉, 그래프의 값이 뚜렷한 것입니다. graph that is varing

을하지만 난 데이터 노드 서비스를 중지 한 후, 그래프의 값은 변경되지 남아 :

그것은 다음과 같습니다.

그것은 다음과 같다 : enter image description here

두번째 그래프의 값이 값은 0 또는 무한대 아니다 unchanged.But 남아있다. 따라서 데이터 노드 서비스가 위 또는 아래라고 판단 할 수 없습니다.

다른 측정 항목을 처리 할 때도 마찬가지입니다.

"rrdtool fetch"로 메트릭 데이터를 저장하기 위해 ganglia에서 사용하는 rrd를 확인했습니다. 통계에 대한 값은 * .rrd 파일에 저장됩니다. 파일을 확인할 때 데이터 노드를 중지하면 측정 항목에 대한 값도 업데이트됩니다. 그러나 그 가치는 분명하지 않습니다.

rrd의 공식 웹 사이트에서 rrd에 대한 참고 자료를 읽었습니다. 그들은 rrd가 이전에 설정된 간격 사이에 업데이트 날짜를받지 못하면 rrd가 * .rrdfile에 UNKNOWN을 기록합니다.

문제를 제기하는 데는 두 가지 원인이있을 것이라고 생각합니다.

  1. gmetad가 메트릭을 수신하지 않은 경우. rrd를 이전 값으로 업데이트합니다. 그래프는 이전 값과 동일하게 유지됩니다.
  2. gmond가 메트릭을 수집 할 수 없을 때 gmetad에 이전 값을보고합니다.

그러나 나는 실제로 신경절의 github에있는 소스 코드에서 어떤 증거도 찾지 못했습니다.

그래프의 값이 변경되지 않은 문제를 해결하는 방법을 알고 있습니까? 또는 신경절과 함께 하프 클러스터를 모니터링하는 방법에 대한 다른 세부 정보를 알고 있습니까?

@DaveStephens @Lorin Hochstein 문제를 해결하기 위해 나의 투쟁, 내가 하둡이 분해 할 때 우리가 hadoop-metrics2.properties에서 메트릭의 DMAX을 설정하면, 신경절은 어떤 데이터를 수신하지 않을 것을 발견 한 후

+0

@ Lorin Hochstein – Doone

답변

0

UNKNOW를 반환합니다. ganglia 웹 사이트의 그래프가 사라집니다. ganglia + nagios, nagios도 UNKNOW 상태를 반환합니다. 그것은 충분히 있는지 여부를 판단하기에 충분합니다.

dmax는 dmax 시간이 지나면 hadoop이 메트릭을 파괴 함을 의미합니다.