2016-08-16 6 views
0

플러그인에서 출력을 읽을 수없는 "nrpe"를 잡으려고하는데이 문제가 발생하면 전자 메일을 보내고 나는 조금 붙어 있습니다. :)발생했을 때 "출력을 읽을 수없는 Nrpe"를 잡는 방법?

리턴 코드 서비스 상태

0 OK

1 경고

2 CRITICAL

3 UNKNOWN

:이 오류는 다른 플러그인에 발생하면 것은 다른 리턴 코드가있다

내가 사용하는 모든 플러그인의 리턴 코드를 통합하는 방법이 있습니까? (이 프로 우 블이있을 때 항상 2 [중요]하게됩니다. m 발생), 또는 이러한 경고를 포착 할 수있는 다른 방법이 있습니까? 다른 상황에 대한 리턴 코드를 그대로 유지하고 싶습니다 (예 : 파일 시스템/홈은 98 %의 경고 (리턴 코드 1)이고 98 %의 긴급 (리턴 코드 2)입니다.

답변

0

대부분의 사람들은이 오류를 보내지 않을 것입니다. 경고 전자 메일은, 때문에 그것을 실제 실패한 검사를 나타내지 않는 기본적으로이보다 더 아무 의미 :.

  • 명령/플러그인 (로컬 또는 원격) NRPE에 의해 실행했지만,
  • 는 모든 가능한 상태를 반환하는 데 실패 및/또는 nrpe로 되돌아가는 텍스트

T 그의 가장 흔한 점은 명령/플러그인에 문제가 있음을 의미하며 수행해야 할 작업을 수행하지 못했습니다. 수표가 실제로 수행되지 않았을 때 알리미가 수표에 던져지는 것을 원하지 않습니다. 이는 오도 된 것일 수 있습니다. 또한 리턴 코드가 명령/플러그인에서오고 있지 않음을 알아 두는 것도 중요합니다.

제 경험상,이 오류의 가장 큰 원인은 잘못된 것입니다. 그리고 NPRE 상태에 대한 문서로서, 제대로 실행되는지 확인하기 위해 검사를 실행해야합니다 (모든 옵션 포함)! 자신에게 은혜를 베풀고 일하는 국가와 그렇지 않은 국가를 모두 테스트하십시오. 시간의 약 75 %는 OK 결과가있을 때만 제대로 작동하기 때문에 발생했으며 OK가 아닌 것을보고해야하는 경우에는 폭발합니다.

이러한 문제를 일으키는 또 다른 문제는 네트워크 결함입니다. NRPE는 수표를 연결하고 실행합니다. 응답이 나타나기 전에 연결이 닫힙니다. 다시 한번, 진정한 체크 결과는 아닙니다.

생산 Nagios 모니터링 시스템의 경우, 이는 매우 드문 오류입니다. 문제가 자주 발생하면 해결해야 할 다른 문제가있을 가능성이 큽니다.

내가 알 수있는 한, 모든 내장 Nagios 플러그인은 똑같은 리턴 코드 세트를 사용합니다. 이 '맞춤'수표가 아니라고 확신합니까?

+0

문제는 내가 Nagios 앱의 관리자이지만 문제를 디버깅하고 수표에 문제가 있는지 찾기 위해 수표가 설치된 모든 호스트에 액세스 할 수 없습니다. 특정 호스트에 대한 검사와 함께 설정 파일을 받고 nagios 서버에 업로드하고 있습니다. 그것이 내가 이러한 오류를 잡을 수있는 방법을 찾고있는 이유입니다. 그런 다음이 수표를 만드는 동안 다른 사람들이 잘못했음을 알릴 수 있습니다.꽤 큰 환경을 관리하고 있고 수천 가지 수표를 매일 수동으로 확인하고 싶지는 않습니다 :) – wiet

+0

구성 파일을 검사하기 전에 구성 파일을 검사하여 올바르게 작동하지 않는 부분을 제거합니다. 그것들을 추가 한 후에 같은 방법을 사용하십시오. status.dat 파일을 빠르게 검사하면 위에 나온 플러그인 결과와 일치하는 검사 목록이 표시됩니다. 자신이 소유하고 있지 않은 수표를 사용하지 못하게합니다. 또한 이러한 검사를 위해 전자 메일을 보내고 동시에 사용하지 않도록 설정하는 사용자 지정 이벤트 처리기를 만들 수도 있습니다. –

+0

이벤트 처리기는 찾고있는 텍스트가있는 $ SERVICEOUTPUT $ Nagios 매크로를 전달할 수 있습니다. 찾으려고하는 특정 메시지를 찾으려면 $ SERVICESTATE $ (OK, CRITICAL, ...) 대신이 값을 사용할 수 있습니다. –

0

좋아, 문제에 대한 해결책을 찾았습니다. 각 노드의 해당 오류에 대해 nagios.log를 확인하려고합니다.