2014-04-28 3 views
2

내 스파크 작업에 대한 통합 뷰를 얻고 싶습니다.스파크 로그 통합

저는 RDD를 생성하는 시스템에서 log4j를 사용하고 있습니다. 배포되는 다양한 작업도 log4j를 사용하고 있습니다. 그러면 로컬 로그 파일로 끝난 다음 작업이 분산 된 각 노드에 파일을 로깅합니다.

이러한 모든 로그를 함께 가져올 수있는 방법이 내장되어 있습니까? 서버 컴퓨터와 각 노드를 모두보아야하는 것은 고통 스럽습니다.

나는 조금 주위 검토 한 결과, 가능한 두 가지 옵션을 것 같다 : JobLogger 같은

  1. 사용 무언가 (불꽃 리스너를 사용하여).

분산 로그를 다루는 모든 사람의 경험은 무엇입니까 수로 같은 소켓 펜더, 또는 무언가를 사용하십니까?

+0

[LogMX] (http://www.logmx.com)를 사용해 보셨습니까? 단일보기에서 여러 로그 파일을 병합하고 실시간으로 병합 된보기를 모니터링 할 수 있습니다 (SCP/FTP/SFTP/HTTP/... 지원) – xav

+0

그런 것을 사용할 수 있습니다. 무언가를 찾으십시오 가능한 경우 스파크 중심적이거나 스파크 세계에서 가장 일반적인 방법입니다. 는 바로 지금, 내가 응용 프로그램 작업 ID를 전달할 수있는 프로그램을 만들었하고 (ssh를 통해) 내 클러스터의 모든 노드로 이동하여 표준 출력을 복사 및 stderr 지역 ... – Greg

+0

이봐 그렉 파일 것, 한 당신은 당신의 문제에 대한 해결책을 찾았습니까? 나는 비슷한 요구 사항을 가지고 있으며, 어떤 통찰력이 도움이 될 것입니다. 감사. –

답변

0

정말로 이것을 원하면 일부 공유 디렉토리에 로그를 넣으려고해도 좋지만 좋은 해결책은 아닌 것 같습니다. 나는 왜 당신이 그런 기능을 필요로하는지 모르겠다 - 다른 executor로부터의 혼합 된 로그는 병렬로 그리고 다른 어플리케이션으로부터조차도 당신의 로그를 지저분하게 만들 수있다.

+0

저는 여러 명의 근로자에 ​​대해 하나의 직업을 운영하고 있습니다. 나는 (예를 들어, 하나의 로그 메시지는 한 노동자의 로그에있을 수 있습니다) 무슨 일이 있었는지에 대한 통합 뷰를 얻을 싶어요. – Greg