2014-11-11 2 views
0

제 질문은 스트래글러 문제와 관련되어 있습니다. 정렬 (sort)에서는 알고리즘이며 알고리즘의 복잡성을 알 수 있으며 일정한 데이터 집합에서 실행될 때 실행 시간을 계산할 수 있습니다.Hadoop에서 작업 실행 시간을 계산할 수없는 이유는 무엇입니까?

왜 우리는 Hadoop에서 작업 실행 시간을 얻을 수 없습니까?

작업 실행 시간 또는 작업 실행 시간을 얻을 수 있다면 어떤 작업이 스트래글러인지 알 필요없이 신속하게 작업을 알 수 있습니다.

답변

1

해당 작업을 실행하기 전에 작업에 소요되는 시간을 예측해서는 안됩니다. mapreduce 작업을 실행 한 후 소요 된 시간을 추정 할 수 있습니다. Mapreduce는 RAM 용량, CPU 코어 및 네트워크 대역폭과 같은 클러 스터 용량과 작업에 설정하는 리 듀서 수에 따라 다릅니다.

RAM 크기를 입력 나누기로 나눈 값으로 가정 할 수 있습니다.

+0

고맙습니다. 이제는 클러스터 용량 및 네트워크 대역폭과 같은 많은 요소에 의존하고 실행 중에 변경 될 수 있기 때문에 정확하게 시간을 계산할 수없는 이유를 알고 있습니다. – Flowra

2

작업 추적기 웹 UI에서 작업 실행 시간 또는 작업 실행 시간을 사용할 수 있습니다. 원하는 것을 원하면 좋습니다. 웹 UI는 작업 추적자의 50030 포트에서 사용할 수 있습니다. http : // : 8088

+0

작업을 실행하기 전에 작업 실행 시간을 사용할 수 있다면 언제 문제가 발생합니까? 또한 hadoop은 작업을 실행하기 전에 실행 시간을 어떻게 알 수 있습니까? – Flowra

+0

실시간 작업 실행 시간 만 사용할 수 있습니다. 작업을 실행 한 후에 시간이 표시됩니다. – kiran