내 작업에 얼마나 많은 MASTER, CORE, TASK 인스턴스가 최적인지 알아 내려고합니다. 어떻게 알아낼 수 있는지 설명하는 튜토리얼을 찾을 수 없었습니다.hadoop 인스턴스 유형 사이의 올바른 부분을 찾는 방법
2 개 이상의 코어 인스턴스가 필요한지 어떻게 알 수 있습니까? EMR의 콘솔에서 볼 수있는 "증상"은 무엇입니까? 지금까지 1 * core + 7 * 작업 인스턴스로 동일한 작업을 시도했을 때 8 * core와 거의 비슷하게 실행되었지만 나에게 의미가 없습니다. 또는 IO가 너무 작아서 제 작업이 CPU에 너무 많이 바인딩되어있을 가능성이 있습니까? (아파치 로그 파일을 CSV 파일로 구문 분석하는지도 전용 작업이 있음)
두 개 이상의 마스터 인스턴스가있는 것과 같은 것이 있습니까? 그렇다면 언제 필요합니까? 내 마스터 노드가 거의 95 %의 시간 동안 다른 노드가 작업 (0 % CPU)을 수행하기를 기다리고 있기 때문에 궁금하다.
마스터 노드와 코어 노드가 동일 할 수 있습니까? 1 및 유일한 노드가 모든 작업을 수행 할 때 마스터 전용 클러스터를 가질 수 있습니다. 마스터 노드와 코어 노드가 하나 인 클러스터를 가질 수있는 것이 논리적 인 것처럼 보이며 나머지는 태스크 노드이지만 EMR로는 그렇게 설정할 수없는 것처럼 보입니다. 왜 그런가요?
내가 아는 모든이.하지만 1 코어가 충분하고 모든 REST가 8 또는 64 또는 200이되도록 할 수 있는지를 어떻게 알 수 있습니까? 아니면 통과 할 경우 비율이 너무 커야합니다. "충분히"핵심 인스턴스가 없기 때문에 핵심 인스턴스의 IO (모든 작업 인스턴스가 이걸 이해하면 사용하는)가 병목이 될 것이므로 – Gavriel
오, 알 수 있습니다. 그것은 흥미로운 질문이지만, 나는 그것을 결코 염두에 두지 않은 것을 두려워합니다. 나는 더 많은 작업 노드를 추가하여 효율성이 떨어지는 작업을 본 적이 없다고 생각하지만 그저 내 직업 일 수 있습니다. EMR 콘솔에서 작업을 모니터링하고 장기 실행 작업에서 코어/작업 그룹의 크기를 조정하여 스스로 해결할 수 있습니다. –
네,하지만 제 질문은 정확히 이것입니다 : EMR 콘솔의 어떤 조치가 이것과 관련이 있습니까? 내가 한 유일한 일은 다른 구성으로 동일한 작업을 실행하고 소요 시간을 측정하는 것이지만 너무 정확하지는 않습니다. – Gavriel