2012-02-13 1 views
1

가상 분산 아키텍처를 사용하는 단일 시스템 만 사용하여 Hadoop의 확장 성 성능을 평가/시뮬레이션 할 수있는 도구, 패키지 또는 방법이 있습니까? 이러한 시스템은 시뮬레이션에서 서로 간섭하지 않는 작업 (예 : 블록화 된 I/O)을 기반으로 정확한 추정을해야합니다.가상 분산 노드에서 Hadoop 확장 성 성능 예측?

내 생각에 이것이 작동하는 방법은 모든 맵을 실행/작업을 순차적으로 줄이고 시스템이 얼마나 잘 조정되는지 추정하기 위해 일부 메트릭을 사용하는 것입니다 (예 : 가장 긴 실행지도 작업을 가져 와서 실행 시간은 병목 현상을 일으킬 것입니다.)

또한 출력을 구성하기 위해 함께 연결되는 여러 맵/축소 작업이 있습니다.

+0

확장 성 및 단일 시스템. 오류를 찾으십시오. –

+0

방금 ​​제목을 읽었는지 확실하지 않거나 명확하지 않은 경우 명확히 말하면 실제로 더 빠르게 실행될 것이라고 기대하지는 않습니다 (어리석은 소리를냅니다!). 문제가 얼마나 잘 해결되었는지 실험 해보십시오. 시뮬레이션이나 추정을 통해 하위 문제로 – Gate

답변

0

나는 직장의 성격에 크게 달려 있다고 생각합니다. 몇 가지 예를 들어 보겠습니다.
1. 작업의 입력 형식이 복잡하고 매퍼 처리가 필요하며 최소한의 데이터 만 축소기에 전달됩니다. 이 경우 가상 분산 클러스터는 실제 클러스터 성능 (슬롯 당)을 반영 할 것이며, 5 노드 클러스터는 약 x5 성능을 가질 것이라고 추정 할 수 있습니다. 작업 시간이 작업 시작 시간의 최소 5-10 배가 소요될 것이라는 충분한 데이터를 제공 할 것을 제안합니다. 처리 중에 데이터 지역성을 보장 할만큼 스플릿이 충분한 경우이 추정치가 더 좋습니다.
상대적으로 작은 파일을 많이 사용하려는 경우 - 테스트에 충분히 넣어서 작업 당 오버 헤드를 시뮬레이션하십시오. 2. Hadoop 분산 정렬 기능을 많이 중계합니다 (셔플). 하나의 노드와 실제 클러스터에서 성능이 상당히 다를 수 있으며 요인을 예측하기 어렵습니다.
위와 같이 추측 할 수있는 슬롯 당 MB/초의 관점에서 매퍼의 처리량과 어느 정도는 감속기를 요약 할 수 있습니다. 실제 클러스터는 슬롯 당 성능이 좋지 않을 것입니다.