2017-03-12 8 views
0

필자는 Spark, Hive, Impala와 같은 TPCH Benchmark를 수행하기 위해 4 노드 클러스터를 가지고 있으며 Cloudera를 탐색 중입니다. 내 클러스터 노드는 CPU 코어 4 개, RAM 8GB, 디스크 250GB로 적당합니다.CDH 설치 및 배포

웹 UI를 통해 제대로 CDH 5를 설치하려고합니다. 설치 프로그램에서 권장하는 기본 역할/도구 배포를 항상 유지하는 여러 도구를 설치하면됩니다. 설치가 끝나면 나는 항상 여러 가지 건강 문제와 경고로 끝납니다!

중요한 부분은 램과 관련이 있다고 생각하고 대부분의 경고는 힙 크기와 같은 노드 구성 요소의 메모리를 줄이기위한 설득입니다. 마녀는 경고 "메모리 임계 값 초과됨"의 유추를 유도합니다. 그 sugestions을 무시하거나 따르는 것이 더 좋은지 아십시오. 모든 나쁜 건강 경고, 비록 내가 sugested 및 하이브에 일부 쿼리를 수행하기 시작 내 데이터를로드 된 모든 변경 사항을 적용하지만 경우에 따라지도 작업을 줄일지도 몰라 때 그냥 막혔어요!

누구나 가능한 해결책이나 제안을 드릴 수 있습니까? 긴 게시물에 미리 감사드립니다.

+0

8 * 4 = 32 GB의 메모리는 작업의 큰 구성표에서 실제로 작습니다 ... 특히 Spark의 경우 –

+0

비 핵심 서비스를위한 LARGE 노드를 추가해야합니다 - Cloudera Manager, 모니터링 서비스, Hue , Oozie * (어리석은 이유로 색조가 필요함) * 등등 - 그리고 또한 Spark gateway, Spark 역사 서비스, YARN JobHistory, 등등 - 임팔라 카탈로그 등등 –

+0

로드가 많은 경우 Hive Metastore 서비스에는 8GB RAM 만 있으면됩니다. HiveServer2와 동일합니다. 스트레스 테스트를 실제로하고 싶다면 임팔라 데몬과 동일합니다 (여전히 "작은 데이터"용). –

답변

0

대부분의 Java 응용 프로그램이 실제 힙 크기의 일부를 사용하기 때문에 일반적으로 메모리 과다 오류를 무시할 수 있습니다. 그러나 cricket_007과 Samson Scharfrichter는 설정이 매우 작다는 점을 지적했습니다.

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/은 권장

12 ~ 24 1-4TB 하드 디스크 JBOD의의 (디스크의 그냥 무리 : 여기

가 균형 하둡 클러스터의 데이터 노드/TaskTrackers의 권장 사양입니다) 구성 적어도 2-2.5GHz 64-512GB RAM을 실행하는 쿼드/16 진수/코어 코어 CPU 2 개 보세 기가비트 이더넷 또는 10 기가비트 이더넷 (밀도가 더 많으면 더 많은 네트워크 처리량이 필요함)

귀하의 직업이 고착되는 가장 큰 이유는 vcores가 부족하다는 것입니다. YARN 웹 UI를보고 사용 가능한 VC 수를 확인하십시오. 숫자가 낮 으면 (5 세 미만) 작업에 어떤 작업 부하를 실행하는 데 필요한 슬롯이 부족합니다. 클러스터의 경우 노드 당 3 개의 vcores를 허용하여 최소 12 개의 vcores를 제공 할 수 있습니다. Vcores는 CPU가 아니므로 vcores를 매퍼/감속기 작업 또는 응용 프로그램 마스터의 슬롯으로 생각해야합니다. vcore 당 적어도 512MB의 메모리가 필요합니다 (JVM을 고려해야합니다).

vcores 및 기본 설정에 대한 자세한 내용은 https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/을 참조하십시오.

기타 명백한 작업은 필요없는 서비스를 끄고 실제 작업량을 위해 메모리를 확보해야하는 작업에 대해 힙 크기를 줄이는 것입니다.