필자는 Spark, Hive, Impala와 같은 TPCH Benchmark를 수행하기 위해 4 노드 클러스터를 가지고 있으며 Cloudera를 탐색 중입니다. 내 클러스터 노드는 CPU 코어 4 개, RAM 8GB, 디스크 250GB로 적당합니다.CDH 설치 및 배포
웹 UI를 통해 제대로 CDH 5를 설치하려고합니다. 설치 프로그램에서 권장하는 기본 역할/도구 배포를 항상 유지하는 여러 도구를 설치하면됩니다. 설치가 끝나면 나는 항상 여러 가지 건강 문제와 경고로 끝납니다!
중요한 부분은 램과 관련이 있다고 생각하고 대부분의 경고는 힙 크기와 같은 노드 구성 요소의 메모리를 줄이기위한 설득입니다. 마녀는 경고 "메모리 임계 값 초과됨"의 유추를 유도합니다. 그 sugestions을 무시하거나 따르는 것이 더 좋은지 아십시오. 모든 나쁜 건강 경고, 비록 내가 sugested 및 하이브에 일부 쿼리를 수행하기 시작 내 데이터를로드 된 모든 변경 사항을 적용하지만 경우에 따라지도 작업을 줄일지도 몰라 때 그냥 막혔어요!
누구나 가능한 해결책이나 제안을 드릴 수 있습니까? 긴 게시물에 미리 감사드립니다.
8 * 4 = 32 GB의 메모리는 작업의 큰 구성표에서 실제로 작습니다 ... 특히 Spark의 경우 –
비 핵심 서비스를위한 LARGE 노드를 추가해야합니다 - Cloudera Manager, 모니터링 서비스, Hue , Oozie * (어리석은 이유로 색조가 필요함) * 등등 - 그리고 또한 Spark gateway, Spark 역사 서비스, YARN JobHistory, 등등 - 임팔라 카탈로그 등등 –
로드가 많은 경우 Hive Metastore 서비스에는 8GB RAM 만 있으면됩니다. HiveServer2와 동일합니다. 스트레스 테스트를 실제로하고 싶다면 임팔라 데몬과 동일합니다 (여전히 "작은 데이터"용). –