1

필자는 '더 작은'데이터 세트로 일종의 큰 데이터 분석을 수행해야하는 내 Big Data 클래스에 대한 테스트를 실시했습니다. 나는 실제로 내 물건을 알아 냈어. 필자는 Ubuntu 16.04 소스에서 독립 실행 형 모드로 Hadoop 2.8.1 및 Spark 2.2.0 (PySpark를 사용하여 프로그램을 작성)을 설치했습니다. 나는 실제로 내 일을 행하기에 좋다.학습용으로 작은 Hadoop 클러스터를 구축하기위한 제안

내 친구들 중 일부는이 모든 구성에 어려움을 겪고 있으며 "내 동급생과 내 작은 클러스터를 만들지 않는 이유"라고 생각했습니다. 그래서 나는 제안을 찾고있다.

노트북에는 12GB RAM과 Intel Core i5가 있습니다.

+0

AWS, GCP 또는 Azure에서 공유 클러스터를 만들 수 있습니다 ... –

답변

0

정확하게 이해하면 친구가 독립 실행 형 모드로 스파크를 설정하는 데 문제가 있습니다. 클러스터를 사용하지 않으면 클러스터가 계산되지 않습니다. 나는 그들과 일할 수있는 클러스터를 설정하는 것이 그들이 직면하게 될 복잡성에서 벗어날 것이라고 생각하지 않는다. 아니면 클러스터를 설정하려고합니까? Spark의 독립형 모드는 실제로 많은 구성을 필요로하지 않기 때문에.

또 다른 접근법은 모두가 개별적으로 사용할 수있는 미리 구성된 VM을 사용하는 것입니다. 혼자서 준비하거나 다른 제공 업체의 샌드 박스가 있습니다 (예 : ClouderaHortonworks.

+0

예, 맞습니다. 뿐만 아니라 그들 중 일부는 연산 능력 제한 때문에 Cloudera 및 Hortonworks를 실행하는 데 문제가 있습니다. 또한이 테스트의 필수 요소 중 하나는 MapReduce 환경에서 데이터 분석을 수행해야한다는 것입니다. 솔직히, 그것은 아주 모호합니다. 그러나 우리 강사는 HDFS의 최상위에서 Spark를 실행하여 권장 사항을 제시했습니다. – Tata

+0

그런 경우, 작동중인 작은 클러스터가 있고 랩톱이 노드 imho를 실행할 수있을 정도로 강해야하는 경우, 구성을 IP/포트로 지정할 수 있습니다. – kutschkem

+0

랩톱이 노드를 실행할 정도로 강하다고 어떻게 알 수 있습니까? 가장 큰 데이터 세트에는 302k 행이 있습니다. 12 노드의 RAM과 i5 프로세서가있는 클러스터가 5 개 있다고 가정 해 보겠습니다. – Tata