안녕하세요, 이제 클러스터에 액세스 할 수있는 첫 번째 스파크 응용 프로그램을 만들었습니다. 각 노드에 2 개의 프로세서가있는 Intel (R) Xeon (R) CPU E5-2650 2.00GHz , 각 프로세서마다 8 개의 코어가 있음), 응용 프로그램을 조정하고 성능을 관찰하는 데 도움이되는 기준이 무엇인지 알고 싶습니다.내 스파크 응용 프로그램을 평가할 수있는 방법
나는 이미 스파크의 공식 웹 사이트를 방문했으며 데이터 직렬화에 대해 이야기하고 있지만 정확히 무엇인지 또는 어떻게 지정해야하는지 알 수 없었다.
"메모리 관리", "평행도 수준"에 대해서도 이야기하고 있지만이를 제어하는 방법을 이해하지 못했습니다.
데이터 크기가 영향을 미친다는 것을 알고 있지만 파일 크기가 작은 모든 files.csv는 어떻게 파일을 큰 크기 (10GB, 20GB, 30GB, 50GB)로 가져올 수 있습니까? GB, 100GB, 300GB, 500GB)
나를 위해 잘 설명해보십시오. 클러스터 컴퓨팅이 나를 위해 새롭기 때문입니다.
우리는 왜 spark.serializer를 사용합니까? 이유는 무엇입니까? – hammad
쉘을 사용하여 spark-defaults.conf를 수정할 수 있습니까 (쉘을 통해서만 노드에 액세스 할 수 있기 때문에) – hammad
spark-defaults.conf 파일은 spark-1.6.0-bin-hadoop2.6 \ conf 디렉토리에 있습니다. 귀하의 요구 사항에 따라 수정할 수 있습니다. – Bhavesh