2016-07-12 2 views
0

HDInsight Hadoop 클러스터의 다른 점 & HDInsight Spark 클러스터의 다른 점은 무엇입니까? 나는 Hadoop 클러스터에서도 pyspark를 사용할 수 있음을 보았다. 클러스터 유형과의 차이점은 무엇입니까? Hadoop 클러스터는 YARN을 클러스터 관리 레이어로, Spark는 Spark Standalone (또는 Mesos?)을 클러스터 관리 레이어로 암시합니까?HDInsight Hadoop 클러스터와 HDInsight Spark 클러스터의 차이점은 무엇입니까?

그렇다면 우리는 Hadoop 클러스터에서 Spark를 실행할 수 있습니다. Spark이 YARN 위에 실행될 것으로 믿습니다.

답변

0

비트는 사용자가 알아 차린 것과 같습니다. 차이점은 기본적으로 실행되는 서비스 및 Ambari 구성 요소의 집합입니다 (Spark에서 추가 spark thrift, livy, jupyter가 있음) 및 해당 서비스의 구성 집합입니다. 따라서 기술적으로 hadoop 클러스터에서 원사를 사용하여 스파크 작업을 실행할 수는 있지만 권장하지는 않습니다. 일부 구성은 최적 값으로 설정되지 않을 수 있습니다. 다른 방법은 더 안정적 일 것입니다 - 스파크 클러스터를 생성하고 거기에 hadoop 작업을 실행하십시오.

맥심 (HDInsight 점화 PM)

+0

감사합니다. 그러나 HDInsight Spark가 YARN을 클러스터 관리 레이어로 사용하지 않는다고 말하는 것입니까? 그렇지 않은 경우 어떤 것을 사용합니까? Mesos 또는 Spark Standalone? – Dhiraj

1

HDInsight 스파크는 하둡으로, 클러스터 관리 층으로 원사를 사용합니다. 클러스터의 바이너리는 같습니다.

HDInsight 스파크 하둡 클러스터

차이는 다음과 같다 :

1) 최적의 구성 : 스파크 클러스터 조정 및 스파크 부하에 대해 구성된다. 예를 들어, SSD를 사용하고 기계 리소스를 기반으로 실행 메모리 크기를 조정할 수 있도록 스파크 클러스터를 미리 구성 했으므로 고객은 스파크 기본 구성보다 더 나은 기본 경험을 갖게됩니다.

2) 서비스 설정 : 스파크 클러스터는 Livy, Jupyter 및 Spark Thrift Server를 포함한 스파크 관련 서비스도 실행합니다.

3) 작업 부하 품질 : 서비스 품질을 보장하기 위해 매 출시 전에 스파크 클러스터에서 스파크 작업 부하를 테스트합니다.