2016-07-07 6 views

답변

3

스파크 영구 저장소로 것은 아니다 (A 응용 프로그램 또는 작업 깨끗한 메모리가 후 스파크 때문에), 당신은 HDFS, ElasticSearch 또는이 또 다른 '스파크 호환'클러스터 스토리지를 사용할 수 있습니다.

Spark는 클러스터 저장소에서 데이터를 읽으며 일부는 random access memory RAM (임시 결과 캐싱)에서 작동하지만 로컬 하드 드라이브에 대한 결과가 너무 많아서 결과를 클러스터 저장소에 다시 기록합니다.

예 : Read from HDFS -> Spark ... RDD ... -> Store results in HDFS

당신은 하드 드라이브가 2 개이고 같은 느린 스토리지 (디스크, SSD) 및 RAM과 같은 빠른 휘발성 메모리를 구별해야합니다. Spark의 강점은 RAM (Random Access Memory)을 많이 사용하고 있습니다. 내가 이해 (Why) do we need to call cache or persist on a RDD

+0

을하지만, 데이터베이스 객체를 저장하는 데 적용되지 않습니다 ... 그래서 가장 좋은 방법은 디스크의 데이터와 다른 데이터베이스를 가지고 사용 HDFS 될 것입니다 :

당신은 caching을 사용할 수 있습니다, 임시 저장, 참조 Tachyon 또는 Redis와 같은 메모리에서 데이터 읽기를 시작할 때 속도를 높이고 객체 형식을 유지하지 않습니까? – TiGi

+0

HDFS는 Spark과 잘 어울리 며, HDFS -> Spark -> HDFS를 자주 사용합니다. Spark와 호환되는 것을 사용해야하고 데이터를 대량으로 가져올 수 있어야하지만, Spark 출력은 입력이 항상 필요하지는 않습니다. –