하늘색 방울 컨테이너에서 모든 파일을 불꽃 RDD로 읽어야합니다. 하늘빛 HDInsight를 사용 중입니다. 클러스터가 입력 디렉토리와 동일한 스토리지 계정에 구성되어 있습니다.하늘색 방울 보관 컨테이너를 불꽃 자바
이것을 달성하기위한 Java API/예제가 있습니까?
하늘색 방울 컨테이너에서 모든 파일을 불꽃 RDD로 읽어야합니다. 하늘빛 HDInsight를 사용 중입니다. 클러스터가 입력 디렉토리와 동일한 스토리지 계정에 구성되어 있습니다.하늘색 방울 보관 컨테이너를 불꽃 자바
이것을 달성하기위한 Java API/예제가 있습니까?
, 그냥 "wasb : //"를 사용 : 자바 API에 대한
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
Dataset<Row> df = spark.read().json("wasb://[email protected]/people.json");
자세한 내용은 (스파크 웹 사이트에있는 블롭 저장 용기에 참조하는 파일 시스템을 Java 탭을 클릭하십시오.) https://spark.apache.org/docs/2.0.0/sql-programming-guide.html#creating-dataframes
@maxiluk는 질문에 완전히 대답하지 않았습니다. 그래서 좀 더 자세히 설명 할 것입니다. 그가 준 예제는 하나의 json 파일을로드합니다. 당신이 좋아하는 와일드 카드를 사용할 수있는 JSON 파일의 전체 디렉토리를로드하려면 (이 전체 컨테이너로드) :
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
Dataset<Row> df = spark.read().json("wasb://[email protected]/*");
하나 이상의 디렉토리를로드 할 경우, 전부는 아니지만, 당신은 쉼표로 구분을 전달할 수 있습니다 디렉토리의 그 목록은 : 당신이 사용하고 있으며이는 SqlContext 아니면 그냥 SparkContext이있는 경우, 당신은 또한 수있을 스파크 버전에 따라
Dataset<Row> df = spark.read().json("wasb://[email protected]/2016/10/01/*,wasb://[email protected]/2016/10/02/*");
(당신은이에 대한 자세한 내용은 Code을 확인하려는 경우) 경로의 Seq [String]을 전달하고 쉼표로 구분 된 목록은 전달하지 않습니다.