2016-10-07 6 views
1

하늘색 방울 컨테이너에서 모든 파일을 불꽃 RDD로 읽어야합니다. 하늘빛 HDInsight를 사용 중입니다. 클러스터가 입력 디렉토리와 동일한 스토리지 계정에 구성되어 있습니다.하늘색 방울 보관 컨테이너를 불꽃 자바

이것을 달성하기위한 Java API/예제가 있습니까?

답변

0
그것은 일반 스파크 자바 예제와 유사합니다

, 그냥 "wasb : //"를 사용 : 자바 API에 대한

import org.apache.spark.sql.Dataset; 
import org.apache.spark.sql.Row; 
Dataset<Row> df = spark.read().json("wasb://[email protected]/people.json"); 

자세한 내용은 (스파크 웹 사이트에있는 블롭 저장 용기에 참조하는 파일 시스템을 Java 탭을 클릭하십시오.) https://spark.apache.org/docs/2.0.0/sql-programming-guide.html#creating-dataframes

0

@maxiluk는 질문에 완전히 대답하지 않았습니다. 그래서 좀 더 자세히 설명 할 것입니다. 그가 준 예제는 하나의 json 파일을로드합니다. 당신이 좋아하는 와일드 카드를 사용할 수있는 JSON 파일의 전체 디렉토리를로드하려면 (이 전체 컨테이너로드) :

import org.apache.spark.sql.Dataset; 
import org.apache.spark.sql.Row; 
Dataset<Row> df = spark.read().json("wasb://[email protected]/*"); 

하나 이상의 디렉토리를로드 할 경우, 전부는 아니지만, 당신은 쉼표로 구분을 전달할 수 있습니다 디렉토리의 그 목록은 : 당신이 사용하고 있으며이는 SqlContext 아니면 그냥 SparkContext이있는 경우, 당신은 또한 수있을 스파크 버전에 따라

Dataset<Row> df = spark.read().json("wasb://[email protected]/2016/10/01/*,wasb://[email protected]/2016/10/02/*"); 

(당신은이에 대한 자세한 내용은 Code을 확인하려는 경우) 경로의 Seq [String]을 전달하고 쉼표로 구분 된 목록은 전달하지 않습니다.