2017-12-18 20 views
1

나는 Microsoft Azure에서 PySpark HDInsight 클러스터를 사용하여 기계 학습 프로젝트를하려고합니다. 내 클러스터에서 작동하려면 Jupyter 노트북을 사용하십시오. 또한 Azure BLOB 저장소에 저장된 데이터 (CSV 파일)가 있습니다.PySpark와 푸른 하늘 방울 저장소에서 CSV 파일을 읽는

문서에 따르면 내 파일에 대한 경로의 구문은 다음과 같습니다

path = 'wasb[s]://[email protected]/movies_plus_genre_info_2.csv' 

그러나, 나는 다음과 같은 명령을 사용하여 csv 파일 읽을 때 :

csvFile = spark.read.csv(path, header=True, inferSchema=True) 

내가 얻을를 다음 오류 :

'java.net.URISyntaxException: Illegal character in scheme name at index 4: wasb[s]://[email protected]/movies_plus_genre_info_2.csv' 

다음은 오류의 스크린 샷입니다. 확인 : error screenshot

해결 방법에 대한 아이디어가 있으십니까?

+0

그것은이 중 wasb : // 또는 wasbs : //. wasbs는 wasb의 보안 버전입니다 – Jaco

답변

1

그것은 하나 (암호화되지 않은)입니다 :

wasb://... 

또는 (암호화) :

wasbs://... 

하지

wasb[s]://... 
+0

정말 고마워요! 문제가 해결되었습니다! –