에서 Google 클라우드 스토리지에 스파크 dataframe을 저장할 수 없습니다내가 선</p> <pre><code>df.write.format("com.databricks.spark.csv").save('gs://some-test-bucket-delete-me') </code></pre> <p>와 Google 저장 용량 버킷에 저장하기 위해 노력하고있어 스파크 dataframe을 가지고 있지만 Pyspark는 다음과 같은 예외가 발생 PySpark
Py4JJavaError: An error occurred while calling o55.save.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found
나는 무엇을 시도했다
:
일반적인 솔루션을이 예외가 있는지 확인하는 것입니다 환경 변수 0,123,은 gcs-connector-latest-hadoop2.jar
파일을 가리 킵니다. 나는 Hadoop version 1과 version 2 jars를 사용하려고 시도했다. Jupyter 노트북에서 명시 적으로 가리키며 시도했습니다.
sc._jsc.hadoopConfiguration().set("spark.driver.extraClassPath", "/home/****/hadoop-2.8.2/share/hadoop/common/lib/gcs-connector-latest-hadoop1.jar")
bash에서 hadoop fs -ls gs://gs://some-test-bucket-delete-me
을 시도하면 명령이 완벽하게 반환됩니다.이 명령은 Google Cloud Storage 연결이 작동하지만 PySpark에서이 기능을 사용할 수없는 것으로 나타납니다. 중요 할 수
것들 :
스파크 버전 2.2.0
파이썬 3.6.1 : 아나콘다 사용자 정의 (64 비트)
내가 로컬