내가 선</p> <pre><code>df.write.format("com.databricks.spark.csv").save('gs://some-test-bucket-delete-me') </code></pre> <p>와 Google 저장 용량 버킷에 저장하기 위해 노력하고있어 스파크 dataframe을 가지고 있지만 Pyspark는 다음과 같은 예외가 발생 PySpark

에서 Google 클라우드 스토리지에 스파크 dataframe을 저장할 수 없습니다내가 선</p> <pre><code>df.write.format("com.databricks.spark.csv").save('gs://some-test-bucket-delete-me') </code></pre> <p>와 Google 저장 용량 버킷에 저장하기 위해 노력하고있어 스파크 dataframe을 가지고 있지만 Pyspark는 다음과 같은 예외가 발생 PySpark

Py4JJavaError: An error occurred while calling o55.save. 
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found

나는 무엇을 시도했다

일반적인 솔루션을이 예외가 있는지 확인하는 것입니다 환경 변수 0,123,은 gcs-connector-latest-hadoop2.jar 파일을 가리 킵니다. 나는 Hadoop version 1과 version 2 jars를 사용하려고 시도했다. Jupyter 노트북에서 명시 적으로 가리키며 시도했습니다.

sc._jsc.hadoopConfiguration().set("spark.driver.extraClassPath", "/home/****/hadoop-2.8.2/share/hadoop/common/lib/gcs-connector-latest-hadoop1.jar")

bash에서 hadoop fs -ls gs://gs://some-test-bucket-delete-me을 시도하면 명령이 완벽하게 반환됩니다.이 명령은 Google Cloud Storage 연결이 작동하지만 PySpark에서이 기능을 사용할 수없는 것으로 나타납니다. 중요 할 수

것들 :

스파크 버전 2.2.0

파이썬 3.6.1 : 아나콘다 사용자 정의 (64 비트)

내가 로컬

출처

2017-11-20 Jon.H

PySpark을 실행하는거야 gcloud init을 먼저 실행해야합니다.

출처

2017-12-06 15:19:15 Lejla

내가 선</p> <pre><code>df.write.format("com.databricks.spark.csv").save('gs://some-test-bucket-delete-me') </code></pre> <p>와 Google 저장 용량 버킷에 저장하기 위해 노력하고있어 스파크 dataframe을 가지고 있지만 Pyspark는 다음과 같은 예외가 발생 PySpark

답변

관련 문제