0

Zeppelin-Sandbox 0.5.6Spark 1.6.1Amazon EMR으로 사용하고 있습니다. s3에있는 csv 파일을 읽습니다. 문제는 때때로 파일을 읽는 중 오류가 발생했습니다. 나는 그것이 작동 할 때까지 인터프리터를 여러 번 다시 시작해야한다. 내 코드가 변경되지 않습니다. 나는 그것을 복원 할 수 없으며 그것이 언제 일어나는지 알 수 없다.apache zeppelin이 CSP를 사용하여 CSP를 읽지 못하는 경우

정의 종속 관계 :

%dep 
z.reset() 
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven") 
z.load("com.databricks:spark-csv_2.10:1.4.0") 

spark-csv 사용 :

%pyspark 
import pyspark.sql.functions as func 

df = sqlc.read.format("com.databricks.spark.csv").option("header", "true").load("s3://some_location/some_csv.csv") 

오류 메시지 :

Py4JJavaError: An error occurred while calling o61.load. : 
org.apache.spark.SparkException: Job aborted due to stage failure: 
Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 
in stage 0.0 (TID 3, ip-172-22-2-187.ec2.internal): 
java.io.InvalidClassException: com.databricks.spark.csv.CsvRelation; 
local class incompatible: stream classdesc serialVersionUID = 
2004612352657595167, local class serialVersionUID = 
6879416841002809418 

... 

Caused by: java.io.InvalidClassException: 
com.databricks.spark.csv.CsvRelation; local class incompatible 

난 후에

내 코드는 다음과 같이 간다 dataframe으로 csv을 읽으면 나머지 코드는 정상적으로 작동합니다.

어떤 조언이 필요합니까?

감사합니다.

답변

0

당신은 이제 불꽃-CSV가 클래스 경로에있을 것입니다이

$ pyspark --packages com.databricks:spark-csv_2.10:1.2.0 

처럼에 스파크 CSV 패키지를 추가하는 불꽃을 실행해야