2016-08-12 8 views
1

json 파일을 읽고 SQLContext를 사용하여 읽기에 스키마를 적용하려고하지만 null 허용 부분이 무시 된 것 같습니다.Pyspark는 Json 파일 읽기시 Nullability를 적용합니다.

sqlc = SQLContext(sc) 
df = sqlc.read.load("path/to/file", format="json", schema=schema) 

필드 이름과 데이터 유형을 보인다 :

StructType(List(StructField(some_field,StringType,false), StructField(some_other_field,StringType,false)) 

지금 다음, 나는 JSON 파일을 읽고 같은 그것에 해당 스키마를 적용하려면 : 는이 같은 스키마 뭔가를 아무리 내가 Null 허용을 위해 넣어 무엇을 잘하지만, 작동하지, 모든 열은 다음과 같은 사실 = 널 (NULL)이 있습니다

root 
|--some_field: string (nullable = true) 
|--some_other_field: string (nullable = true) 

어떻게 읽기에 내 열을 Null 허용을 적용 할 수 있습니까?

참고하시기 바랍니다. 나는 Python 2.7, pyspark 1.5.2를 사용하고있다.

답변

0

내가 발견 한 연구에 따르면, 이것은 Spark 2.0.0까지 해결되지 않은 Spark의 버그이다. 나는이 버그를 확인 할 수 스파크 2.0.0 이상을 사용하는 사람이 고정되면 사랑하지만, 그때까지, 여기에 문제 논의 아파치 락스의 티켓 것 :

https://issues.apache.org/jira/browse/SPARK-11319