2017-11-07 4 views
0

나는 cosmosdb 콜렉션을 스파크 데이터 프레임으로 가져 오기 위해 하늘색 cosmosdb를 시작했습니다. 아쉽게도 기본 select * from coll 쿼리를 사용하면 중첩 된 구조를 문자열로 평평하게 만듭니다. cosmosdb의 중첩 스키마를 spark 커넥터로 보존 할 수 있습니까?

{key1=value,key2=anothervalue} 

가 cosmosdb 커넥터 불꽃의 중첩 구조를 유지 할 수있는 방법이 있나요, 또는 방법이있다 : 심지어 JSON은, 그래서 그것을 구문 분석하는 방법을 잘 모릅니다이 문자열의 밤은의 형식은, 형식은 같다 스파크에서이 문자열 형식을 구문 분석 할 수 있습니까?

답변

1

어떤 버전의 Spark 커넥터를 사용하고 있습니까?

커넥터는 데이터의 서브 세트를 샘플링하여 스키마를 파생시킵니다. 속성에 좋은 유형이 없다면 String을 사용할 것입니다. schema_samplesize config를 사용하여 샘플링 크기를 늘리려고 시도 할 수 있습니다. 기본값은 1000입니다. 속성 값에 대해 여러 유형이있을 가능성이 있습니까? 아니면 StructType과 Null입니까? 후자의 경우 버전 0.0.5에서 수정 될 것입니다.