-3

안녕하세요. json 레코드를 읽을 때 json 레코드를 읽을 때 시퀀스 파일을 읽는 중입니다. Dataframe에서 데이터 비뚤어 짐 문제가 발생하는 것을 볼 수 있습니다. Spark UI screen shot . 이 데이터 비뚤어짐 문제를 방지하려면 어떻게해야합니까? 당신이 어떤 작업을 가입하지 않는 경우에는Spark 1.6에서 데이터 비뚤어 짐 문제를 피하고 균등하게 데이터를 배포하는 방법

val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text]) 
val df = sqlCntxt.read.json(src) 

261 완료된 작업

Metric Min 25th Percentile Median 75th Percentile Max 
Duration 47 ms 0.1 s 5 s 25 s **1.0 min** 
GC Time 0 ms 0 ms 0 ms 0.1 s 0.7 s 
Input Size/ Records 438.0 B/1 1013.0 B /2 1776.0 B/ 12 128.2 MB/277608 **128.5 MB/1162416** 
Shuffle Write size/Records 240.0 B/1 446.0 B /1 509.0 B/1 622.0 B /1 **2.3 KB /1** 
+0

게시 한 코드는 체크하고 컴파일하지 않습니다. – user8371915

답변

0

은 데이터 왜곡이있을 수 없습니다. JSON 파일을 읽으려고하는 것 같습니다.

매우 작은 데이터 집합으로 비정상적으로 큰 데이터 집합에 참가하려고하거나 조인 조건에 따라 데이터가 고르지 않게 분산 될 때 비뚤어진 데이터 문제가 발생합니다.