Spark Context에 탭으로 구분 된 파일을로드해야합니다. 그러나 일부 필드는 값이 누락되어 있으며 이러한 행을 필터링해야합니다. 다음 코드를 사용하고 있습니다. 그러나 필드가 완전히 누락 된 경우 (예 : 행의 탭이 하나 더 적음)이 코드는 예외를 발생시킵니다. 이것을 달성하는 더 좋은 방법은 무엇입니까?Spark Context에 텍스트 파일을로드하는 동안 누락 된 필드가있는 행 건너 뛰기
val RDD = sc.textFile("file.txt").map(_.split("\t"))
.filter(_(0).nonEmpty)
.filter(_(1).nonEmpty)
.filter(_(2).nonEmpty)
.filter(_(3).nonEmpty)
.filter(_(4).nonEmpty)
.filter(_(5).nonEmpty)
나는 아마'flatMap'과'match'를 사용하십시오. 그렇게하면 동일한 단계에서 선을 처리 할 수도 있습니다. – Alec