2016-09-03 5 views
0
  1. sc.textFile("somefile.xml") 가령와 아파치 스파크 큰 파일을 처리하는 것이 실행기에서 병렬 처리를 분할하거나, 이는 하나의 청크에서와 같이 처리한다 수행 한 명의 유언 집행자?는 단일 작업자에 점화 프로세스 큰 파일 하는가

  2. Databricks의 implicit XMLContext으로 데이터 프레임을 사용할 때 그러한 대규모 데이터 세트 처리를 위해 미리 최적화 된 최적화가 있습니까?

+0

이 질문에는 splittable 파일을 병렬로 처리 할 수 ​​있고, bzip을 제외한 압축 파일을 병렬 처리 할 수없는 등의 답변이 있습니다. Mr.Know-it-all * 2, 아래로 표시하도록 선택하십시오. –

답변

1
  1. 은 파일에 따라 다릅니다. 파일 형식이 분할 가능하고 파일이 구성된 분할 크기보다 크면 다중 실행 프로그램에서 처리됩니다.
  2. XML 소스가 전체 XML을 구문 분석하지 않습니다. rowTag에 구성된 행 태그를 식별합니다.