2
OSM 데이터는 PBF 형식으로 제공됩니다. 특수 라이브러리 (예 :이 데이터를 구문 분석하기위한 https://github.com/plasmap/geow)가 있습니다.가공 (OSM) Spark의 PBF 파일
이 데이터를 S3에 저장하고 데이터를 EMR 작업의 일부로 RDD에 구문 분석하려고합니다.
이것을 달성하는 간단한 방법은 무엇입니까? 파일을 마스터 노드에 가져 와서 로컬에서 처리 할 수 있습니까? 그렇다면 빈 RDD를 만들고 스트리밍 이벤트가 입력 파일에서 파싱되므로 추가 할 수 있습니까?