5 노드 클러스터가 있고 YARN이 배포되었습니다. 2 개의 네임 노드와 3 개의 데이터 노드. 내 코드가 spark에 제출되는 동안. CSV로 데이터를 내보내려고하는데, 그렇게하면 데이터가 2 개의 데이터 노드로 내보내지고 둘 다 내보내기 폴더 안에 다른 콘텐츠가 생깁니다. 하나는 _SUCCESS 파일을 가지며 다른 하나는 내 보낸 csv (part- *)를 갖습니다. _SUCCESS 파일이있는 노드와 응용 프로그램이 실행되는 노드가 동일하지만 실제 CSV가 다른 노드에 있기 때문에 응용 프로그램이 빈 경로를 갖게됩니다. 또한 때로는 _SUCCESS 파일이 생성되지 않지만 part - *. csv가 생성되지만 다른 노드에서 응용 프로그램이 다시 같은 노드에서 실행되지 않으면 다시 공백 경로로 끝납니다. 다음과 같은 방법 :spark scala on yarn 클러스터 CSV 내보내기
dataframe.coalesce (1) .write.option ("헤더", "진정한") CSV (경로) 대신 파일의
ur 경로의 값은 무엇입니까? – bigdatamann
file : /// <리눅스 시스템의 절대 경로> – sanju4evr