알고 싶었습니다 : 동일한 작업이 두 번 제출되면 hadoop mapreduce가 전체 데이터 세트를 다시 처리합니까? 예 : 단어 수 계산 예는 입력 폴더의 각 파일에서 각 단어의 발생을 계산합니다. 해당 폴더에 파일을 추가하고 word count mapreduce 작업을 다시 실행하면 초기 파일을 다시 읽고 다시 매핑하고 다시 줄이겠습니까?Hadoop mapreduce가 전체 데이터 세트를 다시 처리합니까?
그렇다면 새로운 파일 만 처리하고 이전 mapreduce 실행의 '요약'에 추가하도록 hadoop을 구성하는 방법이 있습니까?
모든 생각/도움을 주시면 감사하겠습니다.
감사합니다.그래서 대답은 시스템을 올바르게 설계하는 데 있다고 생각합니다. 다시 한 번 도움을 주셔서 감사합니다. – uri