hadoop mapreduce에서 중복 됨

hadoop 0.20.2부터 시작합니다. 기본 단어 수 문제를 여기서 찾은 코드로 시작하고 싶습니다. http://cxwangyi.blogspot.com/2009/12/wordcount-tutorial-for-hadoop-0201.html hadoop mapreduce에서 중복 됨

이렇게 작동해야합니다. 그러나 단어가 여러 파일에 걸쳐 구분 내가 파일 당 단어 수를 계산하려면, 그래서에 매퍼를 변경하는 경우 :

String fileName = ((org.apache.hadoop.mapreduce.lib.input.FileSplit) context.getInputSplit()).getPath().getName(); 

      word.set(itr.nextToken()+"@"+fileName);

그러나 나는이 같은 내 mapreduced 파일에 중복을 얻을 : 단어 1 @ 파일 2 1 @ 파일 1 1 word2 word2 @ 파일 2 ~ 1 ...

그래서 word2 @ 파일 2 ~ 1 ... 거기

누구는 내가 잘못 알고하지 말았어야?

감사

는

출처

2011-12-29 Seba Kerckhof

텍스트 편집기와 같은 소리는 파일을 자동 저장합니다. 예를 들어, 이맥스는 파일 이름 앞에''~''를 사용하여 자동 저장을 생성합니다. 이 경우''file2''와''file2 ~''로 끝날 것입니다. – Fred

당신은 당신이 마지막에 물결을 가진 파일이없는 확신은 하둡 작업의 입력에 추가? Gedit과 같은 일부 편집자는 파일이 편집 될 때마다 생성합니다.

출처

2011-12-29 23:43:59 Brainlag

아 물론. 어리석은 나를 벌써 하루 종일 탐구했다. 감사합니다. –

답변

관련 문제