hadoop 0.20.2부터 시작합니다. 기본 단어 수 문제를 여기서 찾은 코드로 시작하고 싶습니다. http://cxwangyi.blogspot.com/2009/12/wordcount-tutorial-for-hadoop-0201.htmlhadoop mapreduce에서 중복 됨
이렇게 작동해야합니다. 그러나 단어가 여러 파일에 걸쳐 구분 내가 파일 당 단어 수를 계산하려면, 그래서에 매퍼를 변경하는 경우 :
String fileName = ((org.apache.hadoop.mapreduce.lib.input.FileSplit) context.getInputSplit()).getPath().getName();
word.set(itr.nextToken()+"@"+fileName);
그러나 나는이 같은 내 mapreduced 파일에 중복을 얻을 : 단어 1 @ 파일 2 1 @ 파일 1 1 word2 word2 @ 파일 2 ~ 1 ...
그래서 word2 @ 파일 2 ~ 1 ... 거기누구는 내가 잘못 알고하지 말았어야?
감사
는
텍스트 편집기와 같은 소리는 파일을 자동 저장합니다. 예를 들어, 이맥스는 파일 이름 앞에''~''를 사용하여 자동 저장을 생성합니다. 이 경우''file2''와''file2 ~''로 끝날 것입니다. – Fred