Hadoop과의 페어와 비교 MapReduce

한 줄에 한 줄씩 큰 텍스트 파일 (5GB)이 있습니다. 독점적 인 알고리즘을 사용하여 각 라인을 다른 모든 라인과 비교해야합니다. MapReduce를 처음 접했지만 Java 경험이 있습니다. 나를 괴롭히는 문제는 별도의지도 입력을 만드는 것입니다. 문서는 각 라인이 다른 라인에 의존하지 않는다는 가정하에 작성된 것 같습니다. 이 일을하는 가장 좋은 방법은 무엇입니까?Hadoop과의 페어와 비교 MapReduce

출처

2012-08-09 Fred Milton

그것은 보이지 않는다. 한 제안 - M-R없이 쌍을 생성하고이 쌍에서 M-R을 실행 하시겠습니까? – Fakrudeen

그럴 가능성은 있지만, 코딩 문제를 해결하기 위해 5GB 파일을 가져와 25GB로 만드는 것은 약간의 어려움이 있습니다. –

각 작업에 5G의 메모리를 제공 할 수 있습니까? 그렇지 않으면 파일의 모든 행에 대해 파일을 완전히 읽어야합니다. 가능하지만 속도가 느리고 오류가 제거 될 가능성이 큽니다. –