2012-08-09 2 views
1

한 줄에 한 줄씩 큰 텍스트 파일 (5GB)이 있습니다. 독점적 인 알고리즘을 사용하여 각 라인을 다른 모든 라인과 비교해야합니다. MapReduce를 처음 접했지만 Java 경험이 있습니다. 나를 괴롭히는 문제는 별도의지도 입력을 만드는 것입니다. 문서는 각 라인이 다른 라인에 의존하지 않는다는 가정하에 작성된 것 같습니다. 이 일을하는 가장 좋은 방법은 무엇입니까?Hadoop과의 페어와 비교 MapReduce

+1

그것은 보이지 않는다. 한 제안 - M-R없이 쌍을 생성하고이 쌍에서 M-R을 실행 하시겠습니까? – Fakrudeen

+0

그럴 가능성은 있지만, 코딩 문제를 해결하기 위해 5GB 파일을 가져와 25GB로 만드는 것은 약간의 어려움이 있습니다. –

+0

각 작업에 5G의 메모리를 제공 할 수 있습니까? 그렇지 않으면 파일의 모든 행에 대해 파일을 완전히 읽어야합니다. 가능하지만 속도가 느리고 오류가 제거 될 가능성이 큽니다. –

답변

0

여기 일에 흥미로운 논문 하둡과 조인은 다음과 같습니다

http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http://pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf

난 당신이 또한 프레임 워크에 가입 mapred 하둡을 조사해야한다고 생각 : 그것은 MR 패러다임에 맞는처럼

http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html