에 결합갖는 두 세트는 내가 예와 함께 제시하려고합니다 비교적 간단한 하둡 질문이 하둡
는 문자열 목록 및 큰 파일이 있고이 과정 각 매퍼 싶은 말 한 파일과 grep 같은 문자열의 문자열.
어떻게해야합니까? mappers의 수는 inputSplits가 생성 한 결과라고 생각합니다. 나는 각 문자열에 대해 하나씩 후속 작업을 실행할 수 있지만 다소 복잡해 보입니다.
편집 : 실제로 grep map reduce 버전을 빌드하려고하지 않습니다. 나는 이것을 매퍼 (mapper)에 2 개의 서로 다른 입력을 갖는 예제로 사용했다. 목록 A와 B를 나열하고 매퍼가 목록 A의 요소 1 개와 목록 B의 요소 1 개를 작업한다고 가정 해 보겠습니다.
따라서 체인에 대한 필요성을 초래할 수있는 데이터 종속성이없는 경우 작업은 모든 매퍼에서 모든 목록 A를 어떻게 든 공유 한 다음 목록 B의 1 개 요소를 각 매퍼에 입력하는 유일한 방법입니까?
내가하려는 일은 내 데이터에 대한 접두사가있는 룩업 구조의 일부 유형을 구축하는 것입니다. 그래서 거대한 텍스트와 문자열이 있습니다. 이 프로세스는 강력한 메모리 병목 현상을 가지고 있으므로 매퍼마다 1 줄의 텍스트/1 줄을 사용했습니다.
grep과 같이하고 싶습니까? 그렇다면 원하는 모든 패턴을 매퍼에 보관 한 다음 각 패턴에 대해 각 데이터 행을 테스트하는 것이 더 효율적일 수 있습니다. – Bkkbrad
은 각 매퍼가 해당 텍스트의 모든 문자열을 반복해야 함을 의미합니다. 나는 그것에 대해 생각해 봤지만 병렬성을 방해하지 않겠는가? – aeolist