하둡에서는 보조 정렬 메커니즘을 사용하여 값이 감소기에 전송되기 전에 정렬 할 수 있습니다.2 차 정렬에 적합한 키 클래스는 무엇입니까?
Hadoop에서이 작업을 수행하는 방법은 값을 추가하여 키에 정렬 한 다음 정렬 시스템에 연결하는 사용자 정의 그룹 및 키 비교 메소드를 보유하는 것입니다.
따라서 본질적으로 실제 키와 정렬 기준 값으로 구성된 키가 있어야합니다. 이 작업을 충분히 빠르게 수행하려면 그룹 및 키 비교 방법에 필요한 별도의 파트로 분해하기 쉬운 복합 키를 만드는 방법이 필요합니다.
가장 효과적인 방법은 무엇입니까? 이 단계에서 도움이되는 "out-of-the-box"Hadoop 클래스가 있습니까? 아니면 각 map-reduce 단계에 대해 별도의 키 클래스를 만들어야합니까?
키가 실제로 여러 부분으로 구성된 합성물 (분할기로 인해 별도로 필요함) 인 경우 어떻게해야합니까?
당신은 무엇을 추천하십니까?
P. 나는 "secondary-sort"라는 태그를 추가하고 싶었지만 그렇게할만한 담당자는 아직 없다.
거기에 (태그를 추가했습니다) :-) –
태그를 추가해 주셔서 감사합니다. –
간단한 질문을 추가 하시겠습니까? – Sudarshan