내 문제.하이브 IP 지오 코딩 (십자가 조인 큰 테이블)
나는 지오 코딩해야하는 고유 IP 주소가 500,000 개 있습니다. 지오 코드 조회 테이블에는 ip-from 및 ip-to 범위가 있습니다.이 범위는 180 만 행의 표와 비교해야합니다.
그래서 그것은 기본적으로이다 :
EMR, 나는 10 m1.large의 십자가 동안 클러스터를 실행하는거야 AWS에select *
/*+ MAPJOIN(a) */
from ip_address a
cross join ip_lookup b
where a.AddressInt >= b.ip_from and a.AddressInt <= b.ip_to;
이 단계는 20 분 동안 0 %에 붙어 있지만, 여기에 재미있는 일이됩니다 가입 :
Stage-5: number of mappers: 1; number of reducers: 0
질문 : 1) 중 하나가 크로스 조인보다 더 좋은 아이디어가? 나는 몇 가지 인스턴스를 더 발사하는데 신경 쓰지 않지만 도움이 될지 의심 스럽다. 2) 나는 메모리에서 ip_address를 저장하는 것처럼 십자가 조인을 실제로하고 있는가?
미리 감사드립니다.