(심지어 기본적인 Difference between Pig and Hive? Why have both? 이상)데이터 마이닝 대신 돼지/하이브를 사용하여 코드를 줄일 수 있습니까?
나는 작성된 데이터 처리 파이프 라인을 가지고 여러 자바지도-감소 (하둡의 매퍼 및 감속기에서 파생 된 내 자신의 사용자 지정 코드) 하둡 이상 작업을. 조인, 역 정렬, 정렬 및 그룹화와 같은 일련의 기본 작업입니다. 내 코드가 관련되어 있으며 매우 일반적이지 않습니다.
여러 가지 UDF를 사용하여 모든 것을 돼지/하이브로 마이그레이션하는 것과 달리 이처럼 개발 집약적 인 방법을 계속 사용하는 것에 대한 장단점은 무엇입니까? 어떤 직무를 수행 할 수 없습니까? 나는 성능 저하를 겪을 것인가? (결핵 100 대 근무)? 유지 보수 할 때 코드를 수정하고 디버깅 할 수있는 능력을 잃게됩니까? 작업의 일부분을 Java Map-Reduce로 파이프 라인 할 수 있고 Pig/Hive 작업에 입출력을 사용할 수 있습니까?
(나는 Twitter에서 돼지를 연구한다) : 110-150 %의 숫자는 다소 임의적이다. Pig는 많은 최적화 작업을 수행하기 때문에 코드보다 훨씬 빠를 것입니다. 근본적으로, 그것은 MR로 물건을 변환하므로 MR보다 빠를 수 없습니다. 그러나 간단한 초급 - 중급 MR 코드는 종종 돼지에게 빠질 것입니다. – SquareCog
통찰력을위한 Thnx. –