2011-03-11 2 views
1

이 파일에는 Hadoop에있는 데이터 목록이 들어 있습니다. 나는 ID 번호하여 파일을 분석하는 간단한 돼지 스크립트를 구축했습니다, 등등 ...Hadoop Pig로 여러 출력 생성

내가 찾고 마지막 단계는 이것이다 : 내가 만들 싶습니다 (저장) 각 고유 한 파일 id 번호. 그래서 이것은 그룹 단계에 달려 있습니다 ... 그러나 이것이 가능한지 이해하지 못했습니다 (아마도 맞춤 상점 모듈이 있을까요?).

아이디어가 있으십니까? 이 STORE 어떻게 작동하는지 당신이 변수에 데이터를 할당 할 필요가 출력 (파일 또는 무엇이든)을 얻기를위한

감사 다니엘

답변

0

는 이잖아. 이드의 수가 제한적이고 한정적이라면 FILTER을 하나씩 차례로 입력 한 다음 STORE 수 있습니다. (나는 항상 20-25 정도의 행동 유형에 대해 그렇게한다).

하지만 각 고유 ID 파일을 잘못 가져 오려면 2 개의 파일을 만들어야합니다. 1에서 전체 데이터를 ID별로 그룹화하고, 1은 고유 ID 만 사용합니다. 그런 다음 ID가 FILTER 인 돼지 스크립트를 1 개 이상 생성하십시오. 그러나 그것은 나쁜 해결책입니다. 돼지 스크립트에 10 개의 id를 그룹화한다고 가정하면 (고유 ID 수/10) 돼지 스크립트를 실행할 수 있습니다.

Hdfs가 너무 많은 작은 파일을 처리하지 못하는 것에주의하십시오.

편집 : 더 나은 해결책은 큰 파일에 고유 ID로 GROUP 및 SORT하는 것입니다. 그런 다음 분류 된 이후로 타사 스크립트로 내용을 쉽게 나눌 수 있습니다.

2

약자로 말한 것을 염두에두고 있지만, PiggyBank의 MultiStorage은 찾고있는 것 같습니다.