apache-pig

    1

    1답변

    계정이 ids이고, 각각 timestamp이 username으로 그룹화되어 있습니다. 이 사용자 이름 그룹의 foreach는 모두 (가장 오래된 계정, 다른 계정)의 쌍을 원합니다. 나는 그것을하는 자바 감속기를 가지고 있는데, 간단한 돼지 스크립트로 다시 작성할 수 있습니까? 스키마 : {group:(username),A: {(id , create_dt)

    3

    2답변

    돼지 라틴에서 MAX과 같은 집계 때문에 선택하려는 레코드에서 다른 필드를 가져 오려고합니다. 문제를 설명하는 데 문제가 있으므로 여기에 예제가 나와 있습니다. 이 전 세대에서 가장 오래된 사람의 이름을 잡아하고 싶은 말은하자 A는 네 개의 열입니다 관계, B = GROUP A BY (address, zipcode); # group by the addres

    0

    1답변

    나는 두 개의 파일, 하나는 당신은 내가 토큰 (123) 한 시간이 파일 A에서 볼 수있는-기록 123^record1 222^record2 333^record3 다른 파일 불리는 B-기록 123^jim 123^jim 222^mike 333^joe 라고했다. 파일 B에는 두 번 있습니다. Apache PIG를 사용하는 방법이 있습니까? 예를

    5

    2답변

    (심지어 기본적인 Difference between Pig and Hive? Why have both? 이상) 나는 작성된 데이터 처리 파이프 라인을 가지고 여러 자바지도-감소 (하둡의 매퍼 및 감속기에서 파생 된 내 자신의 사용자 지정 코드) 하둡 이상 작업을. 조인, 역 정렬, 정렬 및 그룹화와 같은 일련의 기본 작업입니다. 내 코드가 관련되어 있으며

    11

    1답변

    돼지에 JOIN 대신 COGROUP을 사용하면 어떤 장점이 있습니까 (wrt 성능/맵 감소 없음)? http://developer.yahoo.com/hadoop/tutorial/module6.html은 생산되는 출력 유형의 차이에 대해 이야기합니다. 그러나 "출력 스키마"를 무시하면 성능에 큰 차이가 있습니까?

    4

    4답변

    돼지를 사용하여 처리하려는 100 개의 열이있는 hdfs 파일이 있습니다. 별도의 돼지 스크립트에 열 이름이있는 튜플에이 파일을로드하고 다른 돼지 스크립트에서이 스크립트를 다시 사용하려고합니다. 어떻게해야합니까? 이 100 개의 돼지 스크립트는 - 100col.pig입니다. 내가 어떻게 그것을 다른 사람에게서 부르지. 피그?

    0

    1답변

    파일을 PIG에로드하고 있습니다. STRSPLIT(doc,',')을 사용하여 레코드를 분할 한 후 여분의 공백을 없애기 위해 TRIM()을 사용하여 데이터를 정리하고 싶습니다. 레코드의 모든 단어에 TRIM()을 사용하는 방법을 알아낼 수 없습니다. 예 : 이것에 대한 ((car , truck, jeep , honk)). 스키마는이 : tokens:(t

    1

    1답변

    Hadoop을 설치 한 후 Pig를 설치합니다. 그러나, 나는 다음과 같은 문제가 있습니다 [email protected]:/home/dewi/Work2/pig-0.8.0-cdh3u0/bin$ ./pig 2011-11-23 10:15:20,865 [main] INFO org.apache.pig.Main - Logging error messages to:

    1

    1답변

    돼지 라틴어는 데이터 흐름 언어라는 것을 알고 있습니다. 그런 의미에서 현재는 모든 프레임 워크에서 Pig Latin을 실행하는 것이 이론적으로 가능해야하며 Hadoop 환경에서 실행될 예정입니다. 돼지 라틴어를 다른 프레임 워크로 돌리는 것이 얼마나 힘들겠습니까? 이 경우 확장 점이 있습니까? 아니면 돼지 라틴어가 Hadoop과 밀접하게 결합되어 있습니까

    2

    1답변

    돼지 결과를 정렬 한 다음 주문한 결과에 특정 항목이 어디에 있는지 확인할 수 있습니다. 예 : mydata = LOAD 'mydata.txt' AS (label:chararray, rank_score:float); ranked_data = ORDER mydata BY rank_score DESC; ranked_positions = FOREACH ran