apache-pig

    1

    1답변

    recs = load 'a.txt'; grp = group recs with each group having 5 records; 위와 같이해야합니다. recs에 10 개의 레코드가있는 경우 각 그룹에 각각 5 개의 레코드가 있도록 그룹을 생성해야합니다. 어떻게 만드시겠습니까?

    6

    1답변

    나는 며칠 동안 Hive를 사용 해왔다. 그러나 나는 여전히 파티션으로 힘든 시간을 보냈다. 몇 달 동안 Hadoop에 Apache 로그 (결합 형식)를 기록했습니다. 이들은 (수로를 통해) 일에 의해 구획, 행 텍스트 형식으로 저장되어 /로그/YYYY/MM/DD/HH/* 예 : /logs/2012/02/10/00/Part01xx (02/10/2012 12

    1

    2답변

    내가 register s3n://uw-cse344-code/myudfs.jar -- load the test file into Pig --raw = LOAD 's3n://uw-cse344-test/cse344-test-file' USING TextLoader as (line:chararray); -- later you will load to other

    1

    3답변

    내가 돼지 라틴어로 초보자입니다 실패와 나는 FILTER 문에 대한 문제를 발견했다. 예 봐 : 1,2,3 2,3,4 3,4,5 4,5,6 내가 그의 첫 번째 필드 '3'인 레코드를 선택합니다 : 우리가 내용이있는 데이터 파일 (TEST.TXT)가 가정하자. 돼지 스크립트는 다음과 같습니다. t = LOAD 'test.txt' USING PigSt

    0

    3답변

    를 사용하여 문자열을 검색하는 방법은 2 가지 질문이 있습니다. 한 컴퓨터에서 hadoop 클러스터 컴퓨터로이 파일을 전송해야합니다. 나는 거기에 hadoop (또는 거기에 scp 명령이없는 것 같아요?) hadoop 컴퓨터에 파일을 전송하는 방법? 또한 파일이 내 hadoop 클러스터에 있으면 특정 문자열이 포함 된 레코드를 검색하려고합니다 (예 : 'X

    13

    4답변

    파일 이름의 일부로 날짜 스탬프가 포함 된 파일 집합에서 데이터를 처리 중입니다. 파일 내의 데이터에는 날짜 스탬프가 없습니다. 파일 이름을 처리하고 스크립트 내의 데이터 구조 중 하나에 추가하고 싶습니다. 돼지 라틴어 (PigStorage의 확장 기능)에서 그렇게 할 수있는 방법이 있습니까? 아니면 Perl 등을 사용하여 모든 파일을 사전에 처리해야합니까

    0

    2답변

    나는 cludder cdh3 vmware 이미지를 사용하여 프롬프트에서 돼지 스크립트를 실행하고 있습니다. 나는 우분투에서 소스 코드를 보려고 노력하고있다. 소스 코드에 연산자를 추가하려고합니다. 그래서 POPackage.java, POLocalrearrange.java 등과 같은 파일을보고 싶습니다. 누군가가 디렉토리 계층의 이미지에서 소스 디렉토리를 지

    1

    3답변

    PIG의 JSON 처리에 대한 빠른 질문.이 { "SV":1, "AD":[ { "ID":"46931606", "C1":"46", "C2":"469", "ST":"46931", "PO":1 }, { "ID":"46721489", "C1

    1

    2답변

    문자열의 일부를 추출하고 hbase에 열에 저장하려고합니다. 파일 내용 : MSGTYPE에 해당하는 메시지의이 msgType1 Person xyz has opened Internet:www.google.com from IP:192.123.123.123 for duration 00:15:00 msgType2 Person xyz denied for open

    1

    1답변

    나는 각 입력 행에 대해 XML 파편을 반환하는 실행 파일을 통해 돼지 스크립트에서 데이터를 스트리밍하고 있습니다. 그 XML 조각을 여러 줄에 걸쳐 발생하고 실행 가능한 내가 스트림에 대한 출력을 전혀 제어 할 수 없습니다 Use Hadoop Pig to load data from text file w/ each record on multiple line