내가 보이는 내 입력 데이터를 변환하려고에 돼지 튜플의 요소를 변환과 같은 : 1, A, a1, 101
1, A, a2, 101
1, A, a3, 101
2, B, b1, 202
2, B, b2, 202
...
: 유형이 같은 개별 행으로 분리 편평한 구조로 Id,Name,Types,Code
1, A, a1;a2;a3, 101
2, B, b
레코드 그룹 간의 차이를 계산하려고하며 그룹별로 행 번호도 포함하려고합니다. 이것은 창 함수를 사용하여 HIVE에서 지연 및 행 번호 함수를 사용하여 수행 할 수 있습니다. PIG와 python UDF를 사용하여 이것을 재현하려고합니다. 다음 예에서는 각 이름에 대해 1부터 시작하여 새 월 (새 레코드)에 대해 증가 할 행 번호가 필요합니다. 또한 각 달의
문자열의 '-'부분 뒤에있는 문자열의 일부를 추출해야합니다. 는 LONGNAME 앤드류 별의 알렉스-COOK 에게 말 예상 출력 할 수 있습니다 : : COOK을 내가 함께 노력 별 REGEX_EXTRACT(LONGNAME,'(-.*)',1) as shortname
그러나 제공합니다 -COOK -Stellar 어떻게 제거 할 수 있습니다 '-'?
foreach 구문을 사용하여 가방을 반복한다고 가정합니다. 첫 번째 요소를 제외하고 각 요소에 대해 이전 요소를 모두 반복하여 현재 요소까지 반복 할 수 있습니까? 은 쉽게 시각화 할 수 있도록 다음과 같은 가방에 지정된 위치에 도달 한 foreach 루프 고려해야 할 : 나는 루프에서이 시점에서 무엇을 하시겠습니까 무엇 (1, Element1)
(2,
최종 출력을 PIG에 텍스트 파일로 저장해야합니다. 하자가 최종 출력 파일 수 'Test'와 나는 경로에 저장해야합니다 내 요구 사항입니다. 는 말 '/path/' 내 코드 : a = LOAD 'example.csv' USING PigStorage(';');
b = FOREACH a GENERATE $0,$1,$2,$3,$6,$7,$8,$9,$11,$1
필드를 키로 사용하는 변수 키의 맵 값을 얻을 수있는 방법이 있습니까? 예 : 우리 회사의 데이터는 다른 로케일에 대해 서로 다른 것 같은 키로 로케일을 사용하여지도의 가치를 얻을 수 있습니다 내가 본질적으로 원하는이 {"en_US", (["en_US" : "English Name"], ["fr_FR" : "French Name"])}
같은 로케일 이름
의 용도에 가입 할 수는 말한다 : 나는 입력 그러나 join_table = JOIN A BY People_ID, B BY People_ID
: describe join_table;
Table A (People_ID, People_Name)
Table B (Location, People_ID)
이 다음 내 돼지 라틴어 입력 표시 : join_t
에 열에서 XML을 폭발 : col1 | col2
12345 <AnXMLElement><AChildElement1>2</AChildElement1><AChildElement2>4</AChildElement2></AnXMLElement>
내가 두 번째 열을 등과 같은 요소로 그것을 밖으로 폭발 할 : col1 | col2 | AChildElement1
DB에 정보를 저장하기 위해 PIG 및 HBASE를 사용하고 있습니다. DUMP 명령에서 가져온 데이터 세트를 가지고 있으며 다음 단계에서 HBASE에 저장하려고합니다. DUMP somedata;
은 아래와 같이 중복 행을 갖는 데이터 청크를 생성합니다. (rowkey, cf:1, cf:2 ....)
(12345::456::idea, 4567, del