Pls help adise. 시나리오 : 돼지를 사용하여 HDFS에서 하이브로 데이터를 저장합니다. 나는 4 개의 필드가있는 mySQL에서 특종 한 파일을 갖고있다. Ord_Id, Cust_Id, Cust_name, Ord_date. Ord_Id와 Cust_Id를 Hive에 2 개만 저장하는 것을 좋아합니다. 내가 어떻게 할 수 있니? 조언 부탁드립니다.
나는 databag (final)을 입력으로 전달하려고합니다. dump final;
는 제공 : - 나는 내 UDF 여부를 확인해야 그렇게하기 위해, 위의 databag를 처리하고 소스 및 대상 사이의 불일치를 찾아 내기 위해 UDF를 작성하려고 해요 (4,john,john,David,Banking ,4,M,20-01-1994,78.65,345000,A
이 PIG 스크립트를 실행하는 동안 다음 오류가 발생합니다. 미리 감사드립니다. "ERROR 1000: Error during parsing. Scalars can be only used with projections"
MOVIES = LOAD '/MOVIES' using PigStorage(',') as (mid:double, mn:chararray,
나는 csv 파일을 읽고 그 데이터를 그룹화 한 후 카운트 작업을 수행하고 있습니다. 카운트가 0이면 데이터를 폴더 이름에 저장하고 카운트가> 0이면 데이터를 저장할 수있는 방법이 있습니까? 나는 아래의 코드로 시도했지만 일어나는 것은 아니다. CODE :
STORE countVal INTO '/user/cloudera/good' IF countVal
PIG 스크립트의 일부로 UDF를 사용하여 생성 된 XML을 가져와야하고 XML이 너무 큽니다 (약 1.5GB). 현재 내가 내부 문자열 버퍼를 사용하는 문자열 StringWriter sw = new StringWriter();
XMLWriter output = new XMLWriter(sw, xmlFormat);
try {
o
나는 돼지 구문을 처음 접했고 누군가이 SQL 코드를 돼지로 번역하는 힌트를 제공 할 수 있는지 궁금해하고 있었다. SELECT column1, column2, SUM(column3)
FROM table
WHERE column5 = 100
GROUP BY column2;
지금까지 내가 가진 :이 작동하지 않습니다 data = LOAD....etc.
Q1 - 돼지 작업을 위해 실행되는 매퍼의 수는 입력 나누기 수에만 좌우됩니까? Q2 : 매퍼의 수는 돼지 스크립트에서 사용하는 문장에 달려 있습니까? 예 : foreach, group, join, filter? 128MB의 입력 파일을 가지고 있다면 돼지에서 사용한 문장과 관계없이 하나의 매퍼 만 실행하게됩니다. Q3 : 돼지 용 결합기는 언제 작동합니까
이 샘플에서는 nutch 2.3.1을 사용하여 데이터를 크롤링하고 어디서나 제목과 URL을 가져와야합니다. 나는 돼지 HBase를에서 데이터를 가져 오려면이 명령을 사용 `data9 = load 'hbase://htest15_webpage' using org.apache.pig.backend.hadoop.hbase.HBaseStorage('f:cnt', '