변수 설명, totalamt, 연도 및 유형이있는 파일이 있습니다. 연도가 2000이고 특정 유형 인 경우 나중에 사용할 수 있도록이 필드를 저장하려고합니다. 연도가 2000보다 큰 경우 2000 년 값에서 증가 비율 ( )을 찾고 싶습니다. 복제본을 보았지만 사용 방법을 모릅니다. mysales = load 'hdfs:/user/derezone_yahoo
나는 사용자가 19 세 이하 (60) 사이의 번호를 찾기 위해 노력하고 샘플 나는 다음과 같은 오류를 얻고있다 loadtable = load '/user/userdetails.txt' using PigStorage(',') AS (name:chararray,age:int);
filteredvalues = filter loadtable by (age >
돼지의 열 값을 대문자로 변환해야합니다. UPPER을 사용하여 수행 할 수 있었지만 새로운 열이 만들어졌습니다. 예를 들어 : A = Load 'MyFile.txt' using PigStorage(',') as (column1:chararray, column2:chararray, column3:chararray);
Dump A;
반환 a,b,c
d,
나는 그 사람의 이름을 가진 테이블을 가지고 있으며 쇼핑을 위해 어디로 가나. 나는 슈퍼마켓의 이름으로 각 개인의 최대 출현 수를 찾고 싶다. 예를 들어 아래 파일에서 앨런이 쇼핑 할 수있는 최대 횟수로 코스트코에 가면 출력은 스토어의 이름과 상점 이름과 그가 몇 번이나 갔는지 계산해야합니다. 아래 주어진 파일에있는 모든 개인에 대해이 개수를 찾아야합니다.
나는 Hortonworks 샌드 박스를 사용하고 간단한 돼지 스크립트를 실행하려고합니다. '파일이 존재하지 않습니다'와 관련된 성가신 오류가있는 것 같습니다. REGISTER '/piggybank.jar';
inp = load '/my.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage..
ER
돼지 데이터를 txt 파일에 표시하고 mapreduce 모드로 실행중인 pig 문을 실행하려고하는데 오류가 발생했습니다. 누군가 도와 주시면이 문제를 해결할 수 있습니다. ! [[email protected] ~]# pig -x mapreduce
17/04/19 17:42:34 INFO pig.ExecTypeProvider: Trying ExecT
다음 3 개의 문장을 사용하여 hdfs에있는 데이터를 읽은 다음 데이터를 덤프하는 동안 mapreduce 모드에서 돼지를 사용하면 엄청난 오류가 발생하여 누군가 expalin 할 수있다. 나 또는 제공하는 솔루션에 grunt> a= load '/temp' AS (name:chararray, age:int, salary:int);
grunt> b= fore
mapreduce 모드에서 돼지를 사용하여 hdfs에서 파일을 읽기 시작할 때 덤프 b를 사용하면 mapreduce 프로세스가 시작되었고 완료 한 후 반복됩니다. 문제. (필자는 777로 파일 사용 권한을, hdfs에서는/tmp 사용 권한을 777로 설정했습니다). [[email protected] conf]# pig -x mapreduce
17/04/1
이 코드가 있습니다. large = load 'a super large file'
CC = FILTER large BY $19 == 'abc OR $20 == 'abc'
OR $19 == 'def' or $20 == 'def' ....;
OR 조건의 수는 최대 100 또는 심지어 수천까지 올 수 있습니다. 더 좋은 방법이 있나요?