돼지 스크립트를 사용하여 HDFS에서 내 파일의 첫 번째 줄과 마지막 줄/줄을 제거하고 싶습니다. 나는 등급을 사용하여이 작업을 시도했지만 작동했지만 마지막 순위 번호를 알아야하지만 파일을 동적으로 처리 할 수 있습니다.이 경우에는 아무 것도 찾을 수 없습니다. 도와주세요 편집 : 내 데이터 그래서 난 스키마를 만들 수 없습니다 거대하고 그룹화가 MIN
반복에 열을 반영하기 위해 테이블을 재구성하는 ID Tag1 Tag2 Tag3
1 a b
2 a b c
3 a
나는 라틴어 돼지 또는 SQL을 사용하여 ID Tag
1 a
1 b
2 a
2 b
2 c
3 a
이 테이블을 변환 하시겠습니까? 당신이 중복 다음 UNION에 UNION ALL을 변경하지 않으려면
내가 스택 오버 플로우가 이미 다시 폐쇄 된 경우에 편승 할거야 Making a co-occurrence matrix from mysql database in MYSQL, PHP or R 공동 선두로부터 행렬을 만들기위한 좋은 솔루션이있다 id uid
1 a
1 b
1 c
2 a
2 b
2 c
3 b
3 c
큰 따옴표가있는 문자열 패턴을 기반으로 돼지에서 입력을 필터링하려고합니다. 예를 들어, input.txt를가 field1="value1" field2="value2"
field1="value1" field2="val2" 내가 FIELD2 = "값 2"가 줄을 필터링 할을 가지고 말한다. 그래서 다음 스크립트를 실행합니다. A = LOAD 'input.tx
나는 꼼꼼하고 지금까지 어떤 해결책도 찾을 수 없다. 고정 길이 파일을 컨트롤 A로 변환해야하지만 파일 패턴은 atrribute 중 하나 (예 : record_type)에 따라 스키마가 특정 레코드에 대해 변경됩니다.이 고정 파일을 구분 파일로 변환 할 수있는 사람은 누구인지 알 수 없습니다. 샘플 기록 : NCBDX**DD**00C98 0002016
I 돼지 2 필드의 조합의 빈도를 계산할 의 카운트 주파수 : 위에서 ------ y1 has the fields -----
a1 = GROUP y1 BY (user_id, tweet_created_at);
a2 = FOREACH a1 GENERATE group AS (user_id, tweet_created_at), COUNT(y1) AS number
PIG에서 스키마 &을 언급하지 않고 LOAD 문을 사용하여 CSV 파일을로드 할 때 기본 PIGSTORAGE (\ t)를 사용하면 어떻게됩니까? 로드가 제대로 작동하고 데이터를 덤프 할 수 있습니까? 그렇지 않으면 파일에 ','가 있고 pigstorage가 '/ t'이므로 오류가 발생합니다. 조언을 부탁하십시오
아래 쇼로 시작 하이브가 시작하는 데 시간이 많이 걸렸다 오류하지만 하이브 쉘 아직 을 시작되지 않습니다하지에서 하이브를 시작할 수 아니다 하이브 쉘 : 터미널과 너무 많은 시간을내어 아래 쇼로 시작하지. 29 : 26261 [주] mapreduce.TableMapReduceUtil 경고 : PrefixTreeCodec 함유 HBase를 프리픽스 트리 모듈
트위터 데이터를 작업하고 있는데 Thu Jun 11 16:41:35 +0000 2015과 같은 필드 인 user_created_at이 있습니다. 나는 코끼리 새를 사용하는 들판이있어이 분야의 유형이 무엇인지 잘 모르겠습니다. datetime 유형으로 은밀한하기 위해, 내가 그랬어 : ToDate(user_created_at, 'yyyy.MM.dd') as