apache-pig

0열

1답변

돼지 스크립트를 사용하여 파일의 첫 번째 줄과 마지막 줄을 제거하십시오.

돼지 스크립트를 사용하여 HDFS에서 내 파일의 첫 번째 줄과 마지막 줄/줄을 제거하고 싶습니다. 나는 등급을 사용하여이 작업을 시도했지만 작동했지만 마지막 순위 번호를 알아야하지만 파일을 동적으로 처리 할 수 있습니다.이 경우에는 아무 것도 찾을 수 없습니다. 도와주세요 편집 : 내 데이터 그래서 난 스키마를 만들 수 없습니다 거대하고 그룹화가 MIN

0열

1답변

SQL 또는 돼지 스크립트는 그래서 테이블이 행

반복에 열을 반영하기 위해 테이블을 재구성하는 ID Tag1 Tag2 Tag3 1 a b 2 a b c 3 a 나는 라틴어 돼지 또는 SQL을 사용하여 ID Tag 1 a 1 b 2 a 2 b 2 c 3 a 이 테이블을 변환 하시겠습니까? 당신이 중복 다음 UNION에 UNION ALL을 변경하지 않으려면

0열

1답변

피그 라틴 내부는 공동 선두로부터 매트릭스를 수행하기 위해 가입

내가 스택 오버 플로우가 이미 다시 폐쇄 된 경우에 편승 할거야 Making a co-occurrence matrix from mysql database in MYSQL, PHP or R 공동 선두로부터 행렬을 만들기위한 좋은 솔루션이있다 id uid 1 a 1 b 1 c 2 a 2 b 2 c 3 b 3 c

1열

1답변

돼지에서 MATCHES와 함께 큰 따옴표 사용

큰 따옴표가있는 문자열 패턴을 기반으로 돼지에서 입력을 필터링하려고합니다. 예를 들어, input.txt를가 field1="value1" field2="value2" field1="value1" field2="val2" 내가 FIELD2 = "값 2"가 줄을 필터링 할을 가지고 말한다. 그래서 다음 스크립트를 실행합니다. A = LOAD 'input.tx

2열

2답변

가방, 돼지의 튜플을 반복하는 방법

나는 돼지 스크립팅을 처음 사용합니다. 내가 입력이 , (A,B,{(XYZ,123,CDE)}) 내가 내 가방을 반복 다음과 같은 기록을 인쇄에 찾고 있어요. (A,B,XYZ) (A,B,123) (A,B,CDE) 누군가 나를 도울 수 있습니까?

0열

1답변

하둡의 조건부 파일 처리

나는 꼼꼼하고 지금까지 어떤 해결책도 찾을 수 없다. 고정 길이 파일을 컨트롤 A로 변환해야하지만 파일 패턴은 atrribute 중 하나 (예 : record_type)에 따라 스키마가 특정 레코드에 대해 변경됩니다.이 고정 파일을 구분 파일로 변환 할 수있는 사람은 누구인지 알 수 없습니다. 샘플 기록 : NCBDX**DD**00C98 0002016

0열

1답변

돼지 : 여러 열

I 돼지 2 필드의 조합의 빈도를 계산할 의 카운트 주파수 : 위에서 ------ y1 has the fields ----- a1 = GROUP y1 BY (user_id, tweet_created_at); a2 = FOREACH a1 GENERATE group AS (user_id, tweet_created_at), COUNT(y1) AS number

0열

1답변

PIG에서 CSV 파일로드

PIG에서 스키마 &을 언급하지 않고 LOAD 문을 사용하여 CSV 파일을로드 할 때 기본 PIGSTORAGE (\ t)를 사용하면 어떻게됩니까? 로드가 제대로 작동하고 데이터를 덤프 할 수 있습니까? 그렇지 않으면 파일에 ','가 있고 pigstorage가 '/ t'이므로 오류가 발생합니다. 조언을 부탁하십시오

2열

1답변

은 내가 시작할 수 아니다 단자와 방법은 너무 많은 시간을 복용하고

아래 쇼로 시작 하이브가 시작하는 데 시간이 많이 걸렸다 오류하지만 하이브 쉘 아직 을 시작되지 않습니다하지에서 하이브를 시작할 수 아니다 하이브 쉘 : 터미널과 너무 많은 시간을내어 아래 쇼로 시작하지. 29 : 26261 [주] mapreduce.TableMapReduceUtil 경고 : PrefixTreeCodec 함유 HBase를 프리픽스 트리 모듈

0열

1답변

Twitter 시간을 돼지 DateTime 개체로 변환하십시오.

트위터 데이터를 작업하고 있는데 Thu Jun 11 16:41:35 +0000 2015과 같은 필드 인 user_created_at이 있습니다. 나는 코끼리 새를 사용하는 들판이있어이 분야의 유형이 무엇인지 잘 모르겠습니다. datetime 유형으로 은밀한하기 위해, 내가 그랬어 : ToDate(user_created_at, 'yyyy.MM.dd') as