PIG에 대해 처음 알았습니다. PIG 텍스트를 구문 분석 할 수 있습니까? 필드의 값을 읽으려면 돼지에서 위치 매개 변수의 개념이 있습니다. 예를 들어 $ 0은 첫 번째 필드에 해당합니다. 마찬가지로 전체 행을 읽을 수있는 위치 매개 변수와 같은 기능이 있습니다. 정확히 어디에서 RADOOP를 사용할 수 있습니까?
스칼라는 프로젝션에만 사용할 수 있습니다. foreach를 사용하는 동안이 오류가 발생합니다. 어떻게이 오류를 해결할 수 있습니까? foreach 내에서 LIMIT을 어떻게 사용할 수 있습니까? A = LOAD 'part-r-00000';
G = Group A by ($0,$2);
Y = foreach G generate FLATTEN(group), F
PIG를 사용하여 CSV 파일을 읽고 싶습니다. 어떻게해야합니까?. load n pigstorage (',')를 사용했지만 CSV 파일을 제대로 읽지 못하는 이유는 데이터에서 쉼표 (,)가 나뉘어져 있기 때문입니다. 데이터에 쉼표가 있으면 delimeter를 제공해야합니까?
나는이 질문에 잠시 머물렀다. 다음과 같은 데이터 파일이 있습니다. 2012/01/01 Name1 "Category1,Category2,Category3"
2012/01/01 Name2 "Category2,Category3"
2012/01/01 Name3 "Category1,Category5"
각 항목은 쉼표로 구분 된 범주 목록과 연결됩
PIG를 사용하여 서로 게이트 키 생성기를 구현하려고합니다. 데이터베이스에서 마지막으로 생성 된 키를 유지하고 데이터베이스에서 다음 사용 가능한 키를 쿼리해야합니다. PIG에서 ODBC를 사용하여 데이터베이스를 쿼리 할 수 있습니까? 예인 경우 안내 또는 샘플을 제공해주십시오.
외부 프로세스를 포크하지 않고 Java 응용 프로그램 내에서 Apache Pig 작업을 실행할 수 있습니까? 돼지와 하둡은 모두 Java로 작성되었지만 실제로는 Java API를 제공하지 않습니다. 쉘 스크립트에 의존하는 대신 Java Spring 애플리케이션 내에서 이러한 도구 양식을 사용하고 싶습니다.
내가 PigLatin에 들어가기 시작 했어 나는 질문이 ... 오른쪽 지금은 단어 계산의 고전적인 예와 함께 일하고 있어요 내가 여러 전자 책을 처리 그리고 나는 단어의 목록과 각 단어가 나타나는 횟수를 얻는다. 그 데이터를 돼지의 입력 데이터로 사용하여 각 단어가 나타나는 횟수로 정렬하고 가장 일반적인 단어 5 개를 구합니다. 지금까지는 그렇게 좋았지 만
ElephantBird와 Pig를 사용하여 JSON 파일을 읽을 수 없습니다. 내가 실수를하고있는 곳을 알고 싶다. 데이터 : { "nrcpts": "1",
"src": "[email protected]",
"sendmailid": "p6D0r0u1006229",
"relay": "app03.example.com",
"c