PIG를 사용하여 텍스트 구문 분석

PIG에 대해 처음 알았습니다. PIG 텍스트를 구문 분석 할 수 있습니까? 필드의 값을 읽으려면 돼지에서 위치 매개 변수의 개념이 있습니다. 예를 들어 $ 0은 첫 번째 필드에 해당합니다. 마찬가지로 전체 행을 읽을 수있는 위치 매개 변수와 같은 기능이 있습니다. 정확히 어디에서 RADOOP를 사용할 수 있습니까?PIG를 사용하여 텍스트 구문 분석

출처

2012-01-28 chhaya vishwakarma

이 두 가지 질문이 있습니까? –

예 사실 infact 세 질문 –

먼저 텍스트 구문 분석을 위해 PIG 및 wordcount 예제의 자습서를 읽을 수 있습니다. 아래

링크 :

Pig tutorial
Wordcount example -이 링크에서 단어 수 예를 읽고 튜토리얼에 주어진 명령을 관련이있다.

출처

2012-01-30 05:22:02 Debaditya

나는 당신이 무엇을 요구하고 있는지 정말로 모른다. 돼지는 TOKENIZE 및 정규식 매칭/추출 UDF와 같은 많은 기능을 제공합니다. 자연스럽게, 자바 나 파이썬에서 좋아하는 텍스트 처리 코드를 작성하여 호출 할 수 있습니다.

출처

2012-01-29 22:40:27 SquareCog

내가 돼지에서 자바 또는 파이썬 코드를 호출 할 수 있습니다 –

전체 행을 토큰 화하지 말고 전체 행을 필드로 가져 오라고 요청하는 것 같습니다. 맞습니까?

그런 다음 PigStorage ('\ n')를 사용할 수 있다고 생각합니다. '\ n'을 필드 구분 기호로 사용하여 전체 행을 하나의 필드로 취급하십시오.

그리고 나는 당신의 "RADOOP"은 꼭두각시를 의미한다고 생각하니, 맞습니까? 첫 번째 단계로 돼지를 로컬 모드로 실행할 수 있습니다. 즉, hadoop을 설치할 필요가 없습니다.

출처

2012-01-30 07:54:55 zjffdu

특정 열에 액세스하고 싶습니다. 어떻게 행할 것인가를 제 10 행으로 가정합니다. 그 질문은 RAD.PO 만 의미합니다 ... –

귀하의 질문은 귀하가 귀하의 데이터에 대해 일종의 대화 형 모드를 갖고 싶지만이 데이터의 볼륨이 높다는 것을 나타냅니다.

RADOOP는 R과 Hadoop의 조합이며 Hadoop Scale 처리를 사용하는 일부 R 통계 분석을 통해 Big Data를 실행할 수있는 GUI를 제공 할 수 있어야합니다.

한편 Google은 Google-Refine (http://code.google.com/p/google-refine/)을 살펴보고 데이터 증거 프로세스를 손쉽게 다운로드하여 실행할 수 있음을 제안합니다.

Google 맞춤 검색을 사용하면 내장 텍스트, 날짜 및 숫자 기능을 사용하여 데이터를 쉽게 파싱 할 수 있습니다. Jython을 사용하여 필요한 기능을 추가로 향상시킬 수도 있습니다. 내장 된 Facet을 사용하여 데이터를 샘플링하고 기능을 조사하여 대규모 처리를 할 수 있습니다. See example of Facets

R 또한 좋은 샘플링 및 기타 통계 분석 라이브러리와 함께 데이터 증거를위한 훌륭한 도구입니다. 그러나 인터페이스는 명령 행을 기반으로하며 일반 사용자가 아닌 고급 통계 및 분석가를 대상으로합니다.

출처

2012-01-31 14:32:49 Guy

PIG를 사용하여 텍스트 구문 분석

답변

관련 문제