PIG를 사용하여 CSV 파일을 읽고 싶습니다. 어떻게해야합니까?. load n pigstorage (',')를 사용했지만 CSV 파일을 제대로 읽지 못하는 이유는 데이터에서 쉼표 (,)가 나뉘어져 있기 때문입니다. 데이터에 쉼표가 있으면 delimeter를 제공해야합니까?데이터가 들어오는 PIG에서 파일을 읽는 중
1
A
답변
2
2
데이터의 쉼표와 쉼표를 구분 기호로 구분하는 것은 일반적으로 불가능합니다. '데이터'에있는 쉼표와 이스케이프 처리 된 쉼표를 인식 할 수있는 사용자 지정로드 함수 (돼지 용)를 이스케이프 처리해야합니다.
여기를보세요 :http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.html
http://pig.apache.org/docs/r0.7.0/udf.html#Load%2FStore+Functions
-1
먼저 올바른 CSV 파일이 있는지 확인하십시오. 이 경우 원본 파일을 Excel (파일이 작 으면) 또는 다른 도구로 변경하지 말고 데이터에 적합한 구분 기호 (예 : \ t 탭,; 등)로 새 CSV를 내 보냅니다. "좋은"구분 기호가있는 다른 추출을 더 잘 수행 할 수도 있습니다. 부하의
예 사항은 다음과 같이 할 수있다 : (';')
TABLE = LOAD 'input.csv'PigStorage을 사용 (사이트 ID AS : INT, 이름 : chararray, ...); 덤프의
예 : 'clean.csv'PigStorage를 사용하여 ('') INTO
STORE 테이블; < - 당신에게 가장
내가 시도 고맙습니다과 작업 .. –
에 맞는 구분 무엇을 내가 CSV..i가 CSVExcelStorage을 가지고 있지만 거기 piggybank.jar과 내가 만들 수 없습니다 오전으로 파일을 저장하려면 그것 .. 어떤 제안? –