I는 그 구조가 아래와 같이 언급 된 파일을 가지고 난 pigStorage 주면돼지 처리 잘못된 데이터
가ID, 이름, 분명히
1,"Amrit,kumar",India
2,"Vaibhav,arora",USA
3,"Deepika,kumar",Germany
주소 ('') 3 개의 필드가 4로 분할되고 데이터가 넘치게됩니다. 대안 :
나는 돼지 저금통 항아리하지만 문제가 계속 존재하고 여전히 데이터를 시도는 나뿐만 아니라 내가 가진 한 fucntiion를 교체하려 스크립트
A11 = LOAD 'File.csv.gz' USING org.apache.pig.piggybank.storage.CSVLoader() as (column:type)
을 검색 할 수 있습니다 spills.Please 35k 행 변경은 모든 행에 대해 gettting이 아닙니다. 데이터가이 경우에도 여전히 유출됩니다. 열 값은 다음 열로 이동합니다. 아래 링크를 참조하십시오.
how can i ignore " (double quotes) while loading file in PIG?
- 은 나뿐만 아니라 CSVEXCEL 저장 및 CSV 로더를 시도했다.
내가 할 수있는 일이 무엇인지 제안 해주세요. 하나의 열에 이름 값을 갖고 싶습니다.
이 '의 모든 인스턴스를 대체 할 정규식을 작성하는 것입니다, '와 같이'' ","a ","b ", c는'1 |"a, b "| c'가되어야한다는 것을 제외하면'|'와 함께 말하면'PigStorage'를 사용하여 자료. – philantrovert
@ philantrovert 여기서 원시 파일을 변경할 수 없습니다. – codaholic