HDFS에서 보내야하는 ElasticSearch에 대한 데이터가 있습니다. 돼지를 사용하려고하는데 (처음 사용하는 경우), 데이터에 올바른 스키마를 정의하는 데 문제가 있습니다. 모든 첫째, 나는 org.elasticsearch.hadoop.pig.EsStorage와 옵션 'es.output.json=true'을 사용하여 JSON을로드 시도하고 HDFS에
어떻게하면 파일을 csv 파일로 보내고 PIG SCRIPT을 사용하면됩니다. 변환 된 xlsx를 csv 파일에 저장하는 CSVExcelStorage가 있음을 발견했습니다. STORE x INTO '<destFileName>'
USING CSVExcelStorage(['<delimiter>' [,{'YES_MULTILINE' | 'NO_MULTILINE'}
필자는 입력으로 제공된 날짜 범위에서 데이터 요약을 수행해야하는 요구 사항이 있습니다. 내 데이터가 보이는 경우 : 더 구체적으로 Input:
Id|amount|date
1 |10 |2016-01-01
2 |20 |2016-01-02
3 |20 |2016-01-03
4 |20 |2016-09-25
5 |20 |2016-09-26
6 |20 |2