0

예외 :하이브 선택 쿼리는 ORC 테이블에 실패

예외 때 java.io.IOException에 실패

: 때 java.io.IOException가 : 어떻게 든 -1 바이트 의 위치를 ​​추구하는 6257 개 이상의 바이트를 건너 뛰려고 읽기 6708, 크기 : 1290047

누구든지 cloud dataproc에서 해결 방법에 대한 아이디어가 있습니까?

답변

1

아마도 ORC 파일을 읽는 것과 관련하여 다소 구체적인 this known issue을 치는 것처럼 보입니다. GCS 커넥터 버전 1.5.4에는 수정 사항이 있으며 이번 주 Dataproc에서 출시됩니다 (이번 금요일 10 월 14 일 완전히 공개 예정).

작은 초기화 작업을 사용하여 dataproc 클러스터의 커넥터 버전을 자동으로 업데이트 할 수 있습니다. update-gcs-1.5.4.sh라는 이름의 파일을 생성합니다

#!/bin/bash 
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar 
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/ 

을 그리고 어딘가에 GCS에 해당 파일을 업로드 :

gcloud dataproc clusters create \ 
    --initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh 
:

gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh 

는 그런 다음 통해 Dataproc 클러스터를 만들