BigQuery 및/또는 Cloud Storage GCS의 데이터를 Dataproc에 읽어들입니다.

BigQuery에서 dataproc spark 클러스터로 데이터를 읽습니다. 내 사례 BigQuery 표의 데이터가 원래 GCS에서로드 된 경우 dataproc (newAPIHadoopRDD) 용 BigQuery 커넥터가 먼저 Google Cloud Storage 버킷에 데이터를 다운로드하기 때문에 GCS에서 데이터를 직접 스파크 클러스터로 읽는 것이 좋습니다. 이 두 가지 방법 사이에 장단점이 있습니까?BigQuery 및/또는 Cloud Storage GCS의 데이터를 Dataproc에 읽어들입니다.

출처

2017-09-29 bignano

BigQuery 커넥터를 사용하면 가능한 한 GCS 내보내기/가져 오기를 추상화하고 GCS 내부의 데이터 세트를 명시 적으로 관리하지 않으려는 경우에 가장 적합합니다.

이미 GCS 내부에 데이터 세트가있는 경우 GCS 데이터 세트를 직접 사용하여 추가 내보내기 단계를 피하고 더 간단한 파일 시스템 인터페이스를 직접 사용할 수 있습니다. 단점은 데이터 세트 사본 두 개 (GCS에 하나, BQ에 하나)를 유지하고 동기를 유지하는 것이 더 많은 비용이 든다는 것입니다. 그러나 크기가 너무 크지 않고 데이터가 너무 자주 업데이트되지 않으면 직접 액세스 할 수 있도록 GCS 데이터 세트를 유지하는 것이 가장 쉬운 방법입니다.

출처

2017-09-29 21:33:45

BigQuery 및/또는 Cloud Storage GCS의 데이터를 Dataproc에 읽어들입니다.

답변

관련 문제