1

Google은 GDP 준수를 위해 노력하고 있습니다. 핵심 쟁점 중 하나는 데이터 암호화입니다. Google Cloud Platform에서 노드간에 데이터를 이동하면 전송 중 데이터 암호화가 발생합니다. 클러스터 내의 데이터 암호화는 어떻게됩니까? 셔플 링 중에 Google Dataproc을 사용할 때? 또한 tmp dir이 Spark에서 내부적으로 사용되는 경우 데이터가 암호화됩니다 (기본적으로 일반 텍스트 파일이 있음)? 같은 보안이 적용되도록 사전에Google Dataproc 클러스터 내 암호화

감사합니다,

매트

답변

3

통해 Dataproc은 GCE VM을 기반으로합니다.

GCE VM (PD 또는 로컬 SSD)의 디스크에있는 모든 데이터는 암호화됩니다 (https://cloud.google.com/compute/docs/disks/). 그래서 Spark의 tmp dir은 실제로 암호화되어 있습니다.

Google 데이터 센터를 벗어나는 네트워크 통신 (예 : 지역 간 트래픽)이 암호화됩니다. 또한 Google API 액세스가 암호화됩니다. 그러나 데이터 센터 내의 노드 간 통신 (모든 클러스터 내 Dataproc 트래픽)은 암호화되지 않습니다. 자세한 내용은 https://cloud.google.com/security/encryption-in-transit/에서 확인할 수 있습니다.

즉, 클러스터 내 통신은 본질적으로 airgapped입니다. 노드 간 통신은 격리 된 VPC network의 내부 IP를 통해 발생합니다. Dataproc은 방화벽 규칙을 구성하는 방법에 대해 guidance입니다.

또한 Dataproc private IP clusters을 사용하여 VM에 외부 IP 주소가 없게 할 수 있습니다.

다음은 Google Cloud GDPR 준수 문서 (https://www.google.com/cloud/security/gdpr/)입니다.

+0

신속하고 유용한 응답을 위해 Karthik에게 감사드립니다. :) – cimox