Bigtable이 네트워크를 통해 Dataproc에 데이터를 보내지도 무대를 수행합니까?

Google Dataproc 클러스터를 사용하여 Bigtable에 대한 Spark M/R 작업을 실행하고 있습니다. 네트워크를 통해 Bigtable에서 Dataproc 클러스터로 전송되는 데이터가 맵 스테이지를 수행하거나 맵 스테이지가 실제로 Bigtable 클러스터에서 실행됩니까?Bigtable이 네트워크를 통해 Dataproc에 데이터를 보내지도 무대를 수행합니까?

출처

2016-12-06 Ivan Alikin

모든 계산은 Dataproc에서 실행되며 계산을 수행하는 데 필요한 모든 데이터는 네트워크를 통해 Dataproc로 전송되어 해당 작업을 수행해야합니다.

검색에 필터를 설정하면 Dataproc에서 실행중인 작업으로 데이터를 보내기 전에 Bigtable 서비스가 해당 필터링을 수행합니다.

출처

2016-12-06 21:29:57

대용량의 데이터를 저장하기 위해 Bigtable 대신 Dataproc 클러스터의 작업자 노드에서 제공하는 HFS를 사용하는 것이 더 낫다는 의미입니까? 최근 데이터를 스캔하고 행 키로 임의의 행을 요청할 필요가없는 Spark 작업을 수행합니다. –

약간의 털이 많은 디자인 질문이며 다른 요소에 많이 의존합니다. 대량 데이터 분석에만 사용되는 데이터가있는 경우 데이터를 Cloud Storage에 저장하고 Dataproc 또는 데이터 흐름을 사용하여 데이터를 처리하는 것이 좋습니다. 이렇게하면 컴퓨팅 리소스가 필요하지 않을 때 리소스를 종료 할 수 있습니다. HDFS에 데이터를 저장하는 경우 클러스터가 항상 켜져 있어야합니다. –

Bigtable이 네트워크를 통해 Dataproc에 데이터를 보내지도 무대를 수행합니까?

답변

관련 문제