0

그래서 전체 DynamoDB 테이블을 S3에 덤프하고 싶습니다. 이 tutorial은 그렇게하는 방법에 대한 좋은 설명을 제공합니다. 테스트 해 봤는데, 훌륭 했어.S3에 다이나모 DB 테이블을 신속하게 내보내기

그러나 지금은 (> 100GB) 상당한 제작 데이터에서 사용하고 싶습니다. 그리고 나는 그것이 빨리 달리고 싶다. 분명히 DynamoDB 테이블의 읽기 처리량이 여기에 중요한 요소이지만 데이터 파이프 라인이 가능한 모든 작업을 수행하는지 확인할 수있는 방법이 있습니다. 나는 이것들에 잘 익숙하지 않다. 아키텍쳐 뷰는 인스턴스 타입과 인스턴스 카운트를위한 영역을 가지고 있지만, 파이프 라인 시간이 줄어들 것이다. 이 튜토리얼에서는 사용하려는 테이블의 처리량을 지정하는 것을 제외하고는 속도에 대해서는 언급하지 않습니다. 자동으로 확장됩니까?

답변

0

템플릿은 데이터 파이프 라인 팀이 gihub에있는 오픈 소스 샘플을 기반으로합니다.

당신이 말하는 템플릿은 here입니다.

파이프 라인 정의를 살펴보면 내보내기가 map-reduce 작업을 통해 수행되고 있음을 알 수 있습니다. 내보내기 작업의 확장 성은이를 통해 처리되어야합니다.

EMR이 DynamoDB와 함께 작동하는 방법에 대한 자세한 내용은 here에서 확인할 수 있습니다. 인스턴스 수를 늘리면 테이블의 처리량을 조정하여 내보내기의 병렬 처리를 늘려야합니다.