2017-01-23 3 views
1

카산드라 클러스터가 세 가지 가용성 영역에 복제되므로 백업 비용을 낮추기 위해 하나의 가용성 영역 만 백업하고 싶습니다. 또한 단일 가용성 영역에서 노드를 복원하는 방법을 실험하고 테스트 환경에서 대부분의 데이터를 가져 왔습니다. 프로덕션 환경에이 솔루션을 배포하기 전에이 접근법에 단점이 있는지 알고 싶습니다. 프로덕션 클러스터에서 이러한 접근 방식을 따르는 사람이 있습니까?AZ 복제 된 카산드라 클러스터에 대해 하나의 가용성 영역 만 백업 할 수 있습니까

참고 : 일정한 간격으로 백업 할 때 스냅 숏 시점에 다른 두 개의 AZ 노드 쿼럼에 대한 업데이트가 느슨 할 수도 있지만 문제는 아닙니다.

답변

0

특정 dc 또는 노드 만 백업 할 수 있습니다. AFAIK, 단점은 데이터 일관성/최신이며, 일부 데이터를 잃을 여유가 있으므로 문제가되지 않아야한다는 것입니다. 예를 들어 모든 일관성 레벨로 쓰기를 수행하는 경우 모든 노드에서 데이터가 최신 상태 여야합니다.

그러나 데이터를 실제로 멀티 A-Z간에 복제하거나 랙/dc 속성으로 재생하거나 멀티 a-z를 지원하는 ec2 스위치를 사용하여 데이터를 복제해야합니다.

편집 :

글로벌 스냅 샷

실행 nodetool 스냅 샷은 한 번에 하나의 노드에서 실행됩니다. 전체 데이터의 부분 백업 만 생성합니다. 클러스터의 모든 노드에서 nodetool 스냅 샷을 실행하려면 이 필요합니다. 그러나 정확한 시간에 실행하는 것이 가장 좋습니다. 따라서 시간적 관점에서 조각화 된 데이터가 없습니다. 이 두 가지 방법을 다른 방법으로 수행 할 수 있습니다. 첫 번째는 병렬 ssh 프로그램을 사용하여 과 동시에 nodetool snapshot 명령을 실행하는 것입니다. 둘째, 은 각 노드에서 동시에 실행하도록 cron 작업을 만드는 것입니다. 두 번째는 노드에 동기화 된 시계가 있다고 가정합니다. 카산드라도 이에 의존합니다. 페이지에

링크 : http://datascale.io/backing-up-cassandra-data/

+0

감사합니다! 이 문서에 나와있는 공식 문서/블로그를 가르쳐 주시겠습니까? – theeminence

+0

"docs"에 대한 링크가 추가되었습니다. 카산드라 스냅 샷은 노드 레벨에서 수행되는 하드 링크 일 뿐이므로 백업하려는 항목은 사용자가 결정합니다. – nevsv