2016-08-25 5 views
0

키 공간의 열 패밀리에서 동일한 데이터 센터의 다른 키 공간으로 데이터를 복사합니다. 그리고 우리는 cf size 또는 no를 검증하려고합니다. 복사 된 레코드의 개수는 원본 cf의 개수와 동일합니다. 전체 클러스터에서 cf의 크기를 측정 할 수있는 방법이 있습니까?키 공간의 한 테이블에서 카산드라의 다른 키 공간에있는 테이블로 복사 된 데이터의 유효성을 검사하는 방법은 무엇입니까?

답변

1

AFAIK 카산드라는 테이블 당/클러스터 행 수를 유지 관리하지 않습니다. 일반적으로 데이터 세트 크기에 따라 다릅니다.

  • 작은 데이터 세트 : 실행 select count(*) from <table> limit <max_number_of_rows>.
  • 큰 데이터 세트 : (페이징과 함께) 모든 테이블을 통해 검색 카산드라 드라이버를 사용하는 스크립트를 작성 모든 행을
  • 큰 데이터 세트, 두번째 방법을 계산 : csv 파일에 테이블을 덤프 cqlsh copy를 사용하여 다음 줄을 계산 .
  • 매우 큰 데이터 세트 : Spark + Cassandra 커넥터를 사용하여 전체 클러스터에로드를 분산시킵니다.