2017-12-18 5 views
0

우리는 cassandra를 사용하여 .csv 및 구조화되지 않은 데이터를 프로젝트에 저장합니다. 데이터는 GB 단위 일 수 있습니다. 그래서 나는 Cassandra에 데이터를로드하는 더 좋은 방법인지 도구인지 알고 싶습니다. SSTables는 많은 양의 데이터를 처리 할 수 ​​있습니까? 아니면 스파크 나 YCSB 같은 도구를 사용해야합니까?cassandra에 데이터를로드하는 데 더 유용한 도구는 무엇입니까?

답변

2

(면책 조항 : 나는 해요 ScyllaDB 직원)

SStables 쉽게 데이터 (훨씬 더도하고 ...)

나는 것보다 당신이 SStable 형식으로 데이터가있는 경우이 크기를 저장할 수 있습니다 SStableLoader 유틸리티를 사용하는 것이 좋습니다. 매개 변수없이 실행하면 옵션 목록과 사용법이 표시됩니다. 가장 중요한 것은 sstables 디렉토리와 노드 IP입니다. 성능을 향상시키기 때문에 준비된 명령문에 -x 플래그를 사용하는 것이 좋습니다.

예 :

  • sstableloader -x -d [node IP] .../[ks]/[table]
  • sstableloader -x -d [node IP] .../[mount point] (in /[ks]/[table] format)

또 다른 옵션은 대량 복사를 사용하는 것입니다. 예 : copy keyspace1.table1 FROM 'a.csv' WITH HEADER=TRUE;

카산드라와 실라의 대용량 데이터 수집 속도에 대해서는 blog을 읽어 보시기 바랍니다. 또 다른 blog은 다양한 DB 아키텍처에서 데이터를로드하는 것과 관련하여 흥미로운 부분을 찾을 수 있습니다.

행운과 행복한 로딩.

+0

감사합니다. 내 프로젝트에 SSTables를 구현하려고합니다. –