우리는 cassandra를 사용하여 .csv 및 구조화되지 않은 데이터를 프로젝트에 저장합니다. 데이터는 GB 단위 일 수 있습니다. 그래서 나는 Cassandra에 데이터를로드하는 더 좋은 방법인지 도구인지 알고 싶습니다. SSTables는 많은 양의 데이터를 처리 할 수 있습니까? 아니면 스파크 나 YCSB 같은 도구를 사용해야합니까?cassandra에 데이터를로드하는 데 더 유용한 도구는 무엇입니까?
0
A
답변
2
(면책 조항 : 나는 해요 ScyllaDB 직원)
SStables 쉽게 데이터 (훨씬 더도하고 ...)
나는 것보다 당신이 SStable 형식으로 데이터가있는 경우이 크기를 저장할 수 있습니다 SStableLoader 유틸리티를 사용하는 것이 좋습니다. 매개 변수없이 실행하면 옵션 목록과 사용법이 표시됩니다. 가장 중요한 것은 sstables 디렉토리와 노드 IP입니다. 성능을 향상시키기 때문에 준비된 명령문에 -x 플래그를 사용하는 것이 좋습니다.
예 :
sstableloader -x -d [node IP] .../[ks]/[table]
sstableloader -x -d [node IP] .../[mount point] (in /[ks]/[table] format)
또 다른 옵션은 대량 복사를 사용하는 것입니다. 예 : copy keyspace1.table1 FROM 'a.csv' WITH HEADER=TRUE;
카산드라와 실라의 대용량 데이터 수집 속도에 대해서는 blog을 읽어 보시기 바랍니다. 또 다른 blog은 다양한 DB 아키텍처에서 데이터를로드하는 것과 관련하여 흥미로운 부분을 찾을 수 있습니다.
행운과 행복한 로딩.
감사합니다. 내 프로젝트에 SSTables를 구현하려고합니다. –