2017-11-20 4 views
0

나는 3 개의 서버를 가지고 있으며 hadoop 성능을 테스트하려고합니다.hadoop 삽입 성능 대 데이터베이스

cassandra과 같은 데이터베이스보다 더 빨리 데이터를로드하고 있습니까?

임팔라를 사용하고 싶다면 데이터 삽입이 느려 집니까?

답변

1

데이터가 hadsop에 casssandra와 같은 데이터베이스보다 빠릅니다.

일반적으로 예. Hadoop에 파일을로드하는 것은 단순히 데이터 복사 작업입니다. 데이터베이스 업로드와 직접 비교할 수 없습니다.

바닐라 맵 축소는 일괄 처리에 적합합니다. Cassandra는 빠르지 만 수신 데이터를 복제하려면 &을 계속 정렬해야합니다. hbase, kudu, scylladb 등의 시스템과 비교하는 것이 더 좋습니다.

임펄스를 사용하려면 데이터 삽입이 느려 집니까?

아니요. 임팔라의 데이터 인서 터 (datasink 라 불리는)는 디스크 IO와 관련하여 품질이 좋습니다. 또한 HDFS의 단락 기능을 사용하여 오버 헤드를 줄입니다. 그것은 바닐라 맵보다 훨씬 빠르다. 많은 데이터 포맷에서 map-reduce가 가능하다.