2016-09-23 5 views
0

나는 경험이 오직 RDBMS PostgresSQL만이야말로 아파치 스파크와 MongoDB 새로운.
다음과 같은 혼란을 겪고있는 메신저

Apache Spark SQL과 MongoDB의 차이점은 무엇입니까?

1) Apache Spark SQL과 MongoDB의 차이점은 무엇입니까?
2) SparkSQL, MongoDB 또는 결합 된 방식을 사용하기 위해 필요한 장소/시나리오/도메인은 무엇입니까?
3) Apache Spark는 mondoDB, cassandra ...와 (과) 바꿉니다.
4) MongoDB에서 여러 테라 바이트의 데이터를 가지고 있는데 데이터 분석을 원하고 보고서를 제공해야합니다.

그래서

감사
샨 S

답변

5

1) 아파치 스파크 : SQL 쿼리에 빅 데이터에 대한 병렬 컴퓨팅 작업을 수행하기위한 아파치 스파크.

MongoDB를 : 하여 MongoDB는 문서의 저장과 본질적으로 그렇게 컴퓨팅 엔진이 아닌 가게 스파크와 비교 할 수없는 데이터베이스입니다.

2) SparkSQL은 대규모 컴퓨팅에 사용할 수있는 수백만 개의 데이터가있는 Spark Cluster에서 가져온 구조 데이터를 처리하는 데 이상적 일 수 있습니다. Mongodb는 NoSQL 기능이 필요한 곳에서 사용할 수 있습니다 (NoSQL 기능은 모두 SparkSQL과 비교됩니다).

3) 없음 아파치 스파크는 서로 다른 목적으로 사용, 당신은 mondoDB로 대체 할 수없는, cassandra.It는 large data sets

4) 사용에 결과를 예측주는 엔진을 계산하는 것과 같다 SLAM DATA와 같은 타사 서비스 http://slamdata.com/ mongodb 분석을 적용하려면 스파크 데이터 프레임을 사용하여 MongoDB에서 데이터를 읽으십시오.

+0

감사합니다, Wasiq Muhammad –

3

이 두 개의 서로 다른 폭 넓은 질문입니다하지만 난 대답을 시도하게하고 저에게 당신의 지식을 공유하십시오 당신의 입력 줘 -

1) 무엇 아파치 스파크 SQL과 MongoDB의 차이점은 무엇입니까?

스파크 SQL은 SQL 쿼리에서 빅 데이터에 대해 병렬 컴퓨팅 연산을 수행하기 위해 Apache Spark에서 제공하는 라이브러리입니다. MongoDB는 문서 저장소이며 본질적으로 데이터베이스이므로 저장소가 아닌 컴퓨팅 엔진 인 Spark와 비교할 수 없습니다.

2) SparkSQL, MongoDB 또는 결합 된 방식을 사용하려면 어떤 종류의 장소/시나리오/도메인이 필요합니까?

SparkSQL은 Spark Cluster에서 가져온 구조 데이터를 처리하는 데 이상적 일 수 있습니다. Mongodb는 NoSQL 기능을 필요로하는 곳에서 이상적 일 수 있습니다. (NoSQL 기능은 SparkSQL과 비교됩니다.)

3) Apache Spark는 mondoDB, cassandra ...와 유사합니다.

서로 다른 범위에 있기 때문에 정확하지 않습니다. Apache Spark가 대체되지는 않지만 큰 데이터 세트에서 병렬 계산을 위해 Map-reduce의 후임으로 호출 될 수 있습니다.

4) 필자는 MongoDB에 여러 테라 바이트의 데이터가 있음을보고 데이터 분석을 수행 한 다음 보고서를 제공해야합니다.

jdbc 드라이버를 사용하여 spong dataframe을 사용하여 MongoDB에서 데이터를 읽은 다음 데이터 프레임에서 일부 Spark SQL 쿼리를 실행 한 다음 pyplot과 같은 다른 시각화 도구를 사용하여 보고서를 생성 할 수 있습니다.

감사합니다.

찰스.

+0

감사합니다. 제 경우에는 MongoDB 클러스터에 수백만 개의 레코드가 있습니다. 해당 레코드에서 집계, 집계, 합계, groupby, 정렬 작업을 수행하려고합니다. 그런 다음 집계 된 데이터는 일부 그래프 도구를 제공해야합니다. 이것은 전반적인 작업입니다. 입력 한 내용을 통해 나는 이렇게 이해했습니다. 1) mongoDB 클러스터의 데이터를 Spark Cluster에로드하고 싶습니다. 2) 그럼 Spark Cluster에서 SparkSQL으로 데이터를 가져와야합니다. 3) 그럼 SparkSQL을 사용하여 집계, 개수, 합계, 정렬 작업을 수행해야합니다. 4) 전체 집계, 합계, 정렬 작업 후 그래프 도구에 해당 데이터를 제공해야합니다. 맞습니까? –