이 두 개의 서로 다른 폭 넓은 질문입니다하지만 난 대답을 시도하게하고 저에게 당신의 지식을 공유하십시오 당신의 입력 줘 -
1) 무엇 아파치 스파크 SQL과 MongoDB의 차이점은 무엇입니까?
스파크 SQL은 SQL 쿼리에서 빅 데이터에 대해 병렬 컴퓨팅 연산을 수행하기 위해 Apache Spark에서 제공하는 라이브러리입니다. MongoDB는 문서 저장소이며 본질적으로 데이터베이스이므로 저장소가 아닌 컴퓨팅 엔진 인 Spark와 비교할 수 없습니다.
2) SparkSQL, MongoDB 또는 결합 된 방식을 사용하려면 어떤 종류의 장소/시나리오/도메인이 필요합니까?
SparkSQL은 Spark Cluster에서 가져온 구조 데이터를 처리하는 데 이상적 일 수 있습니다. Mongodb는 NoSQL 기능을 필요로하는 곳에서 이상적 일 수 있습니다. (NoSQL 기능은 SparkSQL과 비교됩니다.)
3) Apache Spark는 mondoDB, cassandra ...와 유사합니다.
서로 다른 범위에 있기 때문에 정확하지 않습니다. Apache Spark가 대체되지는 않지만 큰 데이터 세트에서 병렬 계산을 위해 Map-reduce의 후임으로 호출 될 수 있습니다.
4) 필자는 MongoDB에 여러 테라 바이트의 데이터가 있음을보고 데이터 분석을 수행 한 다음 보고서를 제공해야합니다.
jdbc 드라이버를 사용하여 spong dataframe을 사용하여 MongoDB에서 데이터를 읽은 다음 데이터 프레임에서 일부 Spark SQL 쿼리를 실행 한 다음 pyplot과 같은 다른 시각화 도구를 사용하여 보고서를 생성 할 수 있습니다.
감사합니다.
찰스.
감사합니다, Wasiq Muhammad –