현재 데이터 엔지니어링을 시작하려고합니다.이 작업을 수행하는 가장 좋은 방법은 하둡 스택에 대한 기본적인 이해를 얻는 것입니다 (Cloudera 퀵 스타트 VM/튜토리얼 사용) 내 자신의 프로젝트를 만들려고 노력하십시오. 트위터 데이터를 수집하고 HDFS 또는 HBASE에 저장 한 다음 저장된 데이터에 대해 일종의 분석을 실행하는 데이터 파이프 라인을 만들고 싶습니다. 나는 또한 실시간 스트리밍 데이터를 사용하고, 과거/배치 데이터는 사용하지 않는 것을 선호한다. 내 데이터 흐름은 다음과 같습니다.트위터 스트림을 사용하는 빅 데이터 프로젝트 요구 사항
Twitter Stream API --> Flume --> HDFS --> Spark/MapReduce --> Some DB
데이터를 가져 와서 분석하는 좋은 방법입니까?
또, 내가 어떻게이 호스트/모든 것을 저장할 것을 권하고 싶습니까?
hadoop을 실행하기 위해 AWS ec2에서 하나의 인스턴스를 갖는 것이 더 좋습니까? 내 데스크탑의 로컬 VM에서이 모든 것을 실행해야합니까?
시작할 노드 클러스터를 하나만 만들 계획입니다.
Hadoop이 전혀 필요하지 않습니다. 이전 질문은 스파크가 있다는 것을 나타내므로 트위터에서 읽었을뿐입니다. http://bahir.apache.org/docs/spark/current/spark-streaming-twitter/ –