2010-06-05 8 views

답변

0

클라우드에 있으면 EC2 인스턴스를 스핀 업하여 영구 Hadoop 클러스터를 만들 수도 있습니다. Cloudera는 그러한 클러스터를 설정하는데 많은 자원을 가지고 있습니다. here.

그러나이 옵션은 하루 종일 작업을 많이하지 않는 한 Amazon Elastic Mapreduce보다 비용 효율적입니다. 클러스터를 상당히 바쁘게 유지하십시오.

다른 옵션은 자체 클러스터를 작성하는 것입니다. Hadoop의 멋진 기능 중 하나는 이기종 하드웨어를 적절한 컴퓨팅 성능을 갖춘 클러스터로 구성 할 수 있다는 것입니다. 서버 룸의 랙에 살 수있는 종류. 주변에있는 오래된 하드웨어가 이미 지불되었다는 것을 고려하면, 그러한 클러스터를 얻는 데 드는 유일한 비용은 새로운 드라이브이며, 아마도 그러한 상자의 용량을 최대화하기위한 충분한 메모리 스틱 일 것입니다. 그런 접근법의 비용 효율성은 아마존보다 훨씬 낫습니다. 유일한주의 사항은 클러스터의 HDFS에 모든 데이터를 정기적으로 가져 오는 데 필요한 대역폭을 가지고 있는지 여부입니다.

1

마이크로 소프트는 윈도우 Azure에서 실행되는 하둡/맵리 듀스를 가지고 있지만, 그러나 아래 링크에서 CTP 액세스에 대한 정보 요청을 제공 할 수 제한 CTP 아래 : 아파치 Hadoop- 기반 서비스에 대한 https://www.hadooponazure.com/ 개발자 미리보기 Windows Azure는 초대를 통해 사용할 수 있습니다.

게다가 Google BigQuery를 사용해 볼 수도 있습니다. Google BigQuery를 사용하면 먼저 데이터를 Google propitiatory Storage로 이동 한 다음 BigQuery를 실행해야합니다. BigQuery는 MapReduce와 유사한 Dremel을 기반으로하지만 열 기반 검색 처리로 인해 더 빠름을 기억하십시오.

모르탄어 데이터를 사용하는 것이 좋습니다. 파이썬과 돼지를 지능적으로 사용하여 쉽게 작업을 작성하고 결과를 시각화 할 수 있습니다. 매우 흥미로 웠습니다. 좀보세요 : http://mortardata.com/#!/how_it_works

1

DataStax Brisk 좋습니다.

전체에 분포

  1. 아파치 하둡
  2. 아파치 하둡 (즉, 공식 이름입니다) 아파치 하둡
  3. DataStax 호조
  4. 아마존 엘라스틱 맵리 듀스
  5. IBM 배포를 포함한 클라우 데라의 배포

개 HDFS 대안

  1. Mapr
  2. Appistry CloudIQ 저장 하둡 판
  3. IBM 글로벌 병렬 파일 시스템 (GPFS)
  4. CloudStore

하둡 맵리 듀스 대안

  1. 퍼베이시브 DataRush
  2. 하이브 계단식
  3. (야후 개발 언어 클라우 데라의 배포판에 포함)
  4. 돼지 (아파치 서브 프로젝트는, 클라우 데라 배포판에 포함되어 있음)를 참조하십시오

: http://gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

1

를 처리하려면 (트위터 피드, 웹 사이트에서 클릭 스트림) 등의 데이터를 대량으로 수집 한 다음 컴퓨터의 클러스터를 사용하여 최근에 트위터에서 opensource'd가 된 "storm"을 확인하십시오.

표준 Apache Hadoop은 대기 시간에 문제가없는 페타 바이트 단위의 데이터를 처리 할 때 유용합니다.

위에서 언급 한 DataStax의 Brisk는 라이브 데이터에서 MapReduce 병렬 처리를 사용할 수 있다는 점에서 매우 독특합니다.

파이프 라인을 사용하여 처리 할 수있는 Hadoop Online과 같은 다른 노력이 있습니다.

분명히 csv (구분 된 레코드)가있는 또 다른 옵션이며 설정없이 슬라이스 앤 다이스 할 수 있습니다. 사용하기가 매우 쉽지만 아니오로 지불해야하는 프리미엄 서비스입니다. 처리 된 바이트 수 (첫 번째 100GB/월는 무료입니다).