hadoop/hive/spark /를 포함한 큰 데이터 클러스터를 관리 할 수있는 오픈 소스 소프트웨어는 무엇입니까?

나를위한 오픈 소스 시스템을 찾고 있는데, 내 큰 데이터 클러스터은 hadoop, hdfs, hive, spark, oozie, hbase, zookeeper, kylin과 같은 구성 요소를 포함한 50 개 이상의 기계로 구성되어있다. 을 관리한다. 나는은 "관리"의 웹 시스템 국지적 인 의미에서에게이를 관리 원하는 :hadoop/hive/spark /를 포함한 큰 데이터 클러스터를 관리 할 수있는 오픈 소스 소프트웨어는 무엇입니까?

내가 할 수 를 다시 시작 과 같은 하나의 클릭으로 구성 요소를 하나씩, 내가 같은 나는 새로운 사육사를 배포 때와 한 번의 클릭으로 구성 요소를 배포 할 수있는 또 다른

에 의해 구성 요소 사육사가 다시 시작 합니다 하나의 시스템을 "다시 시작"버튼을 클릭, 나는 컴파일 사육사을 만들 수 있습니다 준비된 한 컴퓨터에서 "배포"를 클릭하면 모든 컴퓨터에 자동으로 배포됩니다 .

나는 다음 업데이트 사육사 것, 그때 내가 "업데이트"를 클릭, 기계에 업데이트 된 사육사 를 넣을 수 있습니다, 같은 나는 사육사 클러스터를 업데이트 할 때와 같이, 단 하나의 클릭으로에게 구성 요소를 업그레이드 할 수 있습니다 다른 컴퓨터의 모든 사육사를 무시합니다. 모두 모두

는, 내가 원하는, 로그를 보려면, 업그레이드, 배포 구성을 수정 등등, 또는 적어도 그들 중 일부를 다시 시작처럼 내 빅 데이터 클러스터에 대한 관리 시스템입니다.

가 나는 Ambari고려한 있지만 절대 스크래치에서 내 전체 시스템 를 배포하는 데 사용할 수 있지만, 내 큰 데이터 클러스터는 이미 일년 동안 실행됩니다.

제안 사항?

출처

2017-04-11 wuchang

이 클릭 기능의 목적은 무엇입니까? 클러스터를 수동으로 관리하거나 들어오는 작업 부하를 기반으로 이러한 작업을 자동화 할 계획입니까? 메타 스케줄러는 두 번째 계획에 도움이되지만 필요에 맞게 자신의 원 클릭 기능을 개발해야 할 수도 있습니다. – XYZ123

Ambari는 원하는 것입니다. 열거 된 요구 사항을 충족하는 hadoop 스택을 관리하기위한 유일한 오픈 소스 솔루션입니다. 이미 프로비저닝 된 클러스터에서 작동하지 않는 것이 옳습니다. 이는 모든 서비스와 긴밀한 통합을 달성하기 위해 프로비저닝 된 방법과 모든 것이 어디에 있는지 그리고 각각의 구성이 어떤 것인지를 알아야하기 때문입니다. Ambari가 이러한 서비스를 제공하는 데 사용 되었다면이를 알 수있는 유일한 방법입니다.

Ambari를 사용하여 클러스터를 다시 생성하는 데 시간을 투자하면 고통 스럽지만 장기적으로 서비스를 쉽게 업그레이드하고 관리 할 수있는 추가 기능으로 인해 성과를 거둘 수 있습니다.

출처

2017-04-13 15:17:07 cjackson

큰 도움을 주셔서 대단히 감사합니다. 지금 나를위한 두 가지 선택 : 내 시스템을 엠마리 시스템으로 이동하거나 처음부터 시스템을 개발하십시오. 두 가지를 모두 평가하고 최종 결정을 내릴 것입니다. – wuchang

클라우 데아 매니저 (Cloudera Manager)도 좋은 선택인지는 의심 스럽습니다. – wuchang

hadoop/hive/spark /를 포함한 큰 데이터 클러스터를 관리 할 수있는 오픈 소스 소프트웨어는 무엇입니까?

답변

관련 문제