2014-10-28 4 views
5

현재 우리 팀은 HDInsight를 사용하는 솔루션을 만들고 있습니다. 우리는 매일 5TB의 데이터를 얻게 될 것이며이 데이터에 대해 일부지도/축소 작업을 수행해야 할 것입니다. 데이터가 Azure HBase 대신 Azure 테이블 스토리지에 저장되는 경우 성능/비용 차이가 있습니까?HDInsight : HBase 또는 Azure 테이블 스토리지?

답변

7

주요 차이점은 기능 및 비용 모두에 있습니다.

Azure 테이블 스토리지에는 맵 축소 엔진이 없으므로 물론지도 축소 방법을 사용하여 직접 작성할 수도 있습니다.

Azure HDInsight를 사용하여 Map Reduce를 테이블 스토리지에 연결할 수 있습니다. 하이브에 중점을두고 약간의 구성이 필요하고, 파티션 구성표 (http://www.simonellistonball.com/technology/hadoop-hive-inputformat-azure-tables/)와 성능에 초점을 맞추지 않지만 Microsoft의 다른 사람 (http://blogs.msdn.com/b/mostlytrue/archive/2014/04/04/analyzing-azure-table-storage-data-with-hdinsight.aspx)의보다 완벽한 버전에 맞지 않는 사람을 포함하여 몇 개의 커넥터가 있습니다.

테이블 스토리지의 주요 이점은 처리 비용을 지속적으로 부담하지 않는다는 것입니다.

HBase를 사용하는 경우 항상 전체 클러스터를 실행해야하므로 비용상의 단점이 있지만 일부 기능과 성능이 향상되고 더 많은 것을 휴대 할 수 있어야합니다. 당신은 다른 hadoop 플랫폼을 사용하기를 원한다. 또한 HBase 옵션을 사용하여 훨씬 더 광범위한 분석 기능에 액세스 할 수 있습니다.

2

HDInsight (HBase/Hadoop)는 ATS가 아닌 Azure Blob 저장소를 사용합니다. 귀하의 데이터 스토리지의 경우 귀하의 가입을 기준으로 해당 BLOB 스토리지 비용 만 청구됩니다.

P. 비용이 발생하지 않도록 작업이 완료되면 클러스터를 삭제하는 것을 잊지 마십시오. 데이터는 BLOB 저장소에 저장되며 다음에 빌드하는 클러스터에서 사용할 수 있습니다.

+3

BLOB 저장소가 주 저장소 메커니즘이지만 HDInsight 클러스터가 테이블 저장소 데이터를 처리 할 수 ​​있도록 StorageHandler를 작성할 수 있습니다. –