필자는 파일 시스템으로 사용할 수 있다고 생각합니다. 작업에 가장 적합한 도구입니다.
예, Azure Blobs Storage는 클라우드 파일 시스템으로 사용할 수 있습니다.
데이터 세트에는 거의 모든 작은 파일의 수백만 파일이 포함되어있어 총 400GB에 달합니다. 평균 파일 크기는 약 50kb이지만 일부 파일은 40MB를 초과 할 수 있습니다.
David와 Gaurav Mantri가 언급했듯이 Azure Blob Storage는이 요구 사항을 충족시킬 수 있습니다.
나는 후손을 위해 기존 데이터 세트를 유지해야합니다.
Azure Blob 저장소의 데이터는 내구성이 있습니다. SERVICE LEVEL AGREEMENTS of Storage을 참조 할 수 있습니다.
새 파일을 매일 업로드 한 다음 한 번 처리합니다. 처리는 백그라운드 작업자가 대기열에서 파일을 읽음으로써 처리됩니다.
파일 처리 작업을 수행하려면 Azure 기능을 사용할 수 있습니다. 하루에 한 번 수행하므로 TimerTrigger 함수를 추가 할 수 있습니다.
//This function will be executed once a day
public static void TimerJob([TimerTrigger("0 0 0 * * *")] TimerInfo timerInfo)
{
//write the processing job here
}
특정 파일은 초기 처리 후 재 처리/검토/다운로드 할 수있다.
블롭은 원하는 언제든지 다운로드하거나 업데이트 할 수 있습니다.
또한 데이터 처리 작업이 매우 복잡하면 Azure Data Lake Store에 데이터를 저장하고 MapReduce 또는 Hive와 같은 Hadoop 분석 프레임 워크를 사용하여 데이터를 처리 할 수 있습니다. Microsoft Azure HDInsight 클러스터는 Data Lake Store에 저장된 데이터에 직접 액세스하도록 프로비저닝 및 구성 할 수 있습니다.
다음은 Azure Data Lake Store와 Azure Blob Storage의 차이점입니다.
Comparing Azure Data Lake Store and Azure Blob Storage
정확히 무엇을 요구하고 있는지 확실하지 않습니다. BLOB 저장소는 객체의 수에 대한 특정 제한이 없습니다. 500TB 스토리지 계정 크기 제한으로 인해 제한됩니다. –
저는 올바른 일에 올바른 도구를 사용하고 있는지 확인하고 싶습니다. 나는 그것을 파일 시스템으로 사용할 수 있다고 생각하고있다. 작업을위한 가장 적합한 도구는 ... 파일 시스템으로 사용해야한다. 나는 스크류 드라이버를 사용하여 손톱을 망가 뜨릴 수는 있지만 작업에 적합한 도구는 아닙니다. –