나는 작은 파일이 덩어리의 작은 숫자, 아마 한 구성되어 Google File Systems Paper작은 파일로 인해 Google 파일 시스템에서 핫 스폿이 생성되는 이유는 무엇입니까?
에서이 문제를 이해하지 않습니다. 이러한 청크를 저장하는 chunkserver는 많은 클라이언트 이 동일한 파일에 액세스하는 경우 핫 스폿이 될 수 있습니다.
작은 파일로는 어떤 차이가 있습니까? 많은 클라이언트가 액세스하는 대용량 파일이 문제를 일으킬 가능성이 있습니까?
나는/다음을 읽고 생각했습니다 : -
- 나는 큰 파일의 덩어리가되어 부하를 분산 다른 chunkservers에 저장되어있는 것을 (내가 틀렸다면 정정 해줘) 가정합니다. 이러한 시나리오에서는 1000 개의 클라이언트가 각 chunkserver에서 파일의 1/100에 액세스한다고합니다. 따라서 각 chunkserver는 필연적으로 1000 개의 요청을 받게됩니다. (1000 개의 클라이언트가 하나의 작은 파일에 액세스하는 것과 같지 않습니다. 서버는 작은 파일에 대해 1000 개의 요청을 받거나 큰 파일의 일부에 대해 1000 개의 요청을받습니다.)
- 나는 스파 스 파일에 대해 약간 읽었습니다. 종이에 따라 작은 파일은 청크 또는 여러 청크를 채 웁니다. 그래서 내 이해에 작은 파일을 재구성하지 않으며 따라서 나는 핫스팟에 대한 가능한 원인으로 이것을 제거했습니다.
"이러한 시나리오에서는 1000 개의 클라이언트가 각 chunkserver의 파일 중 1/100에 액세스하므로 각 chunkserver는 필연적으로 1000 개의 요청을 받게됩니다." 여기서 더 많은 생각을 펼칠 수 있습니까? 클라이언트가 파일의 1/100th에 액세스하는 경우 클라이언트 당 1/100th 청크 서버 만 연결됩니다. 종이가 얻고있는 아이디어는 대용량 파일의 경우 액세스 패턴이 사실상 모든 덩어리를 통해 무작위로 배포된다는 것입니다. – GManNickG
@GManNickG 큰 파일은 100 개의 청크 서버에 저장됩니다. 1000 클라이언트가 특정 파일을 필요로합니다. 그들 모두는 결국 100 개의 chunkservers로부터의 데이터를 필요로 할 것입니다. 따라서 각 chunkserver는 항상 1,000 개의 클라이언트를 제공하게됩니다. 무작위로 배포 된 경우에도 작은 파일에서 생성 된로드와 동일한 요청을 각 파일에서 한 번씩하지 않습니까? 다른 chunkservers에 저장된 큰 파일의 일부가 더 중요합니까? –
Gotcha. 시나리오에서 모든 chunkservers는 결국 1000 번 청크를 제공하지만 예기치 않은 부하가 적습니다. 한 번에 하나의 서버에 데이터를 요청하는 1000 개의 클라이언트가 핫 스폿이며, 100 개의 청크 서버보다 1000 개 많은 클라이언트가 클라이언트가 모든 청크 서버에 동시에 접속하는 것은 아니라고 가정 할 때 모든 서버의 순간 부하가 낮다는 것을 의미합니다. 그러나 실제로 필자가 의도 한 해석은 실용적인 애플리케이션에서는 모든 클라이언트가 파일 전체를 읽지 못하게되는 경우가 있는데,이 경우 청크 서버가 하나의 요청 만 처리한다는 것입니다. – GManNickG