2016-06-06 5 views
1

미니 배치를 사용하는 스토캐스틱 그라데이션 디센트 알고리즘은 일반적으로 미니 배치의 크기 또는 개수를 매개 변수로 사용합니다.SGD 미니 배치 - 모두 같은 크기입니까?

이제 모든 미니 배치가 정확히 동일한 크기 여야합니까? 예를 들어

테이크 MNIST에서 훈련 데이터 (60K 훈련 이미지) 지금 우리에게

857 mini-batches of size 70 (as specified) and one mini-batch of size 10.을 생산 우리는 간단한 루프려고하는 경우에 70

의 미니 배치 크기, ,이 방법을 사용하면 하나의 미니 배치가 다른 것보다 작을 수도 있습니다 (최악의 경우 시나리오 : 크기 1의 미니 배치). 이것은 우리 네트워크가 거의 모든 교육에 대해 배웠던 가중치와 편향에 크게 영향을 줍니까?

답변

4

아니요, 미니 배치는 동일한 크기 일 필요는 없습니다. 그들은 일반적으로 효율성을 이유로 크기가 일정합니다 (메모리를 재 할당하거나 텐서 크기를 조정할 필요가 없습니다). 실제로 각 반복에서 배치의 크기를 샘플링 할 수도 있습니다.

그러나 배치의 크기는 이며, 차이는입니다. 어느 쪽이 최고인지는 말하기 어렵지만 더 작거나 큰 배치 크기를 사용하면 다른 솔루션 (항상 다른 컨버전스 속도)이 발생할 수 있습니다. 이는보다 확률적인 동작 (작은 배치)과 부드러운 업데이트 (양호한 그래디언트 추정기)를 다룰 때의 효과입니다. 특히 미리 정의 된 크기 분포로 확률적인 크기의 배치를 사용하면 두 효과를 동시에 사용할 수 있습니다.하지만이 배포에 적합한 시간은 가치가 없을 수도 있습니다.

+0

감사합니다. 그래도 내가 대답을 찾을 수는 없지만 한 가지 더 질문합니다. 일괄 처리를 유도하는 교육 데이터가 모든 신기원을 뒤섞어서 처리한다면 미니 일괄 처리 샘플을 통해 결과를 향상시킬 수 있습니까? (물론 나는 무작위 개선에 대해 말하지 않고있다 : D) –

+0

그렇게해서는 안된다. 귀하의 미니 배치가 ** 균일하게 ** 샘플링된다는 가정이 있습니다. 일어날 수있는 유일한 방법은 잘못 샘플링하여 ** 결과를 ** 줄일 수 있다는 것입니다 (예를 들어 비 랜덤 방식). 마찬가지로 고전적인 학습 방법이 적대적인 환경에서 작동하는 방식을 분석하기가 어렵습니다. (예를 들어보다 세밀한 예제에 집중할 수 있도록 샘플링을 수정할 때) - 그러면 휴리스틱 (heuristics)에 관한 것입니다 (이론적 결과가 없음). – lejlot

+0

알겠습니다. 이해합니다. 통찰력을 가져 주셔서 감사합니다. –