미니 배치를 사용하는 스토캐스틱 그라데이션 디센트 알고리즘은 일반적으로 미니 배치의 크기 또는 개수를 매개 변수로 사용합니다.SGD 미니 배치 - 모두 같은 크기입니까?
이제 모든 미니 배치가 정확히 동일한 크기 여야합니까? 예를 들어
테이크 MNIST에서 훈련 데이터 (60K 훈련 이미지) 지금 우리에게
857 mini-batches of size 70 (as specified) and one mini-batch of size 10.
을 생산 우리는 간단한 루프려고하는 경우에 70
의 미니 배치 크기, ,이 방법을 사용하면 하나의 미니 배치가 다른 것보다 작을 수도 있습니다 (최악의 경우 시나리오 : 크기 1의 미니 배치). 이것은 우리 네트워크가 거의 모든 교육에 대해 배웠던 가중치와 편향에 크게 영향을 줍니까?
감사합니다. 그래도 내가 대답을 찾을 수는 없지만 한 가지 더 질문합니다. 일괄 처리를 유도하는 교육 데이터가 모든 신기원을 뒤섞어서 처리한다면 미니 일괄 처리 샘플을 통해 결과를 향상시킬 수 있습니까? (물론 나는 무작위 개선에 대해 말하지 않고있다 : D) –
그렇게해서는 안된다. 귀하의 미니 배치가 ** 균일하게 ** 샘플링된다는 가정이 있습니다. 일어날 수있는 유일한 방법은 잘못 샘플링하여 ** 결과를 ** 줄일 수 있다는 것입니다 (예를 들어 비 랜덤 방식). 마찬가지로 고전적인 학습 방법이 적대적인 환경에서 작동하는 방식을 분석하기가 어렵습니다. (예를 들어보다 세밀한 예제에 집중할 수 있도록 샘플링을 수정할 때) - 그러면 휴리스틱 (heuristics)에 관한 것입니다 (이론적 결과가 없음). – lejlot
알겠습니다. 이해합니다. 통찰력을 가져 주셔서 감사합니다. –