1

나는이 논문을 통해 Multi-Scale Context Aggregation by Dilated Convolutions으로 가고있다.확장 된 컨볼 루션과 패딩을 사용하는 최대 풀링에 대해

최대 풀링/다운 샘플링과 달리 글로벌 컨텍스트를 얻기 위해 확장 된 컨볼 루션을 사용하는 것이 좋습니다. 풀링은 이미지를 축소하고 확장 된 회선은 줄어들지 않기 때문입니다.

내 첫 번째 질문은 다음과 같습니다 그들은 VGG16을 수정하고 마지막 두 최대 풀링 층을 제거하지만, 그들은 단지 모두 최대 풀링 층을 제거하지 않은 이유의 다른 3 최대 풀링 층을 둡니다.? 전산 효율? 작은 이미지가 생성되지 않습니까? 어떻게 원래의 크기, 쌍 선형 보간으로 다시 확장합니까?

내 두 번째 질문은 다음과 같습니다.

"우리는 또한, 중간 패딩은 원래 분류 네트워크에서 사용 된 을 중간 기능지도의 패딩을 제거하지만 : 그들은 신문에주의 조밀 한 예측에 필요하거나 정당화되지 않는다. " 당신이하지 더 우리의 최종 출력의 크기를 줄일 패드하지 않으면

는 왜 특히 팽창 회선이 매우 큰 수용 필드를 가질 수 있음을 주어, 경우 것입니까?

답변

1

첫 번째 질문에 답하면 올바른 것으로 생각됩니다. 출력은 원래 크기의 1/8이며 보간법을 사용하여 원본 크기로 업 샘플링합니다. 증거 자료는 소스 코드 here에서 찾을 수 있습니다. test.py 파일의 test_image 함수에서 기본 확대/축소는 8로 설정됩니다 (103 행). 더 많은 증거가 train.py 파일에서 찾을 수 있습니다. 다시 기본 확대/축소가 True로 설정되고 업 샘플링 레이어를 사용합니다.

크기를 줄이면 크기를 유지하기 위해 패딩을 사용할 필요가 없습니다. 그들의 경우에 패딩이 필요 없다고 생각하는 이유는 세분화가 고밀도 예측의 경우이며 따라서 우리 쪽에서 일부 픽셀을 도입하는 것이 직관적으로 이해가되지 않는다는 것입니다. 그러나 다시 한번 같은 점에 대해 논하는 가장 좋은 방법은 중간 풀링을 사용하거나 사용하지 않고 네트워크를 실제로 테스트하는 것입니다.