2017-10-06 10 views
1

분류 자 ​​네트워크의 숨겨진 레이어는 sigmoid 또는 다른 활성화 함수를 사용하여 비선형 성을 도입하고 데이터를 정규화하지만 마지막 레이어는 softmax와 함께 sigmoid를 사용합니까?분류 자 ​​신경망의 마지막 층은 시그 모이 드와 소프트 맥을 모두 사용합니까?

나는 그것이 중요하지 않으며 네트워크가 어느 방향 으로든 훈련 될 것이라고 생각하지만 - softmax 레이어 만 사용해야합니까? 또는 시그 모이 드 함수를 먼저 적용해야합니까?

답변

1

일반적으로 softmax 출력 레이어 바로 앞에 추가로 Sigmoid가 활성화 될 필요는 없습니다. 시그 모이 드 함수가 a partial case of softmax이기 때문에 값을 [0, 1] 간격으로 두 번 연속 스쿼시하면 거의 균일 한 출력 분포가됩니다. 물론 이것을 통해 전파 할 수는 있지만 효율성은 훨씬 떨어집니다.

그런데 ReLu를 사용하지 않기로 결정했다면, tanh은 반드시 Sigmoid보다 a better activation function입니다.

+0

고마워요! 분류기에서 tanh vs sigmoid에 대해 더 읽을 수있는 자료로 나를 안내 할 수 있습니까? 나는 그들이 이전에 극도로 비교할 수 있다고 묘사 한 것을 보았습니다. –

+0

@EvanWeissburg 물론이 게시물을 추천합니다 - http://cs231n.github.io/neural-networks-1/#actfun – Maxim