입력 벡터/매트릭스 인 N = W1 * Tanh(W2 * I)
형태의 신경 회로망이 있습니다. 이 가중치를 배울 때 출력은 특정 형식을가집니다. 그러나 정규화 레이어를 추가하면 (예 : N' = Softmax(W1 * Tanh(W2 * I))
) N '의 출력 벡터에서 단일 요소는 1에 가까우면서 나머지는 거의 0입니다. SoftMax()뿐만 아니라 모든 정규화 레이어가있는 경우입니다. 그런 문제에 대한 표준 해결책이 있습니까?softmax를 추가하면 무게 업데이트가 크게 바뀝니다
-1
A
답변
0
이것은 softmax function의 동작입니다. 아마도 당신이 필요로하는 것은 시그 모이 드 함수입니다.
+0
yi = yi/sum of yi의 – Rumu
+0
과 같이 간단한 정규화로도 문제가 지속됩니다. 원하는 동작 일 수 있습니다. 필요한 동작은 다른 것일 수 있습니다. 예상되는 결과는 무엇입니까? –
"특정 양식"이란 무엇입니까? 그리고 왜 그것을 문제라고 부릅니까? 이것은 분류에서 정규화를위한 완전히 정상적인 (그리고 바라는) 행동입니다. 정확한 애플리케이션은 무엇입니까 (주의 태그는 있지만 질문에는 주목할 필요가 없습니다) – lejlot
자기 주도형 인코더 - 디코더 모델입니다 (위에서 설명한 N은 자기 주목 모델 임) @lejlot 어떤 형태로, 나는 출력 벡터가 중간까지 증가하고 그 다음에 감소하고 증가하는 것처럼 (0.1,0.3,0.5, 1.5, 0.5, 1, 0.3, 1.2와 같은) 원하는 특성을 가진다는 것을 의미한다. 그러나, Softmax Layer를 추가 한 후에, (0.001, 0.001, 0, 0.01, 0.998, 0.001, 0, 0, ...) 이와 같은 것을 얻습니다. – Rumu
이것은 단순히 출력 'N'이 다른 값보다 훨씬 큰 하나의 값을 갖는다는 것을 의미합니다. 질문에 'N'값을 추가하십시오. – Maxim