신경망은 단지 (큰) 수학적 기능입니다. 동일한 레이어의 여러 뉴런에 대해 서로 다른 활성화 함수를 사용할 수도 있습니다. 상이한 활성화 함수는 상이한 비선형 성을 허용하며, 이는 특정 함수를 푸는데 더 효과적 일 수있다. 탄 (tanh)과 반대로 시그 모이 드 (sigmoid)를 사용하면 한계가 있습니다. 더 중요한 것은 활성화에 훌륭한 파생물이 있다는 것입니다. tanh 및 sigmoid가 일반적으로 사용되는 이유는 0에 가까운 값의 경우 선형 함수처럼 작용하지만 큰 절대 값의 경우에는 부호 함수 ((-1 또는 0) 또는 1)와 더 비슷하게 작동하며 좋은 파생 값을가집니다. 상대적으로 새로 도입 된 것은 ReLU (max (x, 0))로, 파생 함수가 매우 간단하고 (x = 0 제외), 비선형이지만 계산 속도가 빠르기 때문에 훈련이 많은 깊은 네트워크에 좋습니다. 타임스.
글로벌 성능의 경우이 선택 사항은 그다지 중요하지 않으며 비선형 성 및 제한 범위는 중요합니다. 마지막 백분율 포인트를 짜내려면이 선택 사항이 중요하지만 대부분 특정 데이터에 의존합니다. 숨겨진 레이어의 수와이 레이어 내부의 뉴런 수와 같은 선택은 crossvalidation에 의해 발견되어야합니다. 그러나 이들을 포함하도록 유전 연산자를 적용 할 수 있습니다.