이전에 살펴본 선형 모형들과 비한 신경망의 가장 큰 차이점은, 신경망은 비선형성이기 떄문에 볼록함수를 손실함수로 사용하기가 적합하지 않을 때가 많다는 것이다.
비볼록 손실함수에 확률적 경사하강법을 적용할 떄는 수렴이 보장되지 않으며, 결과가 초기 매개변수들에 민감하게 변한다.
대부분의 현대적 신경망은 최대가능도를 사용해서 훈련한다.
많은 경우, 은닉 단위나 출력 단위의 출력을 산출하는 데 쓰이는 활성화 함수가 포화하면 비용함수의 기울기가 아주 작아진다.
그런 현상을 피하는 데 음의 로그 가능도가 도움이 되는 모형이 많다.
'Textbook - Deep Learning (심층학습) > 6. 심층 순방향 신경망' 카테고리의 다른 글
6.5 역전파와 기타 미분 알고리즘들 (0) | 2019.10.16 |
---|---|
6.4 아키텍처 설계 (0) | 2019.10.16 |
6.3 은닉 단위 (0) | 2019.10.16 |
6.1 심층 순방향 신경망 (0) | 2019.10.16 |