Learning-Developer 2019. 10. 15. 17:39

거의 모든 심층 학습은 확률적 경사 하강법(stochastic gradient descent, SGD)이라고 하는 아주 중요한 알고리즘의 힘으로 진행된다. 

기계 학습에서는, 일반화가 잘 되려면 훈련 집합이 커야 하지만, 훈련 집합이 크면 계산 비용이 커진다는 딜레마에 자주 빠진다.

기계 학습 알고리즘이 사용하는 비용함수를, 어떤 견본별 손실함수의 훈련 견본들에 관한 합으로 분해할 수 있을 때가 많다. 

SGD에 깔린 통찰은, 기울기가 하나의 기댓값이라는 것이다. 

기댓값으로서의 기울기가 적은 수의 표본들을 이용해서 근사적으로 구한 추정값일 수있다. 

경사 하강 알고리즘의 각 단계에서는 훈련 집합에서 적은 수의 견본들을 고르게 뽑아서 하나의 미니배치(minibatch)를 만든다. 

특히 중요한 것은, 학습 과정에서 훈련 집합 크기 m을 계속 키워도 이 m'은 그대로 고정하는 경우가 많다는 것이다.