본문 바로가기

Textbook - Deep Learning (심층학습)/5. 기계학습의 기초

5.6 베이즈 통계학

빈도론자 통계학(frequentist statistics, 또는 빈도주의 통계학)에서는 θ의 한 가지 값을 추정한다.

그리고 그 추정값에 기초해서 모든 예측을 수행한다.

베이즈 통계학(bayesian statistics)의 영역에서는 θ의 모든 값을 고려해서 예측을 수행한다. 

자료를 관측하기 전에 우리가 θ에 관해 알고 있는 지식을 사전확률분포(prior probability distribution) p(θ)로 표현한다.

일반적으로 그 어떤 자료도 관측하기 전에는 θ 값의 불확실성이 아주 크기 때문에 상당히 넓은 사전분포를 선택한다.

자료 표본들의 집합이 있을 때, 이 자료가 θ에 대한 우리의 믿음(belief)에 미치는 효과는 자료의 가능도를 다음과 같이 베이즈 법칙에 따라 사전분포와 결합해서 구할 수 있다.

최대가능도 추정에 비해 베이즈 추정은 두 가지 중요한 차이점이 있다.

첫째로, 최대가능도 접근 방식은 θ 의 점 추정값 하나를 이용해서 예측을 수행하지만, 베이즈 접근 방식은 θ 에 관한 분포 전체를 이용해서 예측을 수행한다는 것.

두번째로, 베이즈 접근 방식에서는 사전분포가 예측에 기여한다는 것

일반적으로, 훈련 자료가 제한적일 때 최대가능도 접근 방식보다 베이즈 접근 방식이 훨씬 잘 일반화 된다. 

그러나 훈련 견본이 많을 때는 계산 비용이 커진다는 단점이 있다. 

원리가 있는 접근 방식들은 대부분 매개변수 θ 에 관한 베이즈 사후확률 전체를 이용해서 예측을 수행하지만, 점 추정값 하나만 구하는 것이 바람직할 때도 여전히 많다.

사전분포가 점 추정값의 선택에 영향을 미치게 함으로써 베이즈 접근 방식의 장점을 취할 수 있는데, 최대 사후확률(maximum a posteriori, MAP) 점 추정값을 사용한다.