본문 바로가기

Textbook - Deep Learning (심층학습)

(18)

7.0 Intro 기계 학습의 중심 문제는, 알고리즘이 훈련 자료뿐만 아니라 새로운 입력에 대해서도 잘 작동하게 만드는 것이다. 기계 학습에 쓰이는 전략 중에는 시험 오차의 감소를 주된 목표로 삼아 설계된 것들이 많다. 심지어, 훈련 오차가 증가하는 대가를 치르더라도 시험 오차를 줄이려는 전략들이 많이 있다. 이와 같은 전략들을 통칭해서 정칙화(regularizaton)라고 부른다. 훈련 오차가 아니라 일반화 오차를 줄이기 위해 학습 알고리즘에 가하는 모든 종류의 수정이 정칙화에 해당한다. 추가 제약과 벌점(penalty)들을 잘 선택한다면, 학습 모형의 시험 집합에 대한 성과가 향상될 수 있다.

6.5 역전파와 기타 미분 알고리즘들

6.4 아키텍처 설계 아키텍처(architecture)는 이를테면 단위 개수나 단위들의 연결 방식 등을 포괄하는, 신경망의 전반적인 구조를 뜻한다. 사슬 기반 아키텍처에서 신경망의 구조에 관한 주된 고려사항은 신경망의 깊이와 각 층의 너비를 선택하는 것이다. 주어진 과제에 이상적인 신경망 아키텍츠는 검증 집합 오차를 지침으로 삼아 실험을 거듭해서 찾아내야 한다.

6.3 은닉 단위 신경망의 설계 과정은 시행착오의 연속이다. 즉, 우리는 잘 작동할 것 같은 출력 단위의 종류를 직관적으로 선택하고, 그 출력 단위들이 있는 신경망을 훈련하고, 검증 집합으로 신경망의 성과를 평가하는 과정을 반복한다.

6.2 기울기 기반 학습 이전에 살펴본 선형 모형들과 비한 신경망의 가장 큰 차이점은, 신경망은 비선형성이기 떄문에 볼록함수를 손실함수로 사용하기가 적합하지 않을 때가 많다는 것이다. 비볼록 손실함수에 확률적 경사하강법을 적용할 떄는 수렴이 보장되지 않으며, 결과가 초기 매개변수들에 민감하게 변한다. 대부분의 현대적 신경망은 최대가능도를 사용해서 훈련한다. 많은 경우, 은닉 단위나 출력 단위의 출력을 산출하는 데 쓰이는 활성화 함수가 포화하면 비용함수의 기울기가 아주 작아진다. 그런 현상을 피하는 데 음의 로그 가능도가 도움이 되는 모형이 많다.

6.1 심층 순방향 신경망 심층 순방향 신경망(deep forward network)은 다층 퍼셉트론(multilayer perceptron, MLP)이라고 부르기도 한다. 순방향 신경망을 이해하는 한 가지 방법은 선형 모형의 한계를 어떻게 극복할지 고민해 보는 것이다. 선형 모형에는 모형의 수용력이 선형 함수들로만 국한된다는 명백한 결함이 있다. 선형 모형을 비선형 함수들로 확장하는 한 방법은, 선형 모형을 x 자체가 아니라 변환된 입력 φ(x)에 적용하는 것이다. 대부분의 신경망은 활성화 함수라는 비선형 함수를 적용해서 특징들을 서술한다.

5.11 심층 학습의 개발 동기가 된 기존 문제점들 기계 학습이 풀고자 하는 문제 중에는 자료의 차원이 높을 때 특히나 풀기 어려워지는 문제가 많다. 그런 현상을 차원의 저주(curse of dimensionality)라고 부른다. 특히 골치 아픈 점은, 변수의 개수가 증가함에 따라 그 변수들의 특정 값들로 이루어진 서로 다른 구성의 개수가 지수적으로 증가한다는 것이다. 기계 학습 알고리즘이 잘 일반화되려면, 알고리즘이 배워야 할 함수의 종류에 관한 사전 믿음(prior belief)들을 알고리즘에 제공할 필요가 있다. 이전에 살펴본 예제들에서는 그러한 사전 믿음들을 모형의 매개변수들에 관한 확률분포의 형태로 명시적으로 지정했다. 그런 암묵적 사전 믿음 또는 '사전 분포'로 가장 널리 쓰이는 것은 평활성(매끈함) 사전분포(smoothness prior)이..

5.10 기계 학습 알고리즘 만들기 거의 모든 심층 학습 알고리즘은 비교적 간단한 '조리법'을 필요에 따라 구체적으로 적용한 사례에 해당한다. 비교적 간단한 조리법이라느, 자료 집합의 명세와 비용함수, 최적화 절차, 그리고 모형을 결합한다는 것이다. 한 학습 알고리즘의 각 구성요소를 다른 구성요소들과 거의 독립적으로 교체할 수 있다는 점을 이용하면 아주 다양한 알고리즘을 만들어 낼 수 있다.

이전 1 2 3 다음

티스토리툴바