728x90
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.
https://welldonecode.tistory.com/124
이전 게시물에서 언급했듯이, 경사하강법에서 처음에 a와 b, (weight와 bias)를 임의로 잡고 시작하는데, 이를 초기화 하는 기법에 대해서 설명한다.
1. Lecun 초기화
- Lecun Uniform Initialization
- $ w\sim U\bigl(\begin{smallmatrix} -\sqrt{\frac{3}{N_{in}}}, & -\sqrt{\frac{3}{N_{in}}} \\ \end{smallmatrix}\bigr)$
- Lecun Normal Initialization
- $ w\sim N\bigl(\begin{smallmatrix} 0 ,& \frac{1}{N_{in}} \\ \end{smallmatrix}\bigr)$
- 위 두 초기화 방법은 평균은0, 분산은 $\frac{1}{N_{in}}$으로 동일하다.
- $N_{in}$이란, fan in fan out 개념에서 fan in과 같다.
2. Xavier 초기화
- sigmod 혹은 tanh를 활성화 함수로 사용하는 신경망에서 사용한다.
- Xavier Uniform Initialization
- $ w\sim U\bigl(\begin{smallmatrix} -\sqrt{\frac{6}{N_{in}+N_{out}}}, & -\sqrt{\frac{6}{N_{in}+N_{out}}} \\ \end{smallmatrix}\bigr) $
- Xavier Normal Initialization
- $ w\sim N\bigl(\begin{smallmatrix} 0 ,& \frac{2}{N_{in}+N_{out}} \\ \end{smallmatrix}\bigr) $
- 위 두 초기화 방법은 평균은 0, 분산은 $ \frac{2}{N_{in}+N_{out}}$으로 동일하다.
3. He 초기화
- ReLU함수를 활성화 함수로 사용하는 신경망에서 사용한다.
- He Uniform Initialization
- $ w\sim U\bigl(\begin{smallmatrix} -\sqrt{\frac{6}{N_{in}}}, & -\sqrt{\frac{6}{N_{in}}} \\ \end{smallmatrix}\bigr) $
- He Normal Initialization
- $ w\sim N\bigl(\begin{smallmatrix} 0 ,& \frac{2}{N_{in}} \\ \end{smallmatrix}\bigr) $
- 위 두 초기화 방법은 평균은 0, 분산은 $ \frac{2}{N_{in}}$으로 동일하다.
728x90
'AI' 카테고리의 다른 글
mini-batch SGD (0) | 2024.09.01 |
---|---|
SGD (Stochastic Gradient Descent) (0) | 2024.09.01 |
경사하강법 (Gradient descent) (0) | 2024.08.31 |
선형 회귀 (Linear Regression) (2) | 2024.08.31 |
인공신경망, weight, bias (0) | 2024.08.31 |