728x90
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.
https://welldonecode.tistory.com/124
경사하강법 (Gradient descent)
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.https://welldonecode.tistory.com/123 선형 회귀 (Linear Regression)해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.딥러
welldonecode.tistory.com
이전 게시물에서 언급했듯이, 경사하강법에서 처음에 a와 b, (weight와 bias)를 임의로 잡고 시작하는데, 이를 초기화 하는 기법에 대해서 설명한다.
1. Lecun 초기화
- Lecun Uniform Initialization
- $ w\sim U\bigl(\begin{smallmatrix} -\sqrt{\frac{3}{N_{in}}}, & -\sqrt{\frac{3}{N_{in}}} \\ \end{smallmatrix}\bigr)$
- Lecun Normal Initialization
- $ w\sim N\bigl(\begin{smallmatrix} 0 ,& \frac{1}{N_{in}} \\ \end{smallmatrix}\bigr)$
- 위 두 초기화 방법은 평균은0, 분산은 $\frac{1}{N_{in}}$으로 동일하다.
- $N_{in}$이란, fan in fan out 개념에서 fan in과 같다.
2. Xavier 초기화
- sigmod 혹은 tanh를 활성화 함수로 사용하는 신경망에서 사용한다.
- Xavier Uniform Initialization
- $ w\sim U\bigl(\begin{smallmatrix} -\sqrt{\frac{6}{N_{in}+N_{out}}}, & -\sqrt{\frac{6}{N_{in}+N_{out}}} \\ \end{smallmatrix}\bigr) $
- Xavier Normal Initialization
- $ w\sim N\bigl(\begin{smallmatrix} 0 ,& \frac{2}{N_{in}+N_{out}} \\ \end{smallmatrix}\bigr) $
- 위 두 초기화 방법은 평균은 0, 분산은 $ \frac{2}{N_{in}+N_{out}}$으로 동일하다.
3. He 초기화
- ReLU함수를 활성화 함수로 사용하는 신경망에서 사용한다.
- He Uniform Initialization
- $ w\sim U\bigl(\begin{smallmatrix} -\sqrt{\frac{6}{N_{in}}}, & -\sqrt{\frac{6}{N_{in}}} \\ \end{smallmatrix}\bigr) $
- He Normal Initialization
- $ w\sim N\bigl(\begin{smallmatrix} 0 ,& \frac{2}{N_{in}} \\ \end{smallmatrix}\bigr) $
- 위 두 초기화 방법은 평균은 0, 분산은 $ \frac{2}{N_{in}}$으로 동일하다.
728x90
'AI' 카테고리의 다른 글
mini-batch SGD (0) | 2024.09.01 |
---|---|
SGD (Stochastic Gradient Descent) (0) | 2024.09.01 |
경사하강법 (Gradient descent) (0) | 2024.08.31 |
선형 회귀 (Linear Regression) (2) | 2024.08.31 |
인공신경망, weight, bias (0) | 2024.08.31 |