batch normalization

Batch Normalization, Layer Normalization, Vanishing Gradient 해결 방안 정리
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. batch size=5 일 때 해당 데이터들이 ReLU 함수를 통과하는 상황이다. 데이터들이 모두 양수일 때는 linear function을 쓰는 것과 다름이 없으며, 데이터들이 모두 음수일 때는 gradient=0이 되므로 gradient descent 문제가 발생한다. 따라서 위 그림과 같이 Activation function의 non-linear한 성질을 잘 살리고자 입력 데이터를 재조정 하는 것이 batch normalization의 첫번째 목적이다. 하지만 이 데이터들을 어디로 옮길지 어떻게 알아야 할까? 어디로 옮길지(non-linear한 성질을 잘 살리면서 vanishing gradient를 얼마나 해결하는지)..