Loading [MathJax]/jax/output/CommonHTML/jax.js

Vanishing Gradient

    기울기 소실 (Vanishing Gradient)

    기울기 소실 (Vanishing Gradient)

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.  깊은 층의 layer를 갖는 인공신경망은 입력층으로 갈수록 미분이 작아지는 (기울기가 소실되는, 0으로 가는) 문제가 발생한다. wk+1=wkαg즉, 위와 같은 가중치 업데이트 수식에서 g가 0으로 수렴하면 가중치가 업데이트되지 않는 문제가 발생한다. 왜 이런 문제가 발생할까? 문제는 activation의 미분에 있다. Lw1=2(^y1y1)f2(d2)w2f1(d1)n1backpropagation을 할 때 첫번째 weight에 대한 미분을 구하려면 위와 같은 수식처럼 activation'-weight..