Adam

    Adam (Adaptive Moment Estimation)

    Adam (Adaptive Moment Estimation)

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. 위 사진과 같은 Adam의 알고리즘에서 마지막 줄만 보자. 기존의 update 방식은 아래와 같은 수식으로 이루어졌다.$ \begin{bmatrix} a_{k+1} \\ b_{k+1} \end{bmatrix} = \begin{bmatrix} a_k \\ b_k \end{bmatrix} - \alpha g$위 수식의 형태는 Adam 알고리즘의 마지막 부분과 동일하다. $m_t$는 모멘트의 개념을 반영한 것이며 $v_t$는 RMS norm의 개념을 반영한 것이다. $m_t=\beta_1 m_{t-1}+(1-\beta_1)g_t$ 에서 $beta=\frac{1}{2}$라고 한다면 첫 번째 step에서 $m_1=\frac{1}{2}m..