그라디언트가 가장 가파른 방향을 향하는 이유

728x90

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.

편미분과 그라디언트에 대하여

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, $f(x,y)=x^2+xy+y^2$과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선

welldonecode.tistory.com

이전 게시물에서 그라디언트에 대해 설명하였다.

그라디언트 벡터값은 그 위치에서 함수를 가장 가파르게 올려주는 방향을 향하는데, 그 이유에 대해서 설명한다.

Loss 함수 $L(w)$를 $w=w_k$의 위치에서 테일러 급수에 의해 전개하면,

$L(w) \cong C_0+C_1(w_1-w_{{k}1})+C_2(w_2-w_{{k}2})$ 로 나타낼 수 있으며 (일단 2차 까지만 전개한다.)

이는 행렬로 다음과 같이 간단하게 나타낼 수 있다. $C_0+\begin{bmatrix}W_1-W_{{k}1} & W_2-W_{{k}2} \\\end{bmatrix}\begin{bmatrix}C_1 \\ C_2\end{bmatrix}$

$C_1$과 $C_2$는 테일러 급수에 의해 $C_1=\frac{\partial L}{\partial w_1}|_{w_1=w_{k_1}}$, $C_2=\frac{\partial L}{\partial w_2}|_{w_2=w_{k_2}}$로 구해진다.

여기까지 간단히 나타내면, $L(w) \cong L(w_k)+(w-w_k)\frac{\partial L}{\partial {W^T}}|_{w=w_k}$ 이다.

여기서 $w_k=w_k + \Delta$ 즉, $\Delta$만큼 업데이트 된$w_k$라고 한다면,

$L(w_{k+1}) \cong L(w_k)+ \Delta \frac{\partial L}{\partial {W^T}}|_{w=w_k}$

좌변으로 넘기면, $L(w_{k+1}) - L(w_k) \cong \Delta \frac{\partial L}{\partial{W^T}}|_{w=w_k}$ 가 된다.

$\frac{\partial L}{\partial{W^T}}|_{w=w_k}$는 그라디언트다.

따라서 위 식은 변화량은 $\Delta$와 그라디언트의 내적이다. 라고 해석할 수 있다.

그라디언트는 이미 고정되어 있는 값이고, $\Delta$만 변화시킬 수 있는데, 변화량을 가장 크게 줄 수 있는 $\Delta$는 그라디언트와 같은 방향일때다.

결론은, $\Delta$만큼 업데이트할 때, 그라디언트 방향으로 업데이트 하는 것이 변화량(L)을 키울 수 있다는 것이다.

"업데이트" 라는 얘기가 나왔는데, 만약 모델 학습 과정에서 $\Delta$가 커지면 우리가 계속 근사($\cong$) 했던 가정이 깨지기 때문에 learning rate를 도입하여 최대한 근사시킬 수 있도록 하는 것이다.

728x90

티스토리툴바