해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.
https://welldonecode.tistory.com/108
편미분과 그라디언트에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, $f(x,y)=x^2+xy+y^2$과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선
welldonecode.tistory.com
이전 게시물에서 그라디언트에 대해 설명하였다.
그라디언트 벡터값은 그 위치에서 함수를 가장 가파르게 올려주는 방향을 향하는데, 그 이유에 대해서 설명한다.
Loss 함수 $L(w)$를 $w=w_k$의 위치에서 테일러 급수에 의해 전개하면,
$L(w) \cong C_0+C_1(w_1-w_{{k}1})+C_2(w_2-w_{{k}2})$ 로 나타낼 수 있으며 (일단 2차 까지만 전개한다.)
이는 행렬로 다음과 같이 간단하게 나타낼 수 있다. $C_0+\begin{bmatrix}W_1-W_{{k}1} & W_2-W_{{k}2} \\\end{bmatrix}\begin{bmatrix}C_1 \\ C_2\end{bmatrix}$
$C_1$과 $C_2$는 테일러 급수에 의해 $C_1=\frac{\partial L}{\partial w_1}|_{w_1=w_{k_1}}$, $C_2=\frac{\partial L}{\partial w_2}|_{w_2=w_{k_2}}$로 구해진다.
여기까지 간단히 나타내면, $L(w) \cong L(w_k)+(w-w_k)\frac{\partial L}{\partial {W^T}}|_{w=w_k}$ 이다.
여기서 $w_k=w_k + \Delta$ 즉, $\Delta$만큼 업데이트 된$w_k$라고 한다면,
$L(w_{k+1}) \cong L(w_k)+ \Delta \frac{\partial L}{\partial {W^T}}|_{w=w_k}$
좌변으로 넘기면, $L(w_{k+1}) - L(w_k) \cong \Delta \frac{\partial L}{\partial{W^T}}|_{w=w_k}$ 가 된다.
$\frac{\partial L}{\partial{W^T}}|_{w=w_k}$는 그라디언트다.
따라서 위 식은 변화량은 $\Delta$와 그라디언트의 내적이다. 라고 해석할 수 있다.
그라디언트는 이미 고정되어 있는 값이고, $\Delta$만 변화시킬 수 있는데, 변화량을 가장 크게 줄 수 있는 $\Delta$는 그라디언트와 같은 방향일때다.
결론은, $\Delta$만큼 업데이트할 때, 그라디언트 방향으로 업데이트 하는 것이 변화량(L)을 키울 수 있다는 것이다.
"업데이트" 라는 얘기가 나왔는데, 만약 모델 학습 과정에서 $\Delta$가 커지면 우리가 계속 근사($\cong$) 했던 가정이 깨지기 때문에 learning rate를 도입하여 최대한 근사시킬 수 있도록 하는 것이다.
'수학' 카테고리의 다른 글
평균과 분산에 대하여 (0) | 2024.08.29 |
---|---|
확률 및 랜덤 변수 (0) | 2024.08.29 |
테일러 급수 (5) | 2024.08.28 |
편미분과 그라디언트에 대하여 (1) | 2024.08.28 |
미분과 도함수에 대하여 (2) | 2024.08.28 |