pullwall
Well done! 코딩
pullwall
전체 방문자
오늘
어제
  • 분류 전체보기 (151)
    • 개발환경 (2)
    • java study (21)
    • 백준 단계별 (51)
    • 알고리즘 (3)
    • AI (43)
    • 클라우드 (3)
      • Kubernetes in Google (3)
    • 논문 (5)
    • 리눅스 (1)
    • AWS (4)
    • 수학 (15)
    • 기타 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • AWS
  • LLM
  • dataset
  • 백준
  • 단계별
  • 쿠버네티스
  • pytorch
  • 수학
  • 자바
  • Kubernetes
  • 정렬
  • 백준 단계별
  • 알고리즘
  • Java
  • 선택정렬
  • 자바독학
  • Google
  • 논문리뷰
  • Ai
  • 정렬알고리즘

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
pullwall

Well done! 코딩

수학

그라디언트가 가장 가파른 방향을 향하는 이유

2024. 8. 29. 14:03
728x90
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.

https://welldonecode.tistory.com/108

 

편미분과 그라디언트에 대하여

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, $f(x,y)=x^2+xy+y^2$과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선

welldonecode.tistory.com

이전 게시물에서 그라디언트에 대해 설명하였다.

그라디언트 벡터값은 그 위치에서 함수를 가장 가파르게 올려주는 방향을 향하는데, 그 이유에 대해서 설명한다.

 

Loss 함수 $L(w)$를 $w=w_k$의 위치에서 테일러 급수에 의해 전개하면,

$L(w) \cong C_0+C_1(w_1-w_{{k}1})+C_2(w_2-w_{{k}2})$ 로 나타낼 수 있으며 (일단 2차 까지만 전개한다.)

 

이는 행렬로 다음과 같이 간단하게 나타낼 수 있다. $C_0+\begin{bmatrix}W_1-W_{{k}1} & W_2-W_{{k}2} \\\end{bmatrix}\begin{bmatrix}C_1 \\ C_2\end{bmatrix}$

 

$C_1$과 $C_2$는 테일러 급수에 의해 $C_1=\frac{\partial L}{\partial w_1}|_{w_1=w_{k_1}}$, $C_2=\frac{\partial L}{\partial w_2}|_{w_2=w_{k_2}}$로 구해진다.

 

여기까지 간단히 나타내면, $L(w) \cong L(w_k)+(w-w_k)\frac{\partial L}{\partial {W^T}}|_{w=w_k}$ 이다.

 

 

여기서 $w_k=w_k + \Delta$ 즉, $\Delta$만큼 업데이트 된$w_k$라고 한다면,

 

$L(w_{k+1}) \cong L(w_k)+ \Delta \frac{\partial L}{\partial {W^T}}|_{w=w_k}$

 

좌변으로 넘기면, $L(w_{k+1}) - L(w_k) \cong \Delta \frac{\partial L}{\partial{W^T}}|_{w=w_k}$ 가 된다.

 

$\frac{\partial L}{\partial{W^T}}|_{w=w_k}$는 그라디언트다.

 

따라서 위 식은 변화량은 $\Delta$와 그라디언트의 내적이다. 라고 해석할 수 있다.

 

그라디언트는 이미 고정되어 있는 값이고, $\Delta$만 변화시킬 수 있는데, 변화량을 가장 크게 줄 수 있는 $\Delta$는 그라디언트와 같은 방향일때다.

 

 

 

결론은, $\Delta$만큼 업데이트할 때, 그라디언트 방향으로 업데이트 하는 것이 변화량(L)을 키울 수 있다는 것이다.

 

"업데이트" 라는 얘기가 나왔는데, 만약 모델 학습 과정에서 $\Delta$가 커지면 우리가 계속 근사($\cong$) 했던 가정이 깨지기 때문에 learning rate를 도입하여 최대한 근사시킬 수 있도록 하는 것이다.

 

 

 

 

 

 

728x90

'수학' 카테고리의 다른 글

평균과 분산에 대하여  (0) 2024.08.29
확률 및 랜덤 변수  (0) 2024.08.29
테일러 급수  (5) 2024.08.28
편미분과 그라디언트에 대하여  (1) 2024.08.28
미분과 도함수에 대하여  (2) 2024.08.28
    '수학' 카테고리의 다른 글
    • 평균과 분산에 대하여
    • 확률 및 랜덤 변수
    • 테일러 급수
    • 편미분과 그라디언트에 대하여
    pullwall
    pullwall

    티스토리툴바