해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.
https://welldonecode.tistory.com/108
편미분과 그라디언트에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, f(x,y)=x2+xy+y2과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선
welldonecode.tistory.com
이전 게시물에서 그라디언트에 대해 설명하였다.
그라디언트 벡터값은 그 위치에서 함수를 가장 가파르게 올려주는 방향을 향하는데, 그 이유에 대해서 설명한다.
Loss 함수 L(w)를 w=wk의 위치에서 테일러 급수에 의해 전개하면,
L(w)≅C0+C1(w1−wk1)+C2(w2−wk2) 로 나타낼 수 있으며 (일단 2차 까지만 전개한다.)
이는 행렬로 다음과 같이 간단하게 나타낼 수 있다. C0+[W1−Wk1W2−Wk2][C1C2]
C1과 C2는 테일러 급수에 의해 C1=∂L∂w1|w1=wk1, C2=∂L∂w2|w2=wk2로 구해진다.
여기까지 간단히 나타내면, L(w)≅L(wk)+(w−wk)∂L∂WT|w=wk 이다.
여기서 wk=wk+Δ 즉, Δ만큼 업데이트 된wk라고 한다면,
L(wk+1)≅L(wk)+Δ∂L∂WT|w=wk
좌변으로 넘기면, L(wk+1)−L(wk)≅Δ∂L∂WT|w=wk 가 된다.
∂L∂WT|w=wk는 그라디언트다.
따라서 위 식은 변화량은 Δ와 그라디언트의 내적이다. 라고 해석할 수 있다.
그라디언트는 이미 고정되어 있는 값이고, Δ만 변화시킬 수 있는데, 변화량을 가장 크게 줄 수 있는 Δ는 그라디언트와 같은 방향일때다.
결론은, Δ만큼 업데이트할 때, 그라디언트 방향으로 업데이트 하는 것이 변화량(L)을 키울 수 있다는 것이다.
"업데이트" 라는 얘기가 나왔는데, 만약 모델 학습 과정에서 Δ가 커지면 우리가 계속 근사(≅) 했던 가정이 깨지기 때문에 learning rate를 도입하여 최대한 근사시킬 수 있도록 하는 것이다.
'수학' 카테고리의 다른 글
평균과 분산에 대하여 (0) | 2024.08.29 |
---|---|
확률 및 랜덤 변수 (0) | 2024.08.29 |
테일러 급수 (5) | 2024.08.28 |
편미분과 그라디언트에 대하여 (1) | 2024.08.28 |
미분과 도함수에 대하여 (2) | 2024.08.28 |