728x90
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.
https://welldonecode.tistory.com/114
이전 게시물에서 MLE에 대해 다룬 바 있다.
여러 개의 입력이 들어왔을 때 likelihood를 $ q_1^{y_1}(1-q)^{1-y_1} q_2^{y_2}(1-q)^{1-y_2}\cdots $ 라고 하자.
(베르누이 분포로 가정. 베르누이 분포는 독립시행이기 때문에 곱으로 표현하였다.)
머신의 출력을 강아지일 확률 $q$로 삼고 NLL식을 세워본다.
이때 negative log likelihood (NLL)는 아래와 같다.
- $ -\log(q_1^{y_1}(1-q)^{1-y_1} q_2^{y_2}(1-q)^{1-y_2}\cdots )$
- $ -\sum_{n}^{}\log(q_n^{y_n}(1-q)^{1-y_n})$ (이진 분류에서 사용하는 loss 함수)
이번에는 likelihood를 $\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_1-\hat{y}_1)^2}{2\sigma^2}} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_2-\hat{y}_2)^2}{2\sigma^2}}\cdots $ (가우시안 분포로 가정.)라고 하자.
머신의 출력을 평균 값 $\hat{y}$로 삼고 NLL식을 세워본다.
negative log likelihood (NLL)는 아래와 같다.
- $ -\log({\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_1-\hat{y}_1)^2}{2\sigma^2}} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_2-\hat{y}_2)^2}{2\sigma^2}}\cdots})$
- $(y_1-\hat{y}_1)^2+ (y_2-\hat{y}_2)^2+\cdots $ (결국 이렇게 정리되며 이것은 MSE다.)
따라서 MLE를 한다. 라는 뿌리에서 어떤 문제에 대해서 무엇을 어떻게 가정할 것인지에 따라 적절한 loss가 달라진다.
likelihood를 적절한 가정 하에 세우고, -log를 취해 minimize하도록 gradient descent를 쓴다.. 이것이 인공신경망의 학습의 본질이다.
728x90
'AI' 카테고리의 다른 글
기울기 소실 (Vanishing Gradient) (0) | 2024.09.06 |
---|---|
Softmax를 이용한 다중 분류 (0) | 2024.09.05 |
MSE vs Likelihood (convex한 함수가 loss function으로 사용되는 이유) (0) | 2024.09.05 |
Sigmoid를 이용한 이진 분류, Logistic Regression (0) | 2024.09.04 |
선형 분류 & 퍼셉트론 (2) | 2024.09.04 |