딥러닝 학습의 본질 (MLE)

728x90

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.

https://welldonecode.tistory.com/114

최대 우도 추정 (MLE : Maximum Likelihood Estimation)

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. 1. 조건부 확률 (Conditional Probability)조건부 확률은 어떤 사건 A가 발생했을 때, 다른 사건 B가 발생할 확률을 나타낸다. 일반적

welldonecode.tistory.com

이전 게시물에서 MLE에 대해 다룬 바 있다.

여러 개의 입력이 들어왔을 때 likelihood를 $ q_1^{y_1}(1-q)^{1-y_1} q_2^{y_2}(1-q)^{1-y_2}\cdots $ 라고 하자.

(베르누이 분포로 가정. 베르누이 분포는 독립시행이기 때문에 곱으로 표현하였다.)

머신의 출력을 강아지일 확률 $q$로 삼고 NLL식을 세워본다.

이때 negative log likelihood (NLL)는 아래와 같다.

$ -\log(q_1^{y_1}(1-q)^{1-y_1} q_2^{y_2}(1-q)^{1-y_2}\cdots )$
$ -\sum_{n}^{}\log(q_n^{y_n}(1-q)^{1-y_n})$ (이진 분류에서 사용하는 loss 함수)

이번에는 likelihood를 $\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_1-\hat{y}_1)^2}{2\sigma^2}} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_2-\hat{y}_2)^2}{2\sigma^2}}\cdots $ (가우시안 분포로 가정.)라고 하자.

머신의 출력을 평균 값 $\hat{y}$로 삼고 NLL식을 세워본다.

negative log likelihood (NLL)는 아래와 같다.

$ -\log({\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_1-\hat{y}_1)^2}{2\sigma^2}} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_2-\hat{y}_2)^2}{2\sigma^2}}\cdots})$
$(y_1-\hat{y}_1)^2+ (y_2-\hat{y}_2)^2+\cdots $ (결국 이렇게 정리되며 이것은 MSE다.)

따라서 MLE를 한다. 라는 뿌리에서 어떤 문제에 대해서 무엇을 어떻게 가정할 것인지에 따라 적절한 loss가 달라진다.

likelihood를 적절한 가정 하에 세우고, -log를 취해 minimize하도록 gradient descent를 쓴다.. 이것이 인공신경망의 학습의 본질이다.

728x90

'AI' 카테고리의 다른 글

기울기 소실 (Vanishing Gradient) (0)	2024.09.06
Softmax를 이용한 다중 분류 (0)	2024.09.05
MSE vs Likelihood (convex한 함수가 loss function으로 사용되는 이유) (0)	2024.09.05
Sigmoid를 이용한 이진 분류, Logistic Regression (0)	2024.09.04
선형 분류 & 퍼셉트론 (2)	2024.09.04

'AI' 카테고리의 다른 글

티스토리툴바