수학
Entropy, Cross-Engropy, KL-divergence, Mutual information
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.1.EntropyEntropy는 "평균 코드 길이의 최소"이다.여기서 코드란, 빈도 수가 높은 (자주 사용되는) 정보의 길이를 압축하는 것이다. "나"라는 단어는 자주 사용되기 때문에 0이라는 정보로 압축하고, "뷁"이라는 단어는 자주 사용되지 않기 때문에 11011의 정보로 표현하여, "나"=11111, "뷁"=11011 일때 보다 정보량을 압축시키는 것이다. Entropy는 "불확실성" 으로도 해석할 수 있다.앞면만 나오는 동전이 있다면, 그 동전을 던지는 시행의 Entropy는 0이다. 이는 수식으로 아래와 같이 표현할 수 있다. $\sum_{i}^{}-p_ilog_2p_i$ 해당 수식은 Lower bound의 역할을 한다..
최대 사후 확률 (MAP : Maximum A Posteriori)
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.우선 베이즈 정리에 대해 잠시 상기하고 넘어가자.$P(A|B)=\frac{P(A \cap B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}$위 수식을 $z$를 보고 $x$를 알고 싶은 상황에 대입해 보면,$P(x|z)=\frac{P(z|x)P(x)}{P(z)}$ 이다.여기서 $P(z|x)$는 MLE 게시물에서 다뤘던 likelihood이다.$P(x|z)$가 posterior distribution이다. MLE는 likelihood를 최대화 하겠다는 것이라면,MAP는 posterior disribution을 최대화 하겠다는 것이다. MAP는 다음과 같은 수식으로 나타낼 수 있다.$\widehat{x}=argmax_x{P..
최대 우도 추정 (MLE : Maximum Likelihood Estimation)
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. 1. 조건부 확률 (Conditional Probability)조건부 확률은 어떤 사건 A가 발생했을 때, 다른 사건 B가 발생할 확률을 나타낸다. 일반적으로 $P(B|A)$로 표기한다. 이 확률은 사건 A가 이미 발생했음을 전제로, 사건 B가 일어날 가능성을 계산하는 것이다. 다음과 같은 상황을 가정해보자.전체 학생의 40%가 수학 시험에 합격했고, 30%가 과학 시험에 합격했다.이 중에서, 수학 시험에 합격한 학생들 중 70%가 과학 시험에도 합격했다.이 경우, 수학 시험에 합격한 학생들 중 과학 시험에 합격할 확률 $P(과학|수학)$을 조건부 확률이라고 한다.조건부 확률 또한 합이 1이다. 2. 우도 (Likeliho..

균등 분포와 정규 분포
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.1.균등 분포 (Uniform Distribution)균등 분포는 평평한 생김새를 갖는다.수식으로는 다음과 같이 나타낸다. $p(x)=\left\{\begin{matrix} \frac{1}{b-a}, for a\leq x\leq b \\ 0, otherwise \end{matrix}\right.$위와 같은 균등 분포의 확률밀도함수에서, 적분의 크기는 1이 되어야 하기 때문에 구간이 $a$부터 $b$까지라면 그 크기는 무조건 $\frac{1}{b-a}$가 된다. $a$와 $b$만 알면 완벽하게 정의되기 때문에 기호로는 $X \sim U(a,b)$와 같이 나타낸다.평균 : $\frac{1}{2}(a+b)$분산: $\frac{1}{1..
평균과 분산에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.1. 평균 (Mean)평균은 주어진 데이터 세트의 모든 값을 더한 후, 그 값을 데이터의 개수로 나눈 값을 의미한다.주로 실제 관찰된 데이터나 샘플에 대해 계산되며, 우리가 생각하는 일반적인 평균은 "산술 평균" 이다. 2. 기댓값 (Expected Value)기댓값은 확률 변수의 장기적인 평균값을 의미하며, 주사위를 무한번 굴리고, 산술 평균을 구한 값이 기댓값이다.확률 변수 $X$가 가질 수 있는 모든 값에 해당 값이 나올 확률을 곱한 후 더하여 계산한다. 기댓값은 분포의 중심을 이론적으로 나타낸다.확률 변수 $X$가 가질 수 있는 값들이 $x_1, x_2, ..., x_n$이고, 각 값이 나올 확률이 $p_1, p_2, ...
확률 및 랜덤 변수
해당 게시물은 "혁펜하임의 AI DEEP DIVE" 를 수강하고 작성되었습니다."랜덤 변수"란 사건을 입력으로 받아 실수 값을 출력하는 함수이다. 사건을 실수 값으로 바꿨으면, 이후에 확률 함수를 거쳐 확률 값으로 바뀐다. 이 확률 함수에는 "확률 질량함수"와 "확률 밀도함수"가 존재한다. 1. 확률 질량함수 (Probability Mass Function, PMF)확률 질량함수는 이산 확률 변수의 경우에 주로 사용된다. 이 함수는 특정 값이 나타날 확률을 직접 제공한다. 즉, 확률 변수 $X$가 특정 값 $x$를 가질 확률을 나타낸다. 동전을 던질 때 동전이 앞면이 나올 확률은 0.5이고, 뒷면이 나올 확률도 0.5다. 이 경우 확률 질량함수는 다음과 같이 정의될 수 있다:$P_X(X="앞면")=0.5..
그라디언트가 가장 가파른 방향을 향하는 이유
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.https://welldonecode.tistory.com/108 편미분과 그라디언트에 대하여해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, $f(x,y)=x^2+xy+y^2$과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선welldonecode.tistory.com이전 게시물에서 그라디언트에 대해 설명하였다.그라디언트 벡터값은 그 위치에서 함수를 가장 가파르게 올려주는 방향을 향하는데, 그 이유에 대해서 설명한다. Loss 함수 $L(w)$를 $w=w_k$의 위치에서 테일러 급수에 의해 전개하면,$L(w) \cong C_0+C_1(w_1-w_..
테일러 급수
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.테일러 급수란 임의의 함수, 예를 들어 $\cos x$를 다항함수로 나타내고자 사용하는 것이다. Maclarin 급수는 $x=0$에서 임의의 함수를 가장 잘 표현할 수 있는 반면,테일러 급수는 가장 잘 표현하고 싶은 부분을 설정할 수 있다. 테일러 급수는 $f(x)=C_0+C_1(x-a)+C_2(x-a)^2+C_3(x-a)^3+\cdots$ 와 같이 표현되며, 이때 다항식의 계수는 다음과 같다. $C_n=\frac{f^n(a)}{n!}$ 테일러 급수가 적용되지 않는 케이스가 있는데, 대표적으로 $\ln x$가 그렇다.$\ln x=0+(x-1)-\frac{1}{2}(x-1)^2+\frac{1}{3}(x-1)^3+\cdots$로 ..
편미분과 그라디언트에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, $f(x,y)=x^2+xy+y^2$과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선택한 변수 이외에는 상수 취급하고 미분하면 된다. 기호로는 $\frac{\partial f}{\partial x}$, $\frac{\partial f}{\partial y}$로 나타낼 수 있다. 그렇다면 그라디언트는? 이를 $\begin{bmatrix}\frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y}\end{bmatrix}$ 형태로 벡터로 묶은 것이다.
미분과 도함수에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. 미분은 "순간 변화율" 이며 그래프에서는 "순간 기울기"이다. $x=1$에서의 "순간 기울기" 라는 의미는 $x=1$에서 $x=0.999$ 사이의 기울기도, $x=1$에서 $x=0.99999999$ 사이의 기울기도 아닌 $x$의 변화율을 $0$에 초 근접 시킬 때 즉, 극한의 의미로 접근해야 한다. $x=1$에서 $x=\Delta x$ 까지의 기울기를 구하는데, $\Delta x$를 0에 초 근접(극한) 시키겠다는 것이다. 이를 수식으로 나타내면 $\lim_{\Delta x \to 0}\frac{f(1+\Delta x)-f(1)}{\Delta x}$로 나타낼 수 있고, 이것이 $x=1$에서의 "순간 기울기", "순간 변화율"..