수학
Entropy, Cross-Engropy, KL-divergence, Mutual information
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.1.EntropyEntropy는 "평균 코드 길이의 최소"이다.여기서 코드란, 빈도 수가 높은 (자주 사용되는) 정보의 길이를 압축하는 것이다. "나"라는 단어는 자주 사용되기 때문에 0이라는 정보로 압축하고, "뷁"이라는 단어는 자주 사용되지 않기 때문에 11011의 정보로 표현하여, "나"=11111, "뷁"=11011 일때 보다 정보량을 압축시키는 것이다. Entropy는 "불확실성" 으로도 해석할 수 있다.앞면만 나오는 동전이 있다면, 그 동전을 던지는 시행의 Entropy는 0이다. 이는 수식으로 아래와 같이 표현할 수 있다. ∑i−pilog2pi∑i−pilog2pi 해당 수식은 Lower bound의 역할을 한다..
최대 사후 확률 (MAP : Maximum A Posteriori)
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.우선 베이즈 정리에 대해 잠시 상기하고 넘어가자.P(A|B)=P(A∩B)P(B)=P(B|A)P(A)P(B)P(A|B)=P(A∩B)P(B)=P(B|A)P(A)P(B)위 수식을 zz를 보고 xx를 알고 싶은 상황에 대입해 보면,P(x|z)=P(z|x)P(x)P(z)P(x|z)=P(z|x)P(x)P(z) 이다.여기서 P(z|x)P(z|x)는 MLE 게시물에서 다뤘던 likelihood이다.P(x|z)P(x|z)가 posterior distribution이다. MLE는 likelihood를 최대화 하겠다는 것이라면,MAP는 posterior disribution을 최대화 하겠다는 것이다. MAP는 다음과 같은 수식으로 나타낼 수 있다.$\widehat{x}=argmax_x{P..
최대 우도 추정 (MLE : Maximum Likelihood Estimation)
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. 1. 조건부 확률 (Conditional Probability)조건부 확률은 어떤 사건 A가 발생했을 때, 다른 사건 B가 발생할 확률을 나타낸다. 일반적으로 P(B|A)P(B|A)로 표기한다. 이 확률은 사건 A가 이미 발생했음을 전제로, 사건 B가 일어날 가능성을 계산하는 것이다. 다음과 같은 상황을 가정해보자.전체 학생의 40%가 수학 시험에 합격했고, 30%가 과학 시험에 합격했다.이 중에서, 수학 시험에 합격한 학생들 중 70%가 과학 시험에도 합격했다.이 경우, 수학 시험에 합격한 학생들 중 과학 시험에 합격할 확률 P(과학|수학)을 조건부 확률이라고 한다.조건부 확률 또한 합이 1이다. 2. 우도 (Likeliho..

균등 분포와 정규 분포
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.1.균등 분포 (Uniform Distribution)균등 분포는 평평한 생김새를 갖는다.수식으로는 다음과 같이 나타낸다. p(x)={1b−a,fora≤x≤b0,otherwise위와 같은 균등 분포의 확률밀도함수에서, 적분의 크기는 1이 되어야 하기 때문에 구간이 a부터 b까지라면 그 크기는 무조건 1b−a가 된다. a와 b만 알면 완벽하게 정의되기 때문에 기호로는 X∼U(a,b)와 같이 나타낸다.평균 : 12(a+b)분산: $\frac{1}{1..
평균과 분산에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.1. 평균 (Mean)평균은 주어진 데이터 세트의 모든 값을 더한 후, 그 값을 데이터의 개수로 나눈 값을 의미한다.주로 실제 관찰된 데이터나 샘플에 대해 계산되며, 우리가 생각하는 일반적인 평균은 "산술 평균" 이다. 2. 기댓값 (Expected Value)기댓값은 확률 변수의 장기적인 평균값을 의미하며, 주사위를 무한번 굴리고, 산술 평균을 구한 값이 기댓값이다.확률 변수 X가 가질 수 있는 모든 값에 해당 값이 나올 확률을 곱한 후 더하여 계산한다. 기댓값은 분포의 중심을 이론적으로 나타낸다.확률 변수 X가 가질 수 있는 값들이 x1,x2,...,xn이고, 각 값이 나올 확률이 $p_1, p_2, ...
테일러 급수
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.테일러 급수란 임의의 함수, 예를 들어 cosx를 다항함수로 나타내고자 사용하는 것이다. Maclarin 급수는 x=0에서 임의의 함수를 가장 잘 표현할 수 있는 반면,테일러 급수는 가장 잘 표현하고 싶은 부분을 설정할 수 있다. 테일러 급수는 f(x)=C0+C1(x−a)+C2(x−a)2+C3(x−a)3+⋯ 와 같이 표현되며, 이때 다항식의 계수는 다음과 같다. Cn=fn(a)n! 테일러 급수가 적용되지 않는 케이스가 있는데, 대표적으로 lnx가 그렇다.lnx=0+(x−1)−12(x−1)2+13(x−1)3+⋯로 ..
편미분과 그라디언트에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, f(x,y)=x2+xy+y2과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선택한 변수 이외에는 상수 취급하고 미분하면 된다. 기호로는 ∂f∂x, ∂f∂y로 나타낼 수 있다. 그렇다면 그라디언트는? 이를 [∂f∂x∂f∂y] 형태로 벡터로 묶은 것이다.
미분과 도함수에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. 미분은 "순간 변화율" 이며 그래프에서는 "순간 기울기"이다. x=1에서의 "순간 기울기" 라는 의미는 x=1에서 x=0.999 사이의 기울기도, x=1에서 x=0.99999999 사이의 기울기도 아닌 x의 변화율을 0에 초 근접 시킬 때 즉, 극한의 의미로 접근해야 한다. x=1에서 x=Δx 까지의 기울기를 구하는데, Δx를 0에 초 근접(극한) 시키겠다는 것이다. 이를 수식으로 나타내면 limΔx→0f(1+Δx)−f(1)Δx로 나타낼 수 있고, 이것이 x=1에서의 "순간 기울기", "순간 변화율"..

극한과 입실론-델타 논법에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.딥러닝에서의 그래디언트(Gradient : 기울기) 까지 도달하기 위해 극한부터 정리한다. 극한 limx→af(x)는 x가 a에 초 근접할 때 f(x)는 어디에 초 근접하게 되냐는 의미이다. 극한값이 존재하기 위해서는 좌극한과 우극한이 같아야 함을 기억하자. 극한의 엄밀한 정의는 입실론-델타 논법에 의해서 정의할 수 있다.엡실론-델타 논법의 핵심은 limx→af(x)=L이면, 적당한 양수 ϵ이 얼마나 작든, 함숫값 f(x)가 회색 영역 내부에 존재하게 하는 x가 적색 영역 안에 존재하게 하는 양수 δ가 항상 존재한다는 것이다. 좌극한과 우극한이..
transpose와 dot product에 대하여
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.행렬의 전치(Transpose)란, [a11a12a21a22] 와 같은 행렬이 주어졌을 때, 행과 열을 바꾸는 것 즉, [a11a21a12a22] 로 바꾸는 것이다. 기호로는 [a11a12a21a22]T와 같이 나타낸다. 행렬 전치의 중요한 성질 중 하나는 (ax)T=xTaT와 같이 다항식에 전치를 취하면 순서가 바뀐다. 딥러닝에서는..