분류 전체보기

    확률 및 랜덤 변수

    해당 게시물은 "혁펜하임의 AI DEEP DIVE" 를 수강하고 작성되었습니다."랜덤 변수"란 사건을 입력으로 받아 실수 값을 출력하는 함수이다. 사건을 실수 값으로 바꿨으면, 이후에 확률 함수를 거쳐 확률 값으로 바뀐다. 이 확률 함수에는 "확률 질량함수"와 "확률 밀도함수"가 존재한다. 1. 확률 질량함수 (Probability Mass Function, PMF)확률 질량함수는 이산 확률 변수의 경우에 주로 사용된다. 이 함수는 특정 값이 나타날 확률을 직접 제공한다. 즉, 확률 변수 $X$가 특정 값 $x$를 가질 확률을 나타낸다. 동전을 던질 때 동전이 앞면이 나올 확률은 0.5이고, 뒷면이 나올 확률도 0.5다. 이 경우 확률 질량함수는 다음과 같이 정의될 수 있다:$P_X(X="앞면")=0.5..

    그라디언트가 가장 가파른 방향을 향하는 이유

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.https://welldonecode.tistory.com/108 편미분과 그라디언트에 대하여해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, $f(x,y)=x^2+xy+y^2$과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선welldonecode.tistory.com이전 게시물에서 그라디언트에 대해 설명하였다.그라디언트 벡터값은 그 위치에서 함수를 가장 가파르게 올려주는 방향을 향하는데, 그 이유에 대해서 설명한다. Loss 함수 $L(w)$를 $w=w_k$의 위치에서 테일러 급수에 의해 전개하면,$L(w) \cong C_0+C_1(w_1-w_..

    테일러 급수

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.테일러 급수란 임의의 함수, 예를 들어 $\cos x$를 다항함수로 나타내고자 사용하는 것이다. Maclarin 급수는 $x=0$에서 임의의 함수를 가장 잘 표현할 수 있는 반면,테일러 급수는 가장 잘 표현하고 싶은 부분을 설정할 수 있다. 테일러 급수는 $f(x)=C_0+C_1(x-a)+C_2(x-a)^2+C_3(x-a)^3+\cdots$ 와 같이 표현되며,  이때 다항식의 계수는 다음과 같다. $C_n=\frac{f^n(a)}{n!}$ 테일러 급수가 적용되지 않는 케이스가 있는데, 대표적으로 $\ln x$가 그렇다.$\ln x=0+(x-1)-\frac{1}{2}(x-1)^2+\frac{1}{3}(x-1)^3+\cdots$로 ..

    편미분과 그라디언트에 대하여

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.편미분이란, $f(x,y)=x^2+xy+y^2$과 같이 여러 개의 변수로 이루어진 함수를 한 변수에 대해서만 미분하는 것이다.편미분하기로 선택한 변수 이외에는 상수 취급하고 미분하면 된다. 기호로는 $\frac{\partial f}{\partial x}$, $\frac{\partial f}{\partial y}$로 나타낼 수 있다.  그렇다면 그라디언트는? 이를 $\begin{bmatrix}\frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y}\end{bmatrix}$ 형태로 벡터로 묶은 것이다.

    미분과 도함수에 대하여

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. 미분은 "순간 변화율" 이며 그래프에서는 "순간 기울기"이다. $x=1$에서의 "순간 기울기" 라는 의미는 $x=1$에서 $x=0.999$ 사이의 기울기도,  $x=1$에서 $x=0.99999999$ 사이의 기울기도 아닌 $x$의 변화율을 $0$에 초 근접 시킬 때 즉, 극한의 의미로 접근해야 한다. $x=1$에서 $x=\Delta x$ 까지의 기울기를 구하는데, $\Delta x$를 0에 초 근접(극한) 시키겠다는 것이다. 이를 수식으로 나타내면 $\lim_{\Delta x \to 0}\frac{f(1+\Delta x)-f(1)}{\Delta x}$로 나타낼 수 있고, 이것이 $x=1$에서의 "순간 기울기", "순간 변화율"..

    극한과 입실론-델타 논법에 대하여

    극한과 입실론-델타 논법에 대하여

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.딥러닝에서의 그래디언트(Gradient : 기울기) 까지 도달하기 위해 극한부터 정리한다. 극한 $\lim_{x \to a}f(x)$는 $x$가 $a$에 초 근접할 때 $f(x)$는 어디에 초 근접하게 되냐는 의미이다. 극한값이 존재하기 위해서는 좌극한과 우극한이 같아야 함을 기억하자.   극한의 엄밀한 정의는 입실론-델타 논법에 의해서 정의할 수 있다.엡실론-델타 논법의 핵심은 $\lim_{x \to a}f(x)=L$이면, 적당한 양수 $\epsilon$이 얼마나 작든, 함숫값 $f(x)$가 회색 영역 내부에 존재하게 하는 $x$가 적색 영역 안에 존재하게 하는 양수 $\delta$가 항상 존재한다는 것이다. 좌극한과 우극한이..

    transpose와 dot product에 대하여

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.행렬의 전치(Transpose)란, $\begin{bmatrix}a_{11} & a_{12} \\a_{21} & a_{22} \\\end{bmatrix}$ 와 같은 행렬이 주어졌을 때, 행과 열을 바꾸는 것 즉,  $\begin{bmatrix}a_{11} & a_{21} \\a_{12} & a_{22} \\\end{bmatrix}$ 로 바꾸는 것이다. 기호로는 $ {\begin{bmatrix}a_{11} & a_{12} \\a_{21} & a_{22} \\\end{bmatrix}}^T$와 같이 나타낸다. 행렬 전치의 중요한 성질 중 하나는 ${(ax)^T}=x^Ta^T$와 같이 다항식에 전치를 취하면 순서가 바뀐다. 딥러닝에서는..

    백터와 행렬에 대하여

    백터와 행렬에 대하여

    우리는 왜 굳이 행렬을 사용할까?그것은 연립방정식을 간단하게 나타내고, 그것을 풀기 위해서이다. 위 내용과 같이 연립방정식은 행렬로 간단하게 나타낼 수 있다. 행렬의 곱셉에 있어서는 곱해지는 행렬의 열의 개수와 곱하는 행렬의 행의 개수가 같아야 한다.이 때문에 교환법칙은 무조건적으로 만족하지 않는다는 것을 기억하자.  벡터의 경우 놈(norm)에 대해 살펴보면, 딥러닝에서는 주로 l1-norm과 l2-norm을 사용한다.$\begin{bmatrix} 2 & 3 \\ \end{bmatrix}$ 이라는 벡터가 존재할 때 : l1-norm : $|2|+|3|$$\begin{bmatrix}2 & 3 \\\end{bmatrix}$ 이라는 벡터가 존재할 때 : l2-norm : $\sqrt{2^2+3^2}$왜 이름..

    로그함수에 대하여

    로그함수에 대하여

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성하였습니다.딥러닝에서 Cross Entropy, Softmax, KL-Divergence 등.. 로그함수가 정말 많이 사용된다.그렇다면 로그 함수는 무엇인가에 대해 알아보자. 로그함수의 본질적 접근로그함수는 $log_ab$ 와 같이 나타내는데, 그 근본적인 의미는 $a$(밑)를 몇 승 해야 $b$(진수)가 나오냐는 것이다. 이를 그래프로 나타내면 아래와 같다. 로그함수의 성질로그함수의 대표적인 성질을 리마인드 해보자.$log_axy=log_ax + log_ay$$log_ax^n = nlog_ax$$log_{a^m}x=\frac{1}{m}log_ax$$log_ab=\frac{log_cb}{log_ca}$$log_ab=\frac{1}{log_..

    함수에 대하여

    해당 게시물은 "혁펜하임의 AI DEEP DIVE" 를 수강하고 작성하였습니다.함수는 여러 가지 경우의 CASE로 분류하여 나타낼 수 있다.한 개의 입력이 들어왔을 때, 한 개의 출력을 내보내는 경우두 개의 입력이 들어왔을 때, 한 개의 출력을 내보내는 경우한 개의 입력이 들어왔을 때, 한 묶음(벡터)이 출력되는 경우두 개의 입력이 들어왔을 때, 두 묶음(벡터)이 출력되는 경우혹은 그 이상.. (4차원 이상이기 때문에 그래프로는 나타낼 수 없음)1,2,3,4는 모두 그래프로 나타낼 수 있다.3번 CASE의 경우 예를 들어,  $y=f(x)=\begin{bmatrix} x^2 \\ 2x \end{bmatrix}$ 라고 한다면.. $x^2$를 $y_{1}$이라고 생각하고 $2x$ 를 $y_{2}$라고 생각하..