'Ai' 태그의 글 목록

BLEU (Bilingual Evaluation Understudy) Score - LLM Evaluation

2024.12.05

LLM이 생성한 (예측한) 결과를 평가하기 위해 PPL (Perplexity) 도 쓰이지만, 그보다 BLEU Score를 더 많이 사용한다. PPL은 쉽게 말해 모델이 정답을 예측할 때 헷갈려하는 정도이다. 따라서 작으면 작을수록 좋다. 5개의 선택지 중 고민하는 것 보다, 2개의 선택지 중 고민하는게 모델이 그만큼 똑똑하다는 것이니까. 하지만, 번역 작업을 예로 들면, 우리는 문장의 맥락을 고려해서 번역이 잘 되었는지를 평가하고 싶어 한다. 해당 평가에 BLEU Score를 사용한다. BLEU란?$BLEU = BP\cdot \prod_{n=1}^{N}p_{n}^{w_{n}}$로 계산되는 Evaluation Score이다. $p_{n}$ : n-gram precision$w_{n}$ : weight,..

AI

SVM (Support Vector Machine) 이란?

2024.11.27

SVM은 전통적인 ML 기법 중 하나로 분류되며 이진 분류를 위해 사용된다. 간단히 말하면, SVM은 서로 다른 클래스를 분리하기 위한 "국경 긋기 방법"이다. 그럼 국경 (Decision boundary) 을 어떻게 그어야 할까? 자기 집 앞이 DMZ가 되지 않도록 모두가 만족하게 그어야 할 것이다. 이렇게 하기 위해서는 파란색 데이터에서 국경까지의 거리와 빨간색 데이터에서 국경까지의 거리가 동일해야 한다. 국경 (Decision boundary) 까지의 거리를 우리는 "Margin" 이라고 명칭하고, 데이터마다 Margin이 같도록, global한 관점에서 봤을 때는 Margin이 크도록 국경을 긋게 된다. 이 국경을 좌표평면에서 수식으로 표현하면, $ax+by=c$ 이고 이를 행렬로 나타내면..

AI

랜덤 포레스트 (Random Forest)

2024.11.27

https://welldonecode.tistory.com/157 의사결정트리 (Decision Tree)Random Forest의 기초가 되는 의사결정트리 (Decision Tree)에 대해서 알아본다. 의사결정트리는 지도학습 방법 중, "분류" 문제를 푸는데 사용된다. 데이터가 존재할 때, 스무고개를 통해 그 데이터가welldonecode.tistory.com이전 게시물에서 의사결정트리에 대해 다뤘고, 의사결정트리의 overfitting 문제를 해결하기 위해 random forest가 등장하였다고 언급하였다. 이번엔 이 random forest에 대해 알아본다. 의사결정트리에서 "나무"를 만들었다면, 랜덤 포레스트에서는 나무들로 이루어진 "숲"을 만든다. 하나의 나무가 문제를 잘 해결하지 못하니, ..

AI

의사결정트리 (Decision Tree)

2024.11.27

Random Forest의 기초가 되는 의사결정트리 (Decision Tree)에 대해서 알아본다. 의사결정트리는 지도학습 방법 중, "분류" 문제를 푸는데 사용된다. 데이터가 존재할 때, 스무고개를 통해 그 데이터가 어떤 class에 속하는지 맞추는 예시와 상당히 유사하다. 그렇다면, 의사결정트리의 구성요소에 대해 설명한다. 위와 같은 그림에서 각 노드의 명칭은 아래와 같다.맨 처음 분류 기준을 Root Node중간 분류 기준을 Intermediate Node맨 마지막 노드를 Terminal Node 혹은 Leaf Node 이제, 완성된 의사결정트리를 보고 역으로 그 원리에 대해 설명하겠다. 위 그림은 depth=2 상태로 완성된 의사결정트리이다. 여기서 Root Node와 Intermediate N..

AI

seq2seq (시퀀스 to 시퀀스)

2024.09.12

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. seq2seq 의 구조는 위 그림과 같다. 각 셀은 LSTM이나 GRU를 주로 사용한다. (장기 의존성 문제를 최대한 해결하고자.. 하지만 100% 해결하지는 못함.) 또한 encoder의 마지막 context vector를 decoder의 처음 context vector으로 사용한다. 위 그림에서 볼 수 있듯 학습 시에는 정답을 decoder의 입력에 넣는다. (teacher forcing이라고 부른다.) 테스트 시에는 sos토큰이 decoder에 들어가서 나오는 출력인 $y_0$을 그 다음 입력으로 사용하고 $y_0$으로부터 나오는 출력인 $y_1$을 그 다음 입력으로 사용하고.. 하는 형태이다. 이를 eos토큰이 나올 때..

AI

RNN (Recurrent Neural Network)

2024.09.12

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.RNN은 연속적인 데이터를 처리하는데 효과적이다. 위 사진과 같이 우선 처음 입력 데이터를 가지고 노드의 값을 만든다. 두번째 입력 데이터로 노드를 만들 때 이전에 만들어진 노드의 값도 입력으로 넣는다.세번째 입력 데이터로 노드를 만들 때 이전에 만들어진 노드의 값도 입력으로 넣는다.반복...즉 이렇게 만들어진 노드들은 해당 time step에 해당하는 입력 데이터와, 그 전 입력 데이터와, 그 입력 데이터로 만들어진 노드가 들어있다. 하지만 마지막 출력값에 대해 처음 입력값이 미치는 영향은 어떨까? RNN은 activation으로 tanh를 사용하며 이를 미분했을때 최대값은 1이다. 그럼 backpropagation시 ta..

AI

VGGnet

2024.09.12

해당 강의는 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다. VGG net의 골자인 첫번째 구조를 table로 나타낸 것이 위 표의 D 부분이다. 해당 부분에 대해 순서대로 이해해 보겠다.Input data : input으로는 3x224x224 size의 image를 받는다.conv3-64 통과 : conv3-64는 64x3x3x3을 의미하는데 이는 64개의 3x3x3 필터로 이미지를 컨볼루션 하겠다는 의미이다. (zero padding은 1로 설정한다고 논문에 나와있다.출력 shape : conv3-64를 거치면 64x224x224conv3-64 통과 : 위의 출력 shape에 대하여 conv3-64의 필터는 64x64x3x3출력 shape : conv3-64를 거치면 64x224x2..

AI

Padding, Stride, Pooling

2024.09.11

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.1. Padding Padding이란, 입력 데이터가 filter를 거치면 size가 달라지는 문제를 해결하고자위 사진과 같이 입력 데이터 주변에 데이터를 감싸는 것이다. 이를 통해 출력의 사이즈를 입력의 사이즈와 일치시킬 수 있다. 2. Stride Stride란 기존에 filter가 한 칸씩 스캔하며 동작했던 것과 달리 몇 칸씩 움직일지를 옵션으로 부여한다. 한 칸 뿐만 아니라 n칸씩 이동시킬 수 있다. 3. Pooling Pooling이란 넓은 범위를 대표하는 값으로 대체하여 데이터의 사이즈를 줄일 수 있게끔 한다. (학습 파라미터는 전혀 필요하지 않다.) 위 사진의 예시는 max pooling의 예제이며, 해당 범위 ..

AI

CNN (Convolution Neural Network)

2024.09.10

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.이미지가 입력으로 들어왔을 때 Fully Connected한 신경망은 모든 노드를 활성화 시켜서 이미지를 보려고 한다. 하지만 CNN은 위치별 특징(패턴) 을 Convolution을 통해 찾는다. 즉, 패턴을 통해 이미지가 무엇인지 알아내는 것이다. (인간처럼..) CNN은 스캔하듯이 같은 weight와 bias를 가지는 kernel (filter)이라는 스캔기로 입력 데이터를 쭉 스캔한다. 위 과정은 가까이 있는 데이터들만 connection하여 하나의 노드를 구성하는 과정을 반복하게 되는데, 이를 통해 위치 정보를 유지할 수 있게 된다. (새롭게 태어난 노드는 그 구역의 담당 일진 느낌..) 그렇다면 convolut..

AI

Regularization (Overfitting 방지 방법)

2024.09.10

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.Regularization은 overfitting을 줄일 수 있는 방법 중 하나이다. Regularization에 대해 알아보기 전에 $l_2 norm$과 $l_1 norm$에 대하여 정리한다. 벡터 $w$가 다음과 같이 정의되어 있다면, $\underline{w}=\begin{bmatrix} w_1 \\ w_2 \\ w_3 \end{bmatrix}$$l_2 norm= \begin{Vmatrix} w\end{Vmatrix}_2=(|w_1|^2+|w_2|^2+|w_3|^2)^{\frac{1}{2}}$$l_1 norm= \begin{Vmatrix}w\end{Vmatrix}_1=(|w_1|^1+|w_2|^1+|w_3|^1)^{\fr..

티스토리툴바