pullwall
Well done! 코딩
pullwall
전체 방문자
오늘
어제
  • 분류 전체보기 (151)
    • 개발환경 (2)
    • java study (21)
    • 백준 단계별 (51)
    • 알고리즘 (3)
    • AI (43)
    • 클라우드 (3)
      • Kubernetes in Google (3)
    • 논문 (5)
    • 리눅스 (1)
    • AWS (4)
    • 수학 (15)
    • 기타 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • AWS
  • 단계별
  • Java
  • 백준
  • 알고리즘
  • 정렬
  • Kubernetes
  • 논문리뷰
  • LLM
  • pytorch
  • 자바
  • Google
  • dataset
  • Ai
  • 쿠버네티스
  • 정렬알고리즘
  • 수학
  • 백준 단계별
  • 자바독학
  • 선택정렬

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
pullwall

Well done! 코딩

MLP를 행렬과 벡터로 나타내기, Non-linear activation의 중요성
AI

MLP를 행렬과 벡터로 나타내기, Non-linear activation의 중요성

2024. 9. 2. 22:57
728x90
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.

https://www.researchgate.net/figure/MLP-structure-with-m-inputs-one-hidden-layer-and-n-outputs_fig1_321451171

 

입력이 두개고 은닉층의 노드가 3개인 MLP의 부분을 행렬과 벡터로 나타내면 아래 수식과 같다.

 

  • $ f_1\begin{pmatrix} \begin{bmatrix} x_1 & x_2 \\ \end{bmatrix} \begin{bmatrix} w_1 & w_3 & w_5 \\ w_2 & w_4 & w_6 \\ \end{bmatrix}+\begin{bmatrix} b_1& b_2 & b_3 \\ \end{bmatrix}\end{pmatrix}= f_1(\underline{x}W_1b_1) $

이 때 $f$는 activation function이다.

 

 

MLP가 더 deep 해진다면 아래와 같이 표현할 수 있다.

  • $ f_3(f_2(f_1(\underline{x}W_1+b_1)W_2+b_2)W_3+b_3) $ 의 반복...

 

하지만 linear(선형)인 activation function으로는 이렇게 깊게 쌓아 봤자 효과가 없다.

이는 입력과 출력 간의 선형적 관계밖에 나타내지 못한다는 한계가 있을 뿐더러 아래와 같은 한계도 존재한다.

 

  • $f(x)=x$

위와 같은 함수가 linear함수인데, 이대로$ f_3(f_2(f_1(\underline{x}W_1+b_1)W_2+b_2)W_3+b_3) $수식을 전개해 보면,

치환..치환을 거쳐 결국 $ \underline{x}Wb $ 의 형태로 돌아온다. 이때, $W$와 $b$의 shape을 보면 은닉층은 무시되는 의미의 shape이 나온다...

 

따라서 이는 은닉층이 없는 FC layer의 표현력과 같아진다.

 


 

 

따라서 MLP에서 deep한 신경망을 표현하기 위해서는 non-linear activation fuction이 필요하며,

 

입력과 출력간 비선형적 관계를 표현하기 위해서도 non-linear activation fuction은 필수적이다.

 

 

728x90

'AI' 카테고리의 다른 글

선형 분류 & 퍼셉트론  (2) 2024.09.04
Backpropagation  (0) 2024.09.03
Adam (Adaptive Moment Estimation)  (0) 2024.09.02
Momentum vs RMSProp  (0) 2024.09.01
파라미터 (parameter) vs 하이퍼파라미터 (hyperparameter)  (0) 2024.09.01
    'AI' 카테고리의 다른 글
    • 선형 분류 & 퍼셉트론
    • Backpropagation
    • Adam (Adaptive Moment Estimation)
    • Momentum vs RMSProp
    pullwall
    pullwall

    티스토리툴바