sgd

    mini-batch SGD

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.https://welldonecode.tistory.com/126 SGD (Stochastic Gradient Descent)해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.  2차식인 loss fuction의 Gradient Descent 과정을 contour plot(등고선 그래프)으로 그려보면 위 그림과 같다.  SGD는 데이터 중 임의로welldonecode.tistory.com GD(Gradient Descent)는 방향을 너무 신중하게 (모든 데이터를 전부 고려해서) 결정해서 문제이고, SGD는 데이터를 하나씩만 보기 때문에 너무 성급하게 방향을 결정한다는 문제점이 있다. 이 둘의 절충안이..

    SGD (Stochastic Gradient Descent)

    SGD (Stochastic Gradient Descent)

    해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.  2차식인 loss fuction의 Gradient Descent 과정을 contour plot(등고선 그래프)으로 그려보면 위 그림과 같다.  SGD는 데이터 중 임의로 하나만 뽑아서 loss fucntion을 만드는 과정을 데이터의 개수가 소진될 때 까지 반복한다. (비복원추출)데이터를 다 뽑았다면, 다시 주머니에 전부 넣고 처음부터 이 과정을 반복한다. 데이터 하나만 보고 방향을 빠르게 결정하는 방법이다 (연산 cost가 적다). 해당 방법은 local minimum을 찾는 문제를 해결할 수 있는 가능성이 있다.