Momentum vs RMSProp

728x90

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.

1.Momentum

Momentum은 Gradient를 누적함으로써 관성을 부여하는 것이다. (관성을 부여하기 위해 Gradient 값들을 저장하고 있어야 한다)

위 사진에서 Graident를 누적하면 위, 아래로 가는 방향은 점점 상쇄되지만, 앞으로 나아가는 방향은 점점 누적된다.

많이 훑은 축으로는 적게, 적게 훑은 축으로는 많이 탐색한다.

경사가 급한 곳은 조심스럽게, 경사가 완만한 곳은 과감하게 간다.

728x90

MLP를 행렬과 벡터로 나타내기, Non-linear activation의 중요성 (2)	2024.09.02
Adam (Adaptive Moment Estimation) (0)	2024.09.02
파라미터 (parameter) vs 하이퍼파라미터 (hyperparameter) (0)	2024.09.01
mini-batch SGD (0)	2024.09.01
SGD (Stochastic Gradient Descent) (0)	2024.09.01