💡 'Deep Learning from Scratch'와 'CS231N'을 참고하여 작성 (각 절의 넘버링은 지난 게시물에서 이어집니다) 2. 옵티마이저 지난 게시물에서는 SGD의 문제점으로 지적되었던 여러 가지 가운데 스텝 방향을 개선한 옵티마이저에 대하여 알아봤습니다. 오버슈팅(overshooting)으로 안장점(saddle point)과 지역 최솟값(local minima)을 통과하며 전역 최솟값(global minimum)을 찾던 SGD+Momentum, NAG를 직접 구현해보았습니다. 이번 게시물에서는 파라미터가 갱신된 정도에 따라 스텝 사이즈를 조정하며 학습을 진행하는 AdaGrad류의 옵티마이저에 대해 알아보겠습니다. 2.5 Adaptive Gradient (AdaGrad) AdaGrad는 ..