๐ก 'Deep Learning from Scratch'์ 'CS231N'์ ์ฐธ๊ณ ํ์ฌ ์์ฑ (๊ฐ ์ ์ ๋๋ฒ๋ง์ ์ง๋ ๊ฒ์๋ฌผ์์ ์ด์ด์ง๋๋ค) 2. ์ตํฐ๋ง์ด์ ์ง๋ ๊ฒ์๋ฌผ์์๋ SGD์ ๋ฌธ์ ์ ์ผ๋ก ์ง์ ๋์๋ ์ฌ๋ฌ ๊ฐ์ง ๊ฐ์ด๋ฐ ์คํ ๋ฐฉํฅ์ ๊ฐ์ ํ ์ตํฐ๋ง์ด์ ์ ๋ํ์ฌ ์์๋ดค์ต๋๋ค. ์ค๋ฒ์ํ (overshooting)์ผ๋ก ์์ฅ์ (saddle point)๊ณผ ์ง์ญ ์ต์๊ฐ(local minima)์ ํต๊ณผํ๋ฉฐ ์ ์ญ ์ต์๊ฐ(global minimum)์ ์ฐพ๋ SGD+Momentum, NAG๋ฅผ ์ง์ ๊ตฌํํด๋ณด์์ต๋๋ค. ์ด๋ฒ ๊ฒ์๋ฌผ์์๋ ํ๋ผ๋ฏธํฐ๊ฐ ๊ฐฑ์ ๋ ์ ๋์ ๋ฐ๋ผ ์คํ ์ฌ์ด์ฆ๋ฅผ ์กฐ์ ํ๋ฉฐ ํ์ต์ ์งํํ๋ AdaGrad๋ฅ์ ์ตํฐ๋ง์ด์ ์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค. 2.5 Adaptive Gradient (AdaGrad) AdaGrad๋ ..