๐ C. Szegedy et al., "Going Deeper with Convolutions", in CVPR, 2014
๋ ผ๋ฌธ 3์ค ์์ฝ
- ๋ชจ๋ฐ์ผ๊ณผ ์๋ฒ ๋๋ ์์์ ์ ์๋ํ๊ธฐ ์ํด ์ปดํจํ ์์์ ํจ์จ์ ์ผ๋ก ํ์ฉํด์ผ ํ๋ค๋ ์๊ตฌ๊ฐ ๋์์ก๋ค.
- ์ฐจ์ ์ถ์๋ฅผ ํตํ ๊ณ์ฐ์ ๊ฐ์์ ๋น์ ํ์ฑ ์ถ๊ฐ ๋ ๊ฐ์ง๋ฅผ ๋ชฉ์ ์ผ๋ก ์ธ์ ์ ๋ชจ๋์ ๋์ ํ๋ค.
- ์ธ์ ์ ๋ชจ๋์ ํตํด ์ปดํจํ ๋น์ฉ์ ์ ๊ฒ ์์นํ์ง๋ง, ๋ ๊น๊ณ ๋์ผ๋ฉด์ ์ฑ๋ฅ๋ ์ข์ GoogLeNet์ ๊ตฌ์ถํ๋ค.
Abstract
๋ณธ ๋ ผ๋ฌธ์์๋ ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) 2014์์ ๋ถ๋ฅ์ ํ์ง ๋ฌธ์ ์์ ์ข์ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋ '์ธ์ ์ (Inception)'์ด๋ผ๋ ์ด๋ฆ์ deep convolution neural network architecture๋ฅผ ์ ์ํฉ๋๋ค. ์ธ์ ์ ์ ๋ํ์ ์ธ ํน์ง์ ์ ๊ฒฝ๋ง(neural network) ๋ด๋ถ์ ์ปดํจํ ์์(computational resource)์ ํจ์จ์ ์ผ๋ก ํ์ฉํ๋ค๋ ์ ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ์คํ ์ค๊ณ๋ฅผ ํตํด ์ปดํจํฐ์ ์ฐ์ฐ ๋น์ฉ์ ์ผ์ ํ๊ฒ ์ ์งํ๋ฉด์ ์ ๊ฒฝ๋ง์ ๊น์ด์ ๋๋น๋ฅผ ์ฆ๊ฐ์์ผฐ์ต๋๋ค. ์ํคํ ์ฒ(architecture)์ ์ฑ๋ฅ์ ์ต์ ํํ๊ธฐ ์ํด 'ํค๋น์ ์์น(Hebbian principle)'๊ณผ '๋ฉํฐ ์ค์ผ์ผ ํ๋ก์ธ์ฑ(multi-scale processing)'์ ์ง๊ด์ ๊ธฐ๋ฐํ์์ต๋๋ค. ILSVRC 2014์ ์ ์ถํ ๋ชจ๋ธ์ 'GoogLeNet'์ด๋ผ ํ๋ฉฐ 22์ธต์ ๊น์ด๋ฅผ ๊ฐ์ง ๋คํธ์ํฌ๋ก, ๋ถ๋ฅ์ ํ์ง ๋ฌธ์ ์ ๋ํด ์ฑ๋ฅ์ ํ๊ฐํ์์ต๋๋ค.
1. Introduction
2012๋ ๋ถํฐ 3๋ ๋์, ๋ฅ๋ฌ๋๊ณผ convolution ๋คํธ์ํฌ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฒด ํ์ง(object detection)์ ๊ฐ์ฒด ๋ถ๋ฅ(object classification) ๋ถ์ผ์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ํฅ์ํ์์ต๋๋ค. ๊ณ ๋ฌด์ ์ด์๋ ๊ฒ์ ๋จ์ํ '๋ ๊ฐ๋ ฅํ ํ๋์จ์ด'๋ '๋ ํฐ ๋ฐ์ดํฐ์ (dataset)', '๋ ํฐ ๋ชจ๋ธ'์ ์ฌ์ฉํ ๊ฒฐ๊ณผ๊ฐ ์๋, '์๋ก์ด ์์ด๋์ด'๋ '์๊ณ ๋ฆฌ์ฆ' ๊ทธ๋ฆฌ๊ณ '๊ฐ์ ๋ ๋คํธ์ํฌ ์ํคํ ์ฒ'๋ฅผ ์ฌ์ฉํ ๊ฒฐ๊ณผ์์ต๋๋ค.
๋ํ, ๋ชจ๋ฐ์ผ๊ณผ ์๋ฒ ๋๋(embedded) ์์์ ์ด์ํ๊ธฐ ์ํด์๋ ์๊ณ ๋ฆฌ์ฆ์ ํจ์จ์ฑ, ํนํ ์ ๋ ฅ๊ณผ ๋ฉ๋ชจ๋ฆฌ์ ํจ์จ์ ์ธ ์ฌ์ฉ์ด ์ค์ํด์ก์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ ํ๋(accuracy)์ ์์น๋ณด๋ค ํจ์จ์ฑ์ ๊ณ ๋ คํ์ฌ ์ฌ์ธต(deep) ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ปดํจํฐ ๋น์ (Computer Vision, CV)์ ์ํ ํจ์จ์ ์ธ ์ฌ์ธต ์ ๊ฒฝ๋ง(deep neural network)์ ์ํคํ ์ฒ์ ์ง์คํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ '์ธ์ ์ (Inception)'์ Network-in-network [M. Lin et al., 2013]์ ์ํ ์ธ์ ์ ์์ ๊ทธ ์ด๋ฆ์ ๋ฐ์์ต๋๋ค. ๋ ผ๋ฌธ์์ 'deep'์ด๋ผ๋ ๋จ์ด๋ ๋ ๊ฐ์ง์ ์๋ฏธ๋ก ์ฌ์ฉํฉ๋๋ค. '์ธ์ ์ ๋ชจ๋'์ด๋ผ๋ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ๋์ ํ๋ค๋ ์๋ฏธ์ ๋คํธ์ํฌ์ ๊น์ด๊ฐ ๊น์ด์ง๋ค๋ ์ง์ ์ ์ธ ์๋ฏธ์ ๋๋ค.
2. Related Work
LeNet [Y. LeCun, 1998]์ ์์์ผ๋ก Convolutional Neural Network (CNN)์ ํ์ค ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ฒ ๋์์ต๋๋ค. ํ์ค ๊ตฌ์กฐ๋ ๋์ ๋ Convolution layer ๋ค์ ํ๋ ์ด์์ Fully-connected layer (FC layer)๊ฐ ์ด์ด์ง๋ ํํ๋ฅผ ๋งํฉ๋๋ค. ์ฌ๊ธฐ์ contrast normalization๊ณผ max-pooling์ ์ฐ๊ฒฐํ๊ธฐ๋ ํ์ต๋๋ค. ImageNet๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ๋ ๊ฒฝ์ฐ, ๊ณ์ธต(layer)์ ์์ ๋๋น๋ฅผ ๋๋ฆฌ๋ฉด์ ๋๋กญ ์์(dropout)์ ํตํด ๊ณผ์ ํฉ(overfitting) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด ์ถ์ธ์์ต๋๋ค.
Max-pooling layer๊ฐ ์ ํํ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์์คํ๊ฒ ๋ง๋ ๋ค๋ ์ฐ๋ ค์๋ ๋ถ๊ตฌํ๊ณ , AlexNet [A. krizhevsk et al., 2012]์ ์์น ์๋ณ(localization)๊ณผ ๊ฐ์ฒด ํ์ง, ์ฌ๋์ ์์ธ๋ฅผ ์ถ์ (human pose estimation)ํ๋ ๋ฌธ์ ์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์์ต๋๋ค.
์์ฅ๋ฅ ์๊ฐ ํผ์ง(primate visual cortex)์ ๋ํ ์ ๊ฒฝ ๊ณผํ ๋ชจ๋ธ์์ ์๊ฐ์ ์ป์ Serre ์ฐ๊ตฌ์ง์ ๋ค์ํ ๊ท๋ชจ์ ์ด๋ฏธ์ง๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ์ ๊ณ ์ ๋ Gabor ํํฐ๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด์ ๋น์ทํ ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง ์ธ์ ์ ์ํคํ ์ฒ์ ๋ชจ๋ ํํฐ๊ฐ ํ์ต๋์๋ค๋ ์ ์ด ๋ค๋ฆ ๋๋ค. ๋ํ, GoogLeNet ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ธ์ ์ ๊ณ์ธต์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ์ฌ 22์ธต์ ์ฌ์ธต ๋ชจ๋ธ์ ๋ง๋ญ๋๋ค.
Lin ์ฐ๊ตฌ์ง์์ ์ ์ํ Network-in-network (NIN)๋ ์ ๊ฒฝ๋ง์ ํํ๋ ฅ(representational power of neural networks)์ ๋์ด๊ธฐ ์ํ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค. ๊ทธ๋ค์ $ 1\times1 $ convolution layer๋ฅผ ๋คํธ์ํฌ์ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ๊น์ด๋ฅผ ์ฆ๊ฐ์์ผฐ์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ $ 1\times1 $ convolution layer๋ฅผ 2๊ฐ์ง ๋ชฉ์ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ๊ฐ์ฅ ์ค์ํ ๋ชฉ์ ์ ์ปดํจํ ๋ณ๋ชฉ ํ์(bottleneck)์ ์ ๊ฑฐํ๊ธฐ ์ํ์ฌ ์ฐจ์์ ์ถ์ํ๋ ๋ชจ๋๋ก ์ด์ฉํ๋ ๊ฒ์ ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ํตํด ๋คํธ์ํฌ์ ํฌ๊ธฐ๊ฐ ์ ํ๋๋ ๊ฒ์ ๋ง์์ต๋๋ค. ๋ ๋ฒ์งธ ๋ชฉ์ ์ ํฐ ์ฑ๋ฅ์ ์ ํ ์์ด ๋คํธ์ํฌ์ ๊น์ด์ ๋๋น๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด์์ต๋๋ค.
2014๋ ๊ฐ์ฒด ํ์ง ๋ฌธ์ ์ state-of-the-art (SOTA) ์ฐ๊ตฌ๋ Girshick ์ฐ๊ตฌ์ง์ Regions with Convolutional Neural Network (R-CNN) [R. B. Girshick et al., 2014]์ด์์ต๋๋ค. R-CNN์ ํ์ง ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๋ถํดํ์ต๋๋ค.
- ์์(color)๊ณผ ์ง๊ฐ(texture) ๊ฐ์ ๋ฎ์ ์์ค์ ํน์ง(low-level feature)์ ํ์ฉํ์ฌ ์นดํ ๊ณ ๋ฆฌ์ ์ ํ๋์ง ์๋ ๋ฐฉ์(category-agnostic fashion)์ผ๋ก ๊ฐ์ฒด์ ์์น์ ๋ํ ์ ์(location proposal)์ ์์ฑํฉ๋๋ค.
- CNN ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ฉํ์ฌ ์ ์ํ ์์น์ ๊ฐ์ฒด์ ๋ํ์ฌ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ถ๋ฅํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๊ฐ์ฒด ํ์ง ๋ฌธ์ ์์ ํด๋น ์ฐ๊ตฌ์ ์ ์ฌํ ํ์ดํ ๋ผ์ธ์ ์ ์ฉํ์ต๋๋ค. ํ์ง๋ง ๊ฒฝ๊ณ ์์(bounding box)์ ๋์ ์ฌํ์จ(recall)์ ์ํ Multi-box ์์ธก ๋ฐฉ๋ฒ๊ณผ ๊ฒฝ๊ณ ์์์ ์ ์์ ๋ณด๋ค ์ ๋ถ๋ฅํ๊ธฐ ์ํ ์์๋ธ ๋ฐฉ๋ฒ, ์ด ๋ ๋จ๊ณ๋ฅผ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
3. Motivation and High Level Considerations
์ฌ์น ์ ๊ฒฝ๋ง์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ๊ทธ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊น์ด(๋คํธ์ํฌ์ ๊ณ์ธต ์)์ ๋๋น(๊ฐ ๊ณ์ธต์ ์ ๋ ์)๋ฅผ ๋ชจ๋ ๋๋ฆฌ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ํ์ง๋ง, ์ด ๊ฐ๋จํ ํด๊ฒฐ์ฑ ์๋ ์๋์ ๋ ๊ฐ์ง ๋ฌธ์ ๊ฐ ์กด์ฌํฉ๋๋ค.
- ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ํฌ๋ค๋ ๊ฒ์ ๋ง์ ๋งค๊ฐ๋ณ์(parameter)๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด๋ ๋คํธ์ํฌ๊ฐ ๋ ์ฝ๊ฒ ๊ณผ์ ํฉํ๋๋ก ๋ง๋ญ๋๋ค. ์ด๋ฌํ ํ์์ ํนํ ๋ผ๋ฒจ๋ง๋ ํ์ต ๋ฐ์ดํฐ์ ์ ์์ด ์ ์ ๋ ๋ ์ ๋ํ๋ฉ๋๋ค. ์ด๋ ์ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ์ ์ ๊ตฌํ๊ธฐ ์ด๋ ต๊ณ ๋น์ฉ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ ์๊ฒจ๋ ๋ณ๋ชฉ ํ์์ ๋๋ค. ๋ํ, ์ ๋ฌธ ์ธ๋ ฅ์ด๋๋ผ๋ ๊ทธ๋ฆผ 4์ ImageNet ์ด๋ฏธ์ง๋ฅผ ์ ํํ๊ฒ ๋ถ๋ฅํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค.
- ๋คํธ์ํฌ์ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ปดํจํ ์์์ด ๊ธ๊ฒฉํ๊ฒ ์ฆ๊ฐํฉ๋๋ค. ์ปดํจํ ์์ฐ์ ํญ์ ํ์ ์ ์ ๋๋ค. ๋ฐ๋ผ์ ์ฑ๋ฅ์ ๋์ด๋ ๊ฒ์ด ์ฃผ๋ ๋ชฉ์ ์ด๋๋ผ๋, ์ปดํจํ ์์์ ํจ์จ์ ์ผ๋ก ๋ถ๋ฐฐํ๋ ๊ฒ์ด ๋คํธ์ํฌ์ ํฌ๊ธฐ๋ฅผ ๋ฌด๋ถ๋ณํ๊ฒ ํค์ฐ๋ ๊ฒ๋ณด๋ค ๋ฐ๋์งํฉ๋๋ค.
์ ๋ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ทผ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ FC layer๋ convolution layer ๋ด๋ถ๋ฅผ ํฌ์ ์ธต(spares layer)์ผ๋ก ๊ต์ฒดํ์ฌ ํฌ์์ฑ(sparsity)์ ๋ถ์ฌํ๋ ๊ฒ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์๋ฌผํ์ ์์คํ ์ ๋ชจ๋ฐฉํ๋ค๋ ๊ฒ ์ธ์๋ Arora ์ฐ๊ตฌ์ง์ ์ฐ๊ตฌ๋ก๋ถํฐ ๊ฒฌ๊ณ ํ ์ด๋ก ์ ํ ๋๋ฅผ ์ป์ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. Arora ์ฐ๊ตฌ์ง์ ์ฃผ์ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๋ฐ์ดํฐ์ ์ ํ๋ฅ ๋ถํฌ๋ฅผ ํฌ์ํ๊ณ ํฐ ์ฌ์ธต ์ ๊ฒฝ๋ง์ผ๋ก ๋ํ๋ผ ์ ์๋ค๋ฉด, ์์ ๊ณ์ธต์ ํ์ฑํ ๊ฐ๋ค์ ์๊ด ๊ด๊ณ๋ฅผ ๋ถ์ํ๊ณ ์๊ด ๊ด๊ณ๊ฐ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง ๋ด๋ฐ๋ค์ ๊ตฐ์งํ(clustering)ํจ์ผ๋ก์จ ์ต์ ํ๋ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ ์ ์์ต๋๋ค. ์ด๋ ์ํ์ ์ฆ๋ช ์ผ๋ก ๋งค์ฐ ์๊ฒฉํ ์กฐ๊ฑด๋ค์ด ์๊ตฌ๋ฉ๋๋ค. ํ์ง๋ง ํค๋น์ ๋ฒ์น์ '๋์์ ํ์ฑํ๋ ๋ด๋ฐ์ ์๋ก ์ฐ๊ด์ด ์๋ค'๋ ์ฌ์ค์ ๋ ์ฌ๋ ค ๋ณด๋ฉด, ์ค์ ๋ก๋ ๋ ์๊ฒฉํ ์กฐ๊ฑด์์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
์ํ๊น๊ฒ๋ ์ค๋๋ ์ ์ปดํจํ ์ธํ๋ผ๋ ๋ถ๊ท ์ผํ๊ณ ํฌ์ํ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ๋ค๋ฃฐ ๋ ๋งค์ฐ ๋นํจ์จ์ ์ ๋๋ค. ์ฌ์ง์ด ํฌ์์ฑ์ ๋์ ํ์ฌ ๊ณ์ฐ ์๋ฅผ 100๋ฐฐ ๊ฐ์ํ๋๋ผ๋, ์กฐํ์ ์บ์ ๋๋ฝ(cache miss)์ ๊ณ์ฐ ๋น์ฉ์ด ์๋์ ์ด๊ธฐ ๋๋ฌธ์ ํฌ์ ํ๋ ฌ(sparse matrix)๋ก ์ ํํ๋ ํจ๊ณผ๋ ๊ฑฐ์ ๋ํ๋์ง ์์ต๋๋ค. ๋ํ, ๊ท ์ผํ์ง ์์ ํฌ์ ๋ชจ๋ธ์ ๋ ๋ณต์กํ ์์ง๋์ด๋ง๊ณผ ์ปดํจํ ์ธํ๋ผ๋ฅผ ์๊ตฌํฉ๋๋ค. ์ด๊ธฐ์๋ ๋์นญ์ฑ์ ๊นจ๊ณ ํ์ต์ ํฅ์ํ๊ธฐ ์ํด ํน์ง ์ฐจ์์์ ๋๋คํ๊ฑฐ๋ sparse connection ํ ์ด๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ถ์ธ์์ต๋๋ค. ํ์ง๋ง ๋ณ๋ ฌ ์ฐ์ฐ์ ๋ ์ต์ ํํ๊ธฐ ์ํด AlexNet์ฒ๋ผ full connection์ ์ด์ฉํ๋ ๋ฐฉ์์ผ๋ก ๋ค์ ๋ฐ๋์์ต๋๋ค. 2014๋ CV ๋ถ์ผ์ SOTA ์ํคํ ์ฒ๋ค์ ์ปดํจํ ์ธํ๋ผ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๊ท ์ผํ ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ณ ์์ต๋๋ค. ๋ง์ ์์ ํํฐ์ ํฐ ๋ฐฐ์น ์ฌ์ด์ฆ์์๋ ํจ์จ์ ์ธ ์กฐ๋ฐ ์ฐ์ฐ(dense computation)์ด ๊ฐ๋ฅํ๋๋ก ๊ณ ์ํ์ต๋๋ค.
์ด๋ ์กฐ๋ฐ ํ๋ ฌ์ด ์ฐ์ฐ์ ์ ํฉํ ํ๋์จ์ด๋ฅผ ํ์ฉํ๋ค๋ ์กฐ๊ฑด์์, ์์ ์ด๋ก ์์ ์ ์ํ ๊ฒ์ฒ๋ผ ํํฐ ์์ค๊ณผ ๊ฐ์ ์ค๊ฐ ๋จ๊ณ์์ ํฌ์์ฑ์ ์ด์ฉํ ๋ฐฉ๋ฒ์ด ์๋์ง์ ๋ํ ์๋ฌธ์ผ๋ก ์ด์ด์ง๋๋ค. ํฌ์ ํ๋ ฌ์ ์ฐ์ฐ(sparse matrix computation)๊ณผ ๊ด๋ จ๋ ์ฐ๊ตฌ๋ค์ ํฌ์ ํ๋ ฌ์ ๊ตฐ์งํํ์ฌ ์๋์ ์ผ๋ก ์กฐ๋ฐํ ํ์ ํ๋ ฌ(dense submatrix)์ ๋ง๋๋ ๋ฐฉ๋ฒ์ด ํฌ์ ํ๋ ฌ๊ณฑ(sparse matrix multiplication)์์ ๋ ๊ด์ฐฎ์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ์ธ๊ธํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๊ฐ๊น์ด ๋ฏธ๋์ ๋ถ๊ท ์ผํ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ฅผ ์๋์ผ๋ก ๊ตฌ์ถํ๋ ๊ธฐ๋ฒ์ผ๋ก ์ ์ฌํ๊ฒ ํ์ฉ๋ ์ ์์ต๋๋ค.
์ธ์ ์ ์ ํฌ์ ๊ตฌ์กฐ(sparse structure)์ ๋ํ ๊ทผ์ฌํ๋ฅผ ํฌํจํ์ฌ ์กฐ๋ฐํ๋ฉด์๋ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ์ ๊ตํ๊ฒ ์ค๊ณ๋ ๋คํธ์ํฌ ์์ ๊ตฌ์ถ(network topology construction) ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐํ๋ ์ฌ๋ก ์ฐ๊ตฌ์์ ์์๋์์ต๋๋ค. ์ถ์ธก์ ๊ทผ๊ฑฐํ๋ ํ๋ก์ ํธ์์๋ ๋ถ๊ตฌํ๊ณ NIN์ ๊ธฐ๋ฐํ ๊ธฐ์กด์ ๋คํธ์ํฌ๋ค๊ณผ ๋น๊ตํ์ ๋, ์กฐ๊ธฐ์ ์ฑ๋ฅ์ด ์กฐ๊ธ ๋ ํฅ์๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค. ์ด๋ ์ดํ ์ฝ๊ฐ์ ํ๋์ผ๋ก ๊ฒฉ์ฐจ๊ฐ ๋ ๋ฒ์ด์ง๊ฒ ๋ฉ๋๋ค. ๋ํ, ์ธ์ ์ ์ R-CNN๊ณผ Scalable object detection [D. Erhan et al., 2014]์ ๊ธฐ์ด ๋คํธ์ํฌ๋ก ์ฌ์ฉํ ๊ฒฝ์ฐ, ๊ฐ์ฒด ์์น ์๋ณ๊ณผ ๊ฐ์ฒด ํ์ง ๋ฌธ์ ์์ ํนํ ์ ์ฉํ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
4. Architectural Details
์ธ์ ์ ์ ํต์ฌ ์์ด๋์ด๋ ์ต์ ์ ์ง์ญ์ ํฌ์ ๊ตฌ์กฐ(optimal local sparse structure)๋ก ๊ทผ์ฌํํ๊ณ ์ด๋ฅผ ์ฝ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํ ์กฐ๋ฐํ ๊ตฌ์ฑ ์์(dense component)๋ก ๊ตฌ์ฑํ ์ง์ ๋ํ ๋ฐฉ๋ฒ์ ์ฐพ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ์ต์ ์ ์ง์ญ ๊ตฌ์กฐ(optimal local structure)๋ฅผ ์ฐพ๊ณ ์ด๋ฅผ ๊ณต๊ฐ์ ์ผ๋ก ๋ฐ๋ณตํฉ๋๋ค. Arora ์ฐ๊ตฌ์ง์ ๋ง์ง๋ง ๊ณ์ธต์ ์๊ด ๊ด๊ณ๋ฅผ ๋ถ์ํ๊ณ ๋์ ์๊ด๊ด๊ณ์ ์ ๋๋ค์ ๊ตฐ์งํํ๋ ๋ฐฉ์์ layer-by-layer ๊ตฌ์กฐ๋ฅผ ์ ์ํฉ๋๋ค. ๊ตฐ์ง๋ค์ ๋ค์ ๊ณ์ธต์ ์ ๋์ผ๋ก ๊ตฌ์ฑ๋๊ณ ์ด์ ๊ณ์ธต์ ์ ๋๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด์ ๊ณ์ธต์ ๊ฐ ์ ๋์ด ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ผ๋ถ ์์ญ์ ํด๋นํ๋ฉฐ, ์ด๋ค์ ํํฐ ๋ฑ ํฌ(filter bank)๋ผ๋ ๊ทธ๋ฃน์ผ๋ก ๋ง๋ค์ด์ง๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ํ์ ๊ณ์ธต(์ ๋ ฅ๊ณผ ๊ฐ๊น์ด ๊ณ์ธต)์์๋ ์๊ด๊ด๊ณ๊ฐ ๋์ ์ ๋๋ค์ด ๋ก์ปฌ ์์ญ์ ์ง์ค๋ฉ๋๋ค. ์ด๋ ํ ์์ญ์ ๋ง์ ๊ตฐ์ง๋ค์ด ์ง์ค๋๋ค๋ ๋ป์ด๊ธฐ์ NIN์์ ์ ์ํ ๊ฒ์ฒ๋ผ ๋ค์ ๊ณ์ธต์์ $ 1\times1 $ convolution layer๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ธ์ ์ ์ํคํ ์ฒ๋ ํจ์น ์ ๋ ฌ(patch-alignment) ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด ํํฐ์ ํฌ๊ธฐ๋ฅผ $ 1\times1 $, $ 3\times3 $, $ 5\times5 $๋ก ์ ํํ์ต๋๋ค. ์ฌ๊ธฐ์ ์ ์ํ๋ ์ํคํ ์ฒ๋ ๋ค์ ๊ณ์ธต์ ์ ๋ ฅ๊ฐ์ ๊ตฌ์ฑํ๋ ์ถ๋ ฅ ํํฐ ๋ฑ ํฌ(output filter bank)๋ก ๊ตฌ์ฑ๋ ๊ณ์ธต์ ์กฐํฉ์ ์๋ฏธํฉ๋๋ค. ์ถ๋ ฅ ํํฐ ๋ฑ ํฌ๋ ๋จ์ผ ์ถ๋ ฅ ๋ฒกํฐ๋ฅผ ํฉ์น ๊ฒ์ ๋๋ค. ๋ํ, pooling ์์ ์ด convolution ๋คํธ์ํฌ์ ์ฑ๊ณต์ ์ํด ํ์์ ์ด์๊ธฐ์, ๊ฐ ๋จ๊ณ์ ๋ณ๋ ฌ pooling ๊ฒฝ๋ก๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์ข์ ์ํฅ์ ๋ํด์ค๋๋ค.
์ธ์ ์ ๋ชจ๋์ ์์ ์ฌ๋ฆฌ๋ฉด ์ถ๋ ฅ๊ฐ์ ์๊ด๊ด๊ณ๋ ๋งค๋ฒ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ๋์ ๊ณ์ธต(์ถ๋ ฅ๊ณผ ๊ฐ๊น์ด ๊ณ์ธต)์ ๋์ ์์ค์ผ๋ก ์ถ์ํ๋ ํน์ง์ ์ถ์ถํ๋ฏ๋ก ๊ณต๊ฐ ์ง์ค๋(spatial concentration)๊ฐ ๋จ์ด์ง ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. ๋ฐ๋ผ์ $ 3\times3 $๊ณผ $ 5\times5 $ convolution layer์ ๋น์จ์ ๋์ ๊ณ์ธต์ผ๋ก ๊ฐ์๋ก ์ฆ๊ฐํด์ผ ํฉ๋๋ค.
์ธ์ ์ ๋ชจ๋์ ํ ๊ฐ์ง ํฐ ๋ฌธ์ ๋ ๋จ์ํ ํํ(naiive version)์์๋ ํํฐ์ ์๊ฐ ๋ง์์ง๋ฉด $ 5\times5 $ convolution layer๋ฅผ ์ ์ ์๋ก ์๋๋ผ๋ ๊ณ์ฐ์์ด ๋งค์ฐ ์ปค์ง๋ค๋ ๊ฒ์ ๋๋ค. pooling ์ ๋์ ์ถ๊ฐํ๋ฉด ์ด ๋ฌธ์ ๊ฐ ๋ ๋๋ ทํ๊ฒ ๋๋ฌ๋ฉ๋๋ค. ์ด๋ ์ถ๋ ฅ๊ฐ์ ์ฑ๋ ์๊ฐ ์ด์ ๊ณ์ธต์ ํํฐ์์ ๊ฐ๊ธฐ ๋๋ฌธ์ ์๊ธด ๋ฌธ์ ์ ๋๋ค. ์ด ์ํคํ ์ฒ๋ ์ต์ ์ ํฌ์ ๊ตฌ์กฐ๋ฅผ ์ฐพ์ ์ ์์ง๋ง, ๋งค์ฐ ๋นํจ์จ์ ์ผ๋ก ์ํ๋์ด ๋ช ๋จ๊ณ๋ง์ ์ปดํจํ ์์์ ํฐํธ๋ฆด ์ ์์ต๋๋ค.
์ด๋ ์ธ์ ์ ์ ๋ ๋ฒ์งธ ์์ด๋์ด๋ก ์ด์ด์ง๋๋ค. ์ปดํจํ ์๊ตฌ์ฌํญ์ด ๋๋ฌด ๋ง์ด ์ฆ๊ฐํ ๊ฒฝ์ฐ, ๋ฐ๋๋ก ์ฐจ์์ ์ถ์ํ์๋ ์์ด๋์ด์ ๋๋ค. ๋ฎ์ ์ฐจ์์ ์๋ฒ ๋ฉ์ ์๋์ ์ผ๋ก ํฐ ์ด๋ฏธ์ง ํจ์น์ ๋ํด ๋ง์ ์ ๋ณด๋ฅผ ํฌํจํ๋ค๋ ์ฑ๊ณต์ ์ธ ์๋ฒ ๋ฉ์ ๊ธฐ๋ฐํ ๋ฐฉ๋ฒ์ ๋๋ค. ํ์ง๋ง, ์ด๋ฌํ ์๋ฒ ๋ฉ์ ์กฐ๋ฐํ ์ ๋ณด๋ก ํํ์ ์ ๋ณด๋ฅผ ์์ถํ์๊ธฐ ๋๋ฌธ์ ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์์ง๋ค๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. Arora ์ฐ๊ตฌ์ง์ ์กฐ๊ฑด์ ๋ฐ๋ฅด๋ฉด, ์์ถ๋ ํํ์ ๋๋ถ๋ถ์ ์์ญ์์ ํฌ์ํ๊ฒ ์ ์ง๋์ด์ผ ํ๋ฉฐ ํ์ํ ๊ฒฝ์ฐ์๋ง ์ ํธ๋ฅผ ์์ถํด์ผ ํฉ๋๋ค. ์ฆ, $ 1\times1 $ convolution์ด ๊ณ์ฐ์์ด ํฐ $ 3\times3 $๊ณผ $ 5\times5 $ convolution์ด์ ์ ์ฌ์ฉ๋์ด ์ฐจ์์ ์ถ์ํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ณ์ฐ์์ด ๊ฐ์ํ๋ ํจ๊ณผ ์ธ์๋ ReLU (Recified Linear Unit)๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ๋น์ ํ์ฑ์ ๋ํด์ฃผ๋ ํจ๊ณผ๋ฅผ ์ป์ต๋๋ค. ์ต์ข ๊ฒฐ๊ณผ๋ ์๋์ ๊ทธ๋ฆผ 6์ผ๋ก ๋ฌ์ฌ๋์์ต๋๋ค.
์ธ์ ์ ์ ๊ทธ๋ฆผ 6์ฒ๋ผ ๋ชจ๋๋ค์ ์์์ ๊ตฌ์ฑํ ๋คํธ์ํฌ์ด๋ฉฐ, ๊ฐํน ๊ทธ๋ฆฌ๋(grid)์ ํด์๋(resolution)๋ฅผ ์ ๋ฐ์ผ๋ก ์ค์ด๊ธฐ ์ํด ์คํธ๋ผ์ด๋(stride)๊ฐ 2์ธ max-pooling์ ์ฌ์ฉํฉ๋๋ค. ํ์ต ๊ณผ์ ์์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ํด ๋ฎ์ ๊ณ์ธต์์๋ ๊ธฐ์กด์ convolution ๋ฐฉ์์ ์ ์งํ๊ณ ๋์ ๊ณ์ธต์์๋ง ์ธ์ ์ ๋ชจ๋์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ต๋๋ค. ์ด๋ ํ์์ ์ธ ๊ฒ์ ์๋๋ฉฐ, ๋นํจ์จ์ ์ธ ์ธํ๋ผ๋ฅผ ๋ฐ์ํ ๊ฒ ๋ฟ์ ๋๋ค.
์ธ์ ์ ์ ์ ์ฉํ ์ ์ ํ๋ฐ๋ถ์ ๊ณ์ธต์์๋ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ ์ด ๋ถ๊ฐ๋ฅํ๊ฒ ์ปค์ง์ง ์์ผ๋ฉด์, ๊ฐ ๊ณ์ธต์ ์ ๋ ์๋ฅผ ํฌ๊ฒ ๋๋ฆด ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ํฐ ํฌ๊ธฐ์ ํจ์น๋ก ์ธํด ๊ณ์ฐ ๋น์ฉ์ด ํฐ convolution layer ์ด์ ์ ์ฐจ์์ ์ถ์ํจ์ผ๋ก์จ ์ ์ดํฉ๋๋ค. ๋ํ, ์ด ์ค๊ณ๋ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ค์ํ ์ฒ๋๋ก ์ฒ๋ฆฌํ๊ณ ์ข ํฉํจ์ผ๋ก์จ, ๋ค์ ๊ณ์ธต์์ ์๋ก ๋ค๋ฅธ ์ฒ๋๋ก๋ถํฐ ํน์ฑ์ ๋์์ ์ถ์ํํ๋ค๋ ์ค๋ฌด์ ์ธ ์ง๊ด์ ๋ฐ๋ฆ ๋๋ค.
์ปดํจํ ์์์ ๊ฐ์ ํ ์ด ๋ฐฉ๋ฒ์ ์ด๋ ค์ ์์ด ๊ณ์ธต์ ๊น์ด๋ ๋๋น๋ฅผ ๋๋ฆด ์ ์๊ฒ ๋ง๋ญ๋๋ค. ์ธ์ ์ ์ ํ์ฉํ๋ฉด ๋ค์ ์ฑ๋ฅ์ด ๋จ์ด์ง์ง๋ง, ๊ณ์ฐ์์ ๋ ์ ์ผ๋ฉด์ ๊น๊ณ ๋์ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
5. GoogLeNet
'GoogLeNet'์ ILSVRC 2014 ๋ํ์ ์ ์ถํ ๋ชจ๋ธ๋ก, ์ธ์ ์ ์ํคํ ์ฒ๋ฅผ ์ ์ฉํ์์ต๋๋ค. ์ฝ๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๊ฐ์ง ๋ ๊น๊ณ ๋์ ์ธ์ ์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ง๋ง, ์ด๋ฅผ ์์๋ธํ์ ๋๋ ์ฝ๊ฐ์ ์ฑ๋ฅ๋ง์ด ํฅ์๋์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ ํํ ๊ตฌ์กฐ์ ๋งค๊ฐ๋ณ์์ ์ํฅ์ด ์๋์ ์ผ๋ก ๋ฏธ๋ฏธํ๋ค๋ ๊ฒฝํ์ ์ฆ๊ฑฐ๋ฅผ ๋ฐํ์ผ๋ก ๋คํธ์ํฌ์ ์ธ๋ถ ์ ๋ณด๋ ์๋ตํฉ๋๋ค. ์๋์ ํ 1์ ๋ํ์์ ์ฌ์ฉํ ์ผ๋ฐ์ ์ธ GoogLeNet์ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง ํจ์น ์ํ๋ง ๋ฐฉ๋ฒ์ผ๋ก ํ์ต๋ ๋คํธ์ํฌ๋ค์ 7๊ฐ ๊ฐ์ด๋ฐ 6๊ฐ์ ๋ชจ๋ธ์ด ์์๋ธ์ ์ฌ์ฉ๋์์ต๋๋ค.
์ธ์ ์ ๋ชจ๋์ ํฌํจํ ๋ชจ๋ convolution layer๋ ReLU๋ฅผ ํ์ฑํ ํจ์๋ก ์ฌ์ฉํฉ๋๋ค. receptive field์ ํฌ๊ธฐ๋ $ 224\times224 $๋ก RGB ์ ์ฑ๋์ ๊ฐ์ง๋ฉฐ zero-mean์ ์ ์ฉํ์ต๋๋ค. '#$ 3\times3 $ reduce'์ "#$ 5\times5 $ reduce'๋ $ 3\times3 $๊ณผ $ 5\times5 $ convolution layer ์ด์ ์ ์ฌ์ฉ๋ reduction layer์ $ 1\times1 $ ํํฐ์ ๊ฐ์๋ฅผ ์๋ฏธํฉ๋๋ค. 'pool proj' ์ด์ max-pooling ์ดํ์ ๋ฐ๋ผ์ค๋ projection layer์ $ 1\times1 $ ํํฐ์ ๊ฐ์๋ฅผ ๋ํ๋ ๋๋ค. ๋ชจ๋ reduction/projection layer์๋ ReLU๊ฐ ์ ์ฉ๋ฉ๋๋ค.
๋คํธ์ํฌ๋ ์ฐ์ฐ ํจ์จ์ฑ๊ณผ ์ค์ฉ์ฑ์ ์ผ๋์ ๋๊ณ ์ค๊ณํ์์ต๋๋ค. ๋ฉ๋ชจ๋ฆฌ๊ฐ ์์ ๊ฒฝ์ฐ๋ฅผ ํฌํจํด, ์ปดํจํ ์์์ด ์ ํ๋ ๊ธฐ๊ธฐ๋ค์์๋ ์ถ๋ก (inference)์ ์ํํ ์ ์๋๋ก ํ์์ต๋๋ค. ๋คํธ์ํฌ์ linear layer๋ฅผ ์ถ๊ฐํ์์๋ ๋ถ๋ฅ๊ธฐ ์ด์ ์ 'avg pool'์ ์ฌ์ฉํ ๊ฒ์ NIN์ ๋ฐ๋ฅธ ๊ฒ์ ๋๋ค. linear layer๋ ๋คํธ์ํฌ๋ฅผ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ฝ๊ฒ ์ ์ํ ์ ์๋๋ก ํ์ง๋ง, ๋๋ถ๋ถ์ ํน์ ํจ๊ณผ๋ฅผ ์ํด ์ฌ์ฉํ๊ธฐ๋ณด๋ค๋ ํธ์์ ์ฌ์ฉํฉ๋๋ค. FC layer๋ฅผ avg pool layer๋ก ๋ฐ๊พธ๋ฉด ์์ 1๊ฐ์ ์ ํ๋(top-1 accuracy)๊ฐ ์ฝ 0.6% ํฅ์๋ฉ๋๋ค. FC layer๋ฅผ ์ ๊ฑฐํ ํ์๋ ๋๋กญ์์์ ํ์์ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
๋คํธ์ํฌ๊ฐ ์๋์ ์ผ๋ก ๊น์ด์ง๋ฉด์ ๋ชจ๋ ๊ณ์ธต์ ํตํด ๊ธฐ์ธ๊ธฐ๊ฐ ํจ๊ณผ์ ์ผ๋ก ์ญ์ ํ(propagate gradients back)ํ๋ ๋ฐฉ๋ฒ์ด ์ค์ํด์ก์ต๋๋ค. ๊ฐ์ ๋ฌธ์ ์์ ์์ ๋คํธ์ํฌ๊ฐ ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ๋คํธ์ํฌ ์ค๊ฐ์์ ์์ฑ๋๋ ํน์ฑ๋ค์ด ์๋ณ์ฑ์ด ๋์์ผ ํจ์ ์์ฌํ๊ณ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ '๋ณด์กฐ ๋ถ๋ฅ๊ธฐ(auxiliary classifier)'๋ฅผ ์ค๊ฐ ๊ณ์ธต์ ์ถ๊ฐํจ์ผ๋ก์จ, ๋ฎ์ ๊ณ์ธต์์ ์๋ณ์ฑ์ ๋ถ์ฌํ๊ณ ์ ํ์ต๋๋ค. ์ด๋ ๊ท์ ํ(Regularization)์ ํจ๊ณผ์ ํจ๊ป ๊ธฐ์ธ๊ธฐ ์์ค(vanishing gradient) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด์์ต๋๋ค. ํ์ต ๊ณผ์ ์์ ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ์ ์ค์ฐจ์ ๊ฐ์ค์น๋ฅผ ์ ์ฉํ์ฌ ๋คํธ์ํฌ์ ์ ์ฒด ์์ค์ ๋ํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ์ ์ค์ฐจ์ 0.3์ ๊ณฑํ์ต๋๋ค. ์ถ๋ก ๊ณผ์ ์์๋ ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ ๊ฑฐํฉ๋๋ค. ๋์กฐ๊ตฐ ์คํ์์ ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ์ ํจ๊ณผ๋ ์๋์ ์ผ๋ก ๋ฏธ๋ฏธ(์ฝ 0.5% ์ฑ๋ฅ ํฅ์)ํ๋ฉฐ ํ๋์ ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ๋ง ์กด์ฌํ์ฌ๋ ๋์ผํ ํจ๊ณผ๋ฅผ ์ป์ ์ ์์์ต๋๋ค.
๋ณด์กฐ ๋ถ๋ฅ๊ธฐ๋ฅผ ํฌํจํ ์ถ๊ฐ์ ์ธ ๋คํธ์ํฌ์ ์ ํํ ๊ตฌ์กฐ๋ ์๋์ ๊ฐ์ต๋๋ค.
- average pooling layer๋ ํํฐ ํฌ๊ธฐ๊ฐ $ 5\times5 $์ด๊ณ ์คํธ๋ผ์ด๋๊ฐ 3์ ๋๋ค. (4a)๋ $ 4\times4\times512 $๋ฅผ ์ถ๋ ฅํ๊ณ (4d)๋ $ 4\times4\times528 $์ ์ถ๋ ฅํฉ๋๋ค.
- $ 1\times1 $ convolution layer(128 ํํฐ)๋ฅผ ์ฐจ์ ์ถ์์ ๋น์ ํ์ฑ์ ์ถ๊ฐํ๊ธฐ ์ํด ์ฌ์ฉํ์ต๋๋ค.
- FC layer๋ 1024๊ฐ์ ์ ๋์ ๊ฐ์ก์ผ๋ฉฐ ReLU๋ฅผ ํ์ฑํ ํจ์๋ก ์ฌ์ฉํฉ๋๋ค.
- ๋๋กญ์์์ 0.7 ์ ์ฉํฉ๋๋ค.
- linear layer์ ์ํฌํธ๋งฅ์ค(softmax)๋ฅผ ์ฌ์ฉํฉ๋๋ค(์ฃผ ๋ถ๋ฅ๊ธฐ์ ๋์ผํ 1000๊ฐ์ ํด๋์ค๋ฅผ ์์ธก. ์ถ๋ก ์์๋ ์ ๊ฑฐํจ).
์ต์ข ์ ์ผ๋ก ๊ตฌ์ถํ ๋คํธ์ํฌ๋ ์๋์ ๊ทธ๋ฆผ 7๋ก ์ ๋ฆฌํ์์ต๋๋ค.
6. Training Methodology
GoogLeNet์ DistBelief [J. Dean et al., 2012]๋ผ๋ ๋ถ์ฐ ๊ธฐ๊ณ ํ์ต ์์คํ ์ ํ์ฉํ์ฌ ์ ์ ํ ์์ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ(data-parallelism)์ ์ฌ์ฉํ์ฌ ํ์ตํ์์ต๋๋ค. ์ตํฐ๋ง์ด์ ๋ก๋ asynchronous Stochastic Gradient Descent (SGD) with 0.9 momentum์ ์ฌ์ฉํ์๊ณ , 8 ์ํญ๋ง๋ค 4%์ฉ ํ์ต๋ฅ ์ ๋ฎ์ถ๋๋ก ํ์ต ์ค์ผ์ค์ ์กฐ์ ํ์ต๋๋ค.
์ด๋ฏธ์ง ์ํ๋ง ๋ฐฉ๋ฒ์ ๋ํ๋ฅผ ์งํํ๋ฉด์ ํฌ๊ฒ ๋ฐ๋์์ต๋๋ค. ์ด๋ฏธ ์๋ ด๋ ๋ชจ๋ธ๋ค์ ๊ฒฝ์ฐ, ๋๋กญ์์๊ณผ ํ์ต๋ฅ ๊ฐ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ(hyperparameter)๋ฅผ ๋ฐ๊พธ๋ ๊ฒ์ ํตํด ํ์ตํ์ต๋๋ค. ๋ฐ๋ผ์ ๋คํธ์ํฌ๋ฅผ ํ์ตํ๋ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ๋์ ๋ฐฉ๋ฒ์ ์๋ดํ๋ ๊ฒ์ ์ด๋ ต์ต๋๋ค. ์ค์๊ฐ์์ผ๋ก Howard์ ์ฐ๊ตฌ[A. G. Howard, 2013]์ ์๊ฐ์ ๋ฐ์ ์ผ๋ถ ๋ชจ๋ธ๋ค์ ์๋์ ์ผ๋ก ์์ ํฌ๊ธฐ์ crop์ผ๋ก ์ฃผ๋ก ํ์ตํ์์ง๋ง, ๋ช๋ช์ ๋ ํฐ crop์ผ๋ก ํ์ตํ์์ต๋๋ค. ๋ํ ์ดํ, ๊ฐ๋ก์ ์ธ๋ก ๋น์จ์ [$ \frac{3}{4}, \frac{4}{3}]๋ก ์ ํํ์ฌ 8%์์ 100%์ ํฌ๊ธฐ๊น์ง ๊ท ๋ฑํ ๋ถํฌ๋ก ํจ์น ์ํ๋งํ๋ ๊ฒ์ ํจ๊ณผ๊ฐ ์ฐ์ํ๋ค๋ ๊ฒ์ ํ์ธํ์์ต๋๋ค. ๋ํ Howard์ ์ฐ๊ตฌ์์ ๊ด๋ ์๊ณก(photometric distortion)์ด ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋๋ฐ ์ ์ฉํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
7. ILSVRC 2014 Classification Challenge Setup and Results
ILSVRC 2014 ๋ถ๋ฅ ๋ฌธ์ ๋ ์ด๋ฏธ์ง๋ฅผ ImageNet์ 1000๊ฐ์ ์นดํ ๊ณ ๋ฆฌ ๊ฐ์ด๋ฐ ํ๋๋ก ๋ถ๋ฅํ๋ ์์ ์ ํฌํจํฉ๋๋ค. 120๋ง ์ฅ์ ์ด๋ฏธ์ง๊ฐ ํ์ต ๊ณผ์ ์์ ์ฌ์ฉ๋์์ผ๋ฉฐ, ๊ฒ์ฆ๊ณผ ํ ์คํธ ๊ณผ์ ์๋ ๊ฐ๊ฐ 5๋ง ์ฅ๊ณผ 10๋ง ์ฅ์ ์ฌ์ฉํ์์ต๋๋ค. ๊ฐ ์ด๋ฏธ์ง๋ ํ๋์ ์ฐธ ์นดํ ๊ณ ๋ฆฌ์ ์ฐ๊ด๋์์ผ๋ฉฐ, ๋ถ๋ฅ๊ธฐ์ ์์ธก ์ค ๋์ ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฑ๋ฅ์ ์ธก์ ํฉ๋๋ค. ILSVRC ๋ํ์์๋ ์์ 5๊ฐ์ ์ค์ฐจ์จ์ ๊ธฐ์ค์ผ๋ก ์์๋ฅผ ๋งค๊ฒผ์ต๋๋ค.
์์ 1๊ฐ์ ์ ํ๋ฅ (top-1 accuracy rate)
์ฒ์ ์์ธกํ ๋ถ๋ฅ(class)์ ์ค์ ์ฐธ๊ฐ(ground truth)์ ๋น๊ตํ์ฌ ์ธก์
์์ 5๊ฐ์ ์ค์ฐจ์จ(top-5 error rate)
์์ธกํ ์์ 5๊ฐ์ ๋ถ๋ฅ์ ์ค์ ์ฐธ๊ฐ์ ๋น๊ตํ์ฌ ์ธก์ . ์์์ ๊ด๊ณ์์ด ์์ 5๊ฐ์ ๋ถ๋ฅ ๋ด์ ์ฐธ๊ฐ์ด ํฌํจ๋ ๊ฒฝ์ฐ ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅํ ๊ฒ์ผ๋ก ๊ฐ์ฃผํจ
GoogLeNet์ ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ง ์๊ณ ๋ํ์ ์ฐธ๊ฐํ์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ธ๊ธํ ํ์ต ๋ฐฉ๋ฒ ์ธ์๋ ํ ์คํธ ๊ณผ์ ์์ ๋ ์ข์ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ง ๊ธฐ๋ฒ์ ์ ์ฉํ์์ต๋๋ค. ์ด๋ ์๋์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
- ๋์ผํ GoogLeNet ๋ชจ๋ธ์ 7๊ฐ์ง ๋ฒ์ (๋ ๋์ ๋ฒ์ ์ ํ๋ ํฌํจ)์ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ๊ณ , ์ด๋ค์ ์ด์ฉํ์ฌ ์์๋ธ ์์ธกํ์์ต๋๋ค. ๋ชจ๋ธ๋ค์ ๋์ผํ ์ด๊ธฐ๊ฐ๊ณผ ํ์ต๋ฅ ์ ์ฑ ์ ์ฌ์ฉํ์ฌ ํ์ตํ์ต๋๋ค. ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์๋ก ์ ๋ ฅํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ์์์ ์ํ๋ง ๋ฐฉ๋ฒ์๋ง ์ฐจ์ด๊ฐ ์์ต๋๋ค.
- ํ ์คํธํ๋ ๋์, AlexNet๋ณด๋ค ์ ๊ทน์ ์ธ crop ๋ฐฉ๋ฒ์ ๋์ ํ์์ต๋๋ค. ํนํ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ์งง์ ๋ฉด์ ๊ธฐ์ค์ผ๋ก 4๊ฐ์ง(256, 288, 320, 352)์ ํฌ๊ธฐ๋ก ์กฐ์ ํ์์ต๋๋ค. ํฌ๊ธฐ๊ฐ ์กฐ์ ๋ ์ด๋ฏธ์ง์์ ์ข์ธก, ์ค์, ์ฐ์ธก์ ์์๋ก ์ทจํ์ต๋๋ค(์ธ๋ก ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ์, ์ค๊ฐ, ์๋๋ก ์์๋ฅผ ์ทจํจ). ๊ฐ ์ฌ๊ฐํ์ ๋ํด 4๊ฐ์ ๋ชจ์๋ฆฌ์ ์ค์์ ๊ธฐ์ค์ผ๋ก $ 224\times224 $์ ์ฌ์ด์ฆ๋ก cropํ๊ณ ์ฌ๊ฐํ ์์ฒด์ ํฌ๊ธฐ๋ฅผ $ 224\times224 $๋ก ์กฐ์ ํ ๊ฒ๊ณผ ์ข์ฐ ๋์นญํ ๋ฒ์ ์ ์ทจํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง ๋ณ๋ก $ 4\times3\times6\times2=144 $์ ์๋ฆฐ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋ฉ๋๋ค. Howard์ ์ฐ๊ตฌ์ ๋น์ทํ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ด ๋ ์ข๋ค๋ ๊ฒ์ ๊ฒฝํ์ ์ผ๋ก ๊ฒ์ฆํ์์ต๋๋ค. ์ถฉ๋ถํ ๊ฐ์์ crop์ด ์กด์ฌํ๋ฉด ๋ ๋ง์ crop์ ์ถ๊ฐํ๋ ๊ฒ์ ์ด์ ์ด ๋ฏธ๋ฏธํด์ง๋ฏ๋ก, ์ค์ ๋ก๋ ์ด์ฒ๋ผ ๊ณต๊ฒฉ์ ์ธ crop์ด ํ์ํ์ง ์์ ์ ์์ต๋๋ค.
- ์ต์ข ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ์ฌ๋ฌ crop๊ณผ ๋ชจ๋ ๊ฐ๋ณ ๋ถ๋ฅ๊ธฐ์ ๋ํ ์ํํธ๋งฅ์ค ํ๋ฅ ์ ํ๊ท ๋ด์ด ๊ตฌํฉ๋๋ค. ์คํ์์๋ crop์ ๋ํ max-pooling๊ณผ ๋ถ๋ฅ๊ธฐ์ ๋ํ ํ๊ท ์ ํตํด ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ํ ๋์์ฑ ์ ๋ถ์ํ์์ง๋ง, ๋จ์ํ ํ๊ท ๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ์ป์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๋๋จธ์ง ๋ถ๋ถ์์๋ ์ต์ข ์ ์ถํ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ๊ธฐ์ฌํ ์ฌ๋ฌ ์์๋ฅผ ๋ถ์ํฉ๋๋ค.
๋ํ์ ์ต์ข ์ ์ถํ ๊ฒฐ๊ณผ, ๊ฒ์ฆ๊ณผ ํ ์คํธ ๋ฐ์ดํฐ ๋ชจ๋ ์์ 5๊ฐ์ ์ค์ฐจ์จ์์ 6.67%๋ฅผ ๊ธฐ๋กํด 1์๋ฅผ ์ฐจ์งํ์์ต๋๋ค. ์ด๋ 2012๋ ์ SuperVision์ ๋นํ์ฌ 56.5%๊ฐ ์๋์ ์ผ๋ก ๊ฐ์ํ ์์น์ด๋ฉฐ, 2013๋ ์ต๊ณ ์ฑ๋ฅ์ ์ ๊ทผ๋ฒ์ด์๋ Clarifai์ ๋นํ์ฌ ์ฝ 40%๊ฐ ๊ฐ์ํ ์์น์ ๋๋ค. ํ 2๋ 2012๋ ๋ถํฐ 2014๋ ๊น์ง 3๋ ๊ฐ ์์ ์์๋ฅผ ๊ฑฐ๋ ์ ๊ทผ๋ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
์์ ํ 3์ ์์ธก ๊ณผ์ ์์ ๋ชจ๋ธ๊ณผ crop์ ์๋ฅผ ๋ณ๊ฒฝํ๋ ํ ์คํธ๋ฅผ ํตํ์ฌ ์ป์ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํ์ต๋๋ค. ํ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒฝ์ฐ์๋ ๊ฒ์ฆ ๋ฐ์ดํฐ์์ ์์ 1๊ฐ์ ์ค์ฐจ์จ์ด ๊ฐ์ฅ ๋ฎ์ ๋ชจ๋ธ์ ์ ํํ์ต๋๋ค. ํ ์คํธ ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ๋์ง ์๋๋ก ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ํ ๊ฒฐ๊ณผ๋ง์ ์ฐธ๊ณ ํฉ๋๋ค.
8. ILSVRC 2014 Detection Challenge Setup and Results
ILSVRC ํ์ง ๋ฌธ์ ๋ 200๊ฐ์ ๋ถ๋ฅ ๊ฐ์ฒด ์ฃผ์์ ๊ฒฝ๊ณ ์์๋ฅผ ์์ฑํฉ๋๋ค. ํ์ง๋ ๊ฐ์ฒด๊ฐ ์ฐธ๊ฐ๊ณผ ์ผ์นํ๊ณ ๊ฒฝ๊ณ ์์์ 50% ์ด์ ๊ฒน์น๋ ๊ฒฝ์ฐ(Jaccard index ์ฌ์ฉ) ์ ๋ต์ผ๋ก ๊ฐ์ฃผํฉ๋๋ค. ๊ด๋ จ ์๋ ํ์ง๋ ๊ฑฐ์ง ๊ธ์ (false positive)์ผ๋ก ๊ฐ์ฃผํ์ฌ ํจ๋ํฐ๋ฅผ ๋ถ์ฌํฉ๋๋ค. ๋ถ๋ฅ ๋ฌธ์ ์ ๋ฌ๋ฆฌ, ๊ฐ ์ด๋ฏธ์ง์๋ ๋ง์ ๊ฐ์ฒด๊ฐ ํฌํจ๋๊ฑฐ๋ ์๋ ๊ฒฝ์ฐ๋ ์์ผ๋ฉฐ ๊ฐ์ฒด์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅผ ์ ์์ต๋๋ค. ์ฑ๋ฅ์ mean Average Precision (mAP)๋ฅผ ์ฌ์ฉํ์ฌ ์ธก์ ํฉ๋๋ค. GoogLeNet์ R-CNN๊ณผ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ทจํ์ง๋ง, ์์ญ ๋ถ๋ฅ๊ธฐ์ ์ธ์ ์ ๋ชจ๋ธ์ ์ถ๊ฐํ์์ต๋๋ค. ๋ํ, ์ ํ์ ํ์(selective search [K. E. A. van de Sande et al., 2011])์ ๊ฒฝ๊ณ ์์์ ์ฌํ์จ์ ๋์ด๊ธฐ ์ํด multi-box ์์ธก๊ณผ ๊ฒฐํฉํ์ฌ ๊ฐ์ฒด์ ์์น๋ฅผ ์ ์ํ๋ ๋จ๊ณ(region proposal step)๋ฅผ ๊ฐํํ์ต๋๋ค. ๊ฑฐ์ง ๊ธ์ ์๋ฅผ ์ค์ด๊ธฐ ์ํด, super-pixel์ ์ฌ์ด์ฆ๋ฅผ 2๋ฐฐ๋ก ์ฆ๊ฐ์์ผฐ์ต๋๋ค. ์ฌ๊ธฐ์ mult-box๋ก๋ถํฐ ๋์จ 200๊ฐ์ ๊ฐ์ฒด์ ์์น์ ๋ํ ์ ์์ ์ถ๊ฐํ์์ต๋๋ค. ์ด ๊ฐ์๋ R-CNN์ ๊ฐ์ฒด์ ์์น์ ๋ํ ์ ์์ ์ฝ 60% ์ ๋์ง๋ง, ์ ์ฉ ๋ฒ์(coverage)๋ 92%์์ 93%๋ก ๋์ด๋ฌ์ต๋๋ค. ๊ฐ์ฒด์ ์์น์ ๋ํ ์ ์ ๊ฐ์๋ ์ค์ด๋ค๊ณ ์ ์ฉ ๋ฒ์๋ ๋์ด๋จ์ผ๋ก์จ ๋จ์ผ ๋ชจ๋ธ์ mAP๊ฐ 1% ํฅ์ํ๋ ํจ๊ณผ๋ฅผ ์ป์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก ์ ์๋ ๊ฐ์ฒด์ ๋ถ๋ฅ์๋ 6๊ฐ์ GoogLeNet์ ์์๋ธํ์๊ณ , ์ด๋ฅผ ํตํด ์ ํ๋๋ฅผ 40%์์ 43.9%๋ก ๋์์ต๋๋ค.
ํ 4๋ ํ์ง ๋ฌธ์ ์์ ์์ ์์์ ์ ๊ทผ๋ฒ๊ณผ ์ด๊ธฐ ๋ฒ์ ์ดํ์ ๋ณํ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. 2013๋ ์ ๊ฒฐ๊ณผ์ ๋น๊ตํ๋ฉด ์ ํ๋๊ฐ ๊ฑฐ์ 2๋ฐฐ ๊ฐ๊น์ด ๋์์ก์ต๋๋ค. ๋ํ, 2014๋ ์ต๊ณ ์ฑ๊ณผ๋ฅผ ์ป์ ํ๋ค ๋ชจ๋ CNN์ ์ฌ์ฉํ์์ ํ์ธํ ์ ์์ต๋๋ค. ํ 4๋ ๊ฐ ํ์ ๊ณตํต๋ ์ ๋ต์ ๋ณด์ฌ์ค๋๋ค. ์ ๋ต์ ์ธ๋ถ ๋ฐ์ดํฐ ์ฌ์ฉ ์ฌ๋ถ, ์์๋ธ ๋ชจ๋ธ์ธ์ง ๋งฅ๋ฝ์ ๋ชจ๋ธ(contextual model)์ธ์ง๋ฅผ ๋งํฉ๋๋ค. ํ 4์์ ์ธ๋ถ ๋ฐ์ดํฐ๋ ์ผ๋ฐ์ ์ผ๋ก ILSVRC 2012 ๋ถ๋ฅ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํฉ๋๋ค. ์ผ๋ถ ํ์์๋ ๊ฐ์ฒด ์์น ๋ฐ์ดํฐ(localization dat)์ ์ฌ์ฉ์ ์ธ๊ธํ์ต๋๋ค. ๊ฐ์ฒด ์์น ์๋ณ ๊ฒฝ๊ณ ์์(localization bounding box)๋ ํ์ง ๋ฐ์ดํฐ์ ํฌํจ๋์ง ์์์ผ๋ฏ๋ก, ๋ถ๋ฅ ๋ฌธ์ ์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ฒฝ๊ณ ์์์ regressor๋ฅผ ์ฌ์ ํ์ตํ ์ ์์ต๋๋ค. GoogLeNet์ ๊ฐ์ฒด ์์น ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ํ์ต์ ์ด์ฉํ์ง ์์์ต๋๋ค.
ํ 5๋ ๋จ์ผ ๋ชจ๋ธ๋ง์ ์ฌ์ฉํ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํฉ๋๋ค. ์ต๊ณ ์ฑ๋ฅ์ธ Deep Insight์ 3๊ฐ์ ๋ชจ๋ธ์ ์์๋ธํ์ฌ 0.3์ ์ด ํฅ์๋ ๋ฐ๋ฉด, GoogLeNet์ ์์๋ธ์ ํตํด ํจ์ฌ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ป์ ์ ์์ต๋๋ค.
9. Conclusions
๋ณธ ๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ ์ฝ๊ฒ ์ด์ฉ ๊ฐ๋ฅํ dense building block์ ํตํ์ฌ ์ต์ ์ ํฌ์ ๊ตฌ์กฐ๋ก ๊ทผ์ฌํํ๋ ๊ฒ์ด CV์ ์ ๊ฒฝ๋ง ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๋ ํ์คํ ์ฆ๊ฑฐ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ์๊ณ ์ข์ ์ํคํ ์ฒ์ ๋นํ์ฌ ์ปดํจํ ๋น์ฉ์ด ์กฐ๊ธ ์์นํด๋ ์ฑ๋ฅ์ ๋งค์ฐ ํฅ์ํ๋ค๋ ๊ฒ์ ๋๋ค.
๊ฐ์ฒด ํ์ง ๋ฌธ์ ์์๋ ๋งฅ๋ฝ ๋ชจ๋ธ๊ณผ ๊ฒฝ๊ณ ์์์ regressor๋ฅผ ์ด์ฉํ์ง ์์์์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ์ธ์ ์ ์ํคํ ์ฒ์ ๊ฐ์ ์ ๋ํ ๋ ๋ค๋ฅธ ์ฆ๊ฑฐ์ ๋๋ค.
๋ถ๋ฅ์ ํ์ง ๋ฌธ์ ์์ ์ธ์ ์ ์ ์ฌ์ฉํ์ง ์์ ๋น์ทํ ํฌ๊ธฐ์ ๋คํธ์ํฌ์ ๋นํด ์ ์ ์ปดํจํ ๋น์ฉ์ผ๋ก ๋น์ทํ ์ฑ๋ฅ์ ๊ธฐ๋ํ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ๋ฒ์ ๋ณด๋ค ํฌ์ํ ์ํคํ ์ฒ๋ก ์ ํํ๋ ๊ฒ์ด ์คํ ๊ฐ๋ฅํ๋ฉฐ ์ ์ฉํ ์์ด๋์ด๋ผ๋ ํ์คํ ์ฆ๊ฑฐ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ ์ธ์ ์ ์ ์์ด๋์ด๋ฅผ ๋ค๋ฅธ ๋๋ฉ์ธ์ ์ ์ฉํ๋ ๊ฒ๊ณผ ๋๋ถ์ด Arora ์ฐ๊ตฌ์ง์ ์ฐ๊ตฌ์ ๊ธฐ๋ฐํ์ฌ ๋ณด๋ค ํฌ์ํ๊ณ ์ ์ ๋ ๊ตฌ์กฐ๋ฅผ ์๋์ผ๋ก ๋ง๋๋ ๋ฐฉ๋ฒ์ ํฅํ ์ฐ๊ตฌ ๊ณผ์ ๋ก ์ ์ํฉ๋๋ค.
References
- M. Lin, Q. Chen, S. Yan, "Network in network", arXiv, 2013
- Y. LeCun, B. Boser, J. S. Denker et al., "Backpropagation applied to handwritten zip code recognition", in Neural Comput., 1998
- A. krizhevsk, I. Sutskever, and G. Hinton, "Imagenet classification with deep convolutional neural networks", in Advances in Neural Information Processing Systems, 2012
- R. B. Girshick et al., "Rich feature hierarchies for accurate object detection and semantic segmentaion", in CVPR, 2014
- D. Erhan et al., "Scalable object detection using deep neural networks", in CVPR, 2014
- J. Dean et al., "Large scale distributed deep networks", in NIPS, 2012
- A. G. Howard, "Some improvements on deep convolutional neural network based image classification", in CoPR, 2013
- K. E. A. van de Sande et al., "Segmentation as selective search for object recognition", in ICCV, 2011
* ์ธ์ฉ๋ ๋ ผ๋ฌธ์ ๋ ์์ง๋ง, ๋ณธ ์์ฝ์์ ์ธ๊ธํ ๋ ผ๋ฌธ๋ง์ ์ ๋ฆฌํ์ต๋๋ค.
* ๋ฒ์ญ ์ค๋ฅ๋ ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์๋ฉด ์์ ํ๊ฒ ์ต๋๋ค.
'์ธ๊ณต์ง๋ฅ ๋ ผ๋ฌธ ์์ฝ > Deep Network' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Very Deep Convolutional Networks for Large-Scale Image Recognition ์์ฝ (0) | 2021.09.21 |
---|