๐ K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," in ICLR, 2014
๋ ผ๋ฌธ 2์ค ์์ฝ
- ๊ณ ์ ์ ์ธ Convolution ์ํคํ ์ฒ์์ ๋ฒ์ด๋์ง ์๊ณ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ์ฆ๊ฐํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค.
- ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ ์ํด ๋งค์ฐ ์์ $ 3\times3 $ ํฌ๊ธฐ์ Convolutional filter๋ฅผ ์ฌ์ฉํ์๋ค.
Abstract
๋ณธ ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ์ด๋ฏธ์ง ์ธ์ ๋ฌธ์ ์์ convolution network (ConvNet)์ ๊น์ด๊ฐ ์ ํ๋(accuracy)์ ๋ฏธ์น๋ ์ํฅ์ ์กฐ์ฌํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์ ์ฃผ๋ ์ฑ๊ณผ๋ ๋งค์ฐ ์์ $ 3\times3 $ Conv. ํํฐ(filter)๋ฅผ ์ฌ๋ฌ ๊ฐ ์ฌ์ฉํ์ฌ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ์ฆ๊ฐ์ํค๋ฉด์ ์ด๋ฅผ ์ฒ ์ ํ ํ๊ฐํ๋ค๋ ๊ฒ์ ๋๋ค. 16~19๊ฐ์ layer๋ก ๋คํธ์ํฌ๋ฅผ ํ์ฅ์ํด์ผ๋ก์จ ์ด์ ์ ๋ชจ๋ธ๋ค์ ๋นํ์ฌ ์ฑ๋ฅ์ ์๋นํ ๊ฐ์ ํ ์ ์๋ค๋ ๊ฒ์ ํ์ธํ์์ต๋๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ImageNet 2014 ๋ํ์ ์ ์๋ค์ด ์ ์ถํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ ์๋ค์ ๋ณธ ๋ํ์ ์์น ์๋ณ(localization)๊ณผ ๋ถ๋ฅ(classification) ๋ถ์ ์์ ๊ฐ๊ฐ 1์์ 2์์ ์ฑ์ ์ ๊ฑฐ๋์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ state-of-the-art (SOTA)์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์์ต๋๋ค. Computer Vision (CV)์์ deep visual representation์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๋ฅผ ์ํ์ฌ ๋ณธ ์ฐ๊ตฌ์์ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ฐ์ํ๋ 2๊ฐ์ ConvNet ๋ชจ๋ธ์ ๊ณต๊ฐํฉ๋๋ค.
1. Introduction
CV ๋ถ์ผ์์ ConvNet์ด ํํ๊ฒ ์ฌ์ฉ๋๋ฉด์, AlexNet [A. Krizhevsky et al., 2012]๊ณผ ๊ฐ์ด ๊ธฐ์กด์ ์ํคํ ์ฒ๋ฅผ ๊ฐ์ ํ์ฌ ์ ํ๋๋ฅผ ๋์ด๋ ค๋ ์๋๊ฐ ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ILSVRC 2013์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ ์ฒซ ๋ฒ์งธ Conv. layer์ ๋ ์์ ํฌ๊ธฐ์ ์์ฉ ์๋์ฐ(receptive window)์ ๋ ์์ ์คํธ๋ผ์ด๋(stride)๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ๋ ๋ค๋ฅธ ์์๋ก๋ ์ ์ฒด ์ด๋ฏธ์ง์ ๋ค์ํ ํฌ๊ธฐ๋ก์ ์ด๋ฏธ์ง ์กฐ์ ์ ํตํด ๋คํธ์ํฌ๋ฅผ ๋ณด๋ค ์กฐ๋ฐํ๊ฒ ํ์ตํ๊ณ ํ ์คํธํ๋ ๋ฐฉ๋ฒ์ด ์์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ConvNet ์ํคํ ์ฒ ์ค๊ณ์์ ๋ ๋ค๋ฅธ ์ค์ํ ๋ถ๋ถ์ธ ๊น์ด(depth)๋ฅผ ๋ค๋ฃน๋๋ค. ์ด๋ฅผ ์ํด ์ํคํ ์ฒ์ ๋ค๋ฅธ ๋งค๊ฐ๋ณ์(parameter)๋ฅผ ๊ณ ์ ํ๊ณ , ๋ ๋ง์ Conv. layer๋ฅผ ์ถ๊ฐํ์ฌ ๋คํธ์ํฌ๋ฅผ ๊พธ์คํ ๊น๊ฒ ๋ง๋ญ๋๋ค. ๋ชจ๋ Conv. layer์๋ ๋งค์ฐ ์์ $ 3\times3 $ Conv. ํํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์ ์๋ค์ ํจ์ฌ ๋ ์ ํํ ConvNet ์ํคํ ์ฒ๋ค์ ์ ์ํฉ๋๋ค. ์ด ์ํคํ ์ฒ๋ค์ ์๋์ ์ผ๋ก ๋จ์ํ ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํ์์๋ ILSVRC์ ๋ถ๋ฅ์ ์์น ์๋ณ ๋ฌธ์ ์์ SOTA์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์์๋ ์ ํฉํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ ์๋ค์ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ํ์ฌ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ธ 2๊ฐ์ ๋ชจ๋ธ์ ๊ณต๊ฐํ์ต๋๋ค.
2. ConvNet Configurations
ConvNet์ ๊น์ด์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๊ณต์ ํ๊ฒ ์ธก์ ํ๊ธฐ ์ํด ๋ชจ๋ Conv. layer์ ์ค์ ์ Ciresan ์ฐ๊ตฌ์ง์ ์ฐ๊ตฌ[D. Ciresan et al., 2011]์ AlexNet์์ ์๊ฐ์ ๋ฐ์ ๋์ผํ ์์น์ผ๋ก ์ค๊ณํ์์ต๋๋ค.
2.1 Architecture
ํ์ต ๊ณผ์ ์์ ConvNet์ ์ ๋ ฅ(input)์ ํฌ๊ธฐ๊ฐ $ 224\times224 $๋ก ๊ณ ์ ๋ RGB ์ด๋ฏธ์ง์ ๋๋ค. ํ์ต ๊ณผ์ ์์์ ์ ์ผํ ์ ์ฒ๋ฆฌ๋ ํ์ต ๋ฐ์ดํฐ์ ์ ๊ฐ ํฝ์ ๋ก๋ถํฐ ๊ณ์ฐํ RGB ๊ฐ์ ํ๊ท (mean RGB value)์ ๋นผ์ฃผ๋ ๊ฒ์ ๋๋ค. ์ ์ฒ๋ฆฌํ ์ด๋ฏธ์ง๋ ๋์ ๋ Conv. layer๋ฅผ ํต๊ณผํฉ๋๋ค. Conv. layer์๋ ๋งค์ฐ ์์ ์์ฉ ์์ญ(receptive field)์ธ $ 3\times3 $ ํฌ๊ธฐ์ ํํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ ์๋ค์ด $ 3\times3 $ ํฌ๊ธฐ์ ํํฐ๋ฅผ '์ข/์ฐ'์ '์/ํ', '์ค๊ฐ'์ ๊ฐ๋ (notion)์ ํฌ์ฐฉํ๋ ๊ฐ์ฅ ์์ ์ฌ์ด์ฆ๋ผ๊ณ ์๊ฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ConvNet์ ์ค์ ๊ฐ์ด๋ฐ ํ๋๋ ์ ๋ ฅ ์ฑ๋์ ์ ํ ๋ณํ(linear transformation)์ผ๋ก ๋ณผ ์ ์๋ $ 1\times1 $ Conv. ํํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. Conv. ํํฐ์ ์คํธ๋ผ์ด๋๋ 1ํฝ์ ๋ก ๊ณ ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด Conv. layer์ ์ ๋ ฅ์ ๋ํ spatial padding์ด ํฉ์ฑ๊ณฑ(convolution) ์ดํ์๋ ๊ณต๊ฐ์ ์ธ ํด์๋(spatial resolution)๋ฅผ ๋ณด์กดํ๋๋ก ๋ง๋ญ๋๋ค. spatial pooling์ 5๊ฐ์ max-pooling layer๋ก ์ํํฉ๋๋ค. max-pooling์ ์คํธ๋ผ์ด๋๊ฐ 2์ธ $ 2\times2 $ ํฌ๊ธฐ์ ์๋์ฐ(window)๋ก ์ํํฉ๋๋ค.
๋์ ๋ Conv. layer๋ค ์ดํ์ 3๊ฐ์ fully-connected layer (FC layer)๋ฅผ ์ฐ๊ฒฐํฉ๋๋ค. ์ฒซ ๋ฒ์งธ์ ๋ ๋ฒ์งธ FC layer๋ ๊ฐ๊ฐ 4096๊ฐ์ ์ฑ๋์ ๊ฐ์ก์ผ๋ฉฐ, ์ธ ๋ฒ์งธ FC layer๋ ILSVRC์์ 1000๊ฐ์ ๋ถ๋ฅ(class)๋ก ๋ถ๋ฅํ๊ธฐ ์ํด 1000๊ฐ์ ์ฑ๋์ ๊ฐ์ต๋๋ค. ๋ง์ง๋ง layer๋ soft-max layer์ ๋๋ค. FC layer์ ๊ตฌ์ฑ ์์๋ ๋ชจ๋ ๋คํธ์ํฌ ์ค์ ์์ ๋์ผํฉ๋๋ค.
๋ชจ๋ ์๋์ธต์๋ ๋น์ ํ์ฑ(non-linearity)์ ์ถ๊ฐํ๊ธฐ ์ํด Rectified Linear Unit (ReLU)๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ ์ค์ง ํ๋์ ๋คํธ์ํฌ์๋ง Local Response Normalization (LRN)์ด ํฌํจ๋๋ฉฐ, ์ด๋ AlexNet๊ณผ ๋์ผํ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ต๋๋ค.
2.2 Configurations
๋ณธ ๋ ผ๋ฌธ์์ ํ๊ฐํ ConvNet์ ์ค์ ์ ํ 1์ ์์ฝ๋์์ต๋๋ค. ๊ฐ ์ค์ ์ ๋ฐ๋ผ ์ด๋ฆ(A-E)์ด ๋ถ์์ต๋๋ค. ๋ชจ๋ ์ค์ ์ 2.1์ ์์ ์ค๋ช ํ ์ผ๋ฐ์ ์ธ ์ค๊ณ๋ฅผ ๋ฐ๋ฅด๋ฉฐ ๊น์ด์๋ง ์ฐจ์ด๊ฐ ์์ต๋๋ค. Conv. layer์ ๋๋น(์ฑ๋ ์)๋ ์ฒซ ๋ฒ์งธ layer์์ 64๊ฐ๋ก ์์ํ์ฌ ๊ฐ max-pooling layer์์ 2๋ฐฐ์ฉ ์ฆ๊ฐํ๋ฉฐ ์ต๋ 512๊ฐ๊น์ง ๋์ด๋ฉ๋๋ค.
ํ 2๋ ๊ฐ ์ค์ ์ ๋ฐ๋ฅธ ๋งค๊ฐ๋ณ์์ ๊ฐ์๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋คํธ์ํฌ์ ๊น์ด๊ฐ ๋ ๊น์ด์ก์์๋ ๋ถ๊ตฌํ๊ณ , ์์ผ๋ฉด์ layer์ ๋๋น์ ์์ฉ ์์ญ์ด ํฐ ๋คํธ์ํฌ์ธ OverFeat [P. Sermanet et al., 2014]๋ณด๋ค๋ ๋คํธ์ํฌ์ ๋งค๊ฐ๋ณ์๊ฐ ์ ์ต๋๋ค.
2.3 Discussion
๋ณธ ๋ ผ๋ฌธ์์๋ ๋งค์ฐ ์์ $ 3\times3 $ ์์ฉ ์์ญ์ ์ ์ฒด ๋คํธ์ํฌ์ ์ฌ์ฉํ์์ต๋๋ค. 1๊ฐ์ $ 7\times 7$ ํน์ $ 5\times5 $ Conv. layer๊ฐ ์๋ $ 3\times3 $ layer๋ฅผ ์ฌ๋ฌ ๊ฐ ์์์ผ๋ก์จ ์ป๋ ์ด์ ์ ๋ฌด์์ผ๊น์?
- ReLU๋ฅผ ์ฌ๋ฌ ๊ฐ ์ฌ์ฉํจ์ผ๋ก์จ ๊ฒฐ์ ํจ์(decision function)๊ฐ ๋ ์ ์๋ณํ ์ ์๋๋ก ๋ง๋ญ๋๋ค.
- ๋งค๊ฐ๋ณ์์ ๊ฐ์๋ฅผ ์ค์ ๋๋ค.
์๋ฅผ ๋ค์ด, ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๋์ผํ ์ฑ๋(C)์ ๊ฐ๋๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. 2 ๊ณ์ธต์ $ 3\times3 $ Conv. layer๋ค์ $ 2(3^2C^2) = 18C^2 $์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ต๋๋ค. ๋ฐ๋ฉด 1 ๊ณ์ธต์ $ 5\times5 $ Conv. layer๋ $ 5^2C^2 = 25C^2 $์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ต๋๋ค. ์ฆ, ๊ฐ์ ํจ๊ณผ๋ฅผ ์ป์์๋ ๋ถ๊ตฌํ๊ณ 38%์ ํ๋ผ๋ฏธํฐ๊ฐ ๋ ํ์ํฉ๋๋ค. ์ด๋ $ 7\times7 $ Conv. layer์ผ ๋ ๋ ์ฌํด์ง๋๋ค.
๋ํ, ์ฌ๋ฌ ๊ฐ์ $ 3\times3 $ Conv. ํํฐ๋ก ๋ถํดํจ์ผ๋ก์จ ์ผ๋ฐํ(regularization)๋ฅผ ๋ถ์ฌํฉ๋๋ค.
๋คํธ์ํฌ C์ฒ๋ผ $ 1\times1 $ Conv. layer๋ฅผ ํฌํจํ๋ ๊ฒ์ Conv. layer๋ค์ ์์ฉ ์์ญ์ ์ํฅ์ ์ ์ธํ๋ฉฐ ๊ฒฐ์ ํจ์์ ๋น์ ํ์ฑ์ ๋์ด๋ ๋ฐฉ๋ฒ์ด๊ธฐ๋ ํฉ๋๋ค. ๋น๋ก ๋ณธ ๋ ผ๋ฌธ์ $ 1\times1 $ Conv. layer๋ ๋ณธ์ง์ ์ผ๋ก ๋์ผํ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ์ ํ ํฌ์(linear projection)ํ์ง๋ง, ReLU๋ฅผ ํตํด ๋น์ ํ์ฑ์ ์ถ๊ฐํฉ๋๋ค. $ 1\times1 $ Conv. layer๋ ์ต๊ทผ Lin ์ฐ๊ตฌ์ง์ "Network in Network"์๋ ์ฌ์ฉ๋์์ต๋๋ค.
์์ ํฌ๊ธฐ์ Conv. ํํฐ๋ ์ด๋ฏธ Ciresan ์ฐ๊ตฌ์ง์ด ์ฌ์ฉํ์์ต๋๋ค. ํ์ง๋ง Ciresan ์ฐ๊ตฌ์ง์ ๋คํธ์ํฌ๋ ๋ณธ ์ฐ๊ตฌ์ ๋คํธ์ํฌ๋ณด๋ค ๋ ๊น์๊ณ ILSVRC์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๊ฐํ์ง ์์์ต๋๋ค. ILSVRC 2014์ ๋ถ๋ฅ ๋ฌธ์ ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ธ GoogLeNet [C. Szegedy et al., 2014]์ ๋ณธ ์ฐ๊ตฌ์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ฐ๋ฐ๋์์ง๋ง, 22์ธต์ ๊น์ ConvNet์ ์ฌ์ฉํ๋ค๋ ์ ๊ณผ ์์ Conv. ํํฐ๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์ด ์ ์ฌํฉ๋๋ค. ํ์ง๋ง GoogLeNet์ ๋คํธ์ํฌ ์์ ๊ตฌ์กฐ๋ ๋ณธ ๋ ผ๋ฌธ์ ๋คํธ์ํฌ๋ณด๋ค ๋ณต์กํ๋ฉฐ, ์ฐ์ฐ๋์ ์ค์ด๊ธฐ ์ํด "Inception"์ ์ฒซ ๋ฒ์งธ layer์์ ํน์ง ๋งต์ ๊ณต๊ฐ์ ์ธ ํด์๋๋ฅผ ๋ ๊ณต๊ฒฉ์ ์ผ๋ก ์ค์์ต๋๋ค.
3. Classification framework
3.1 Training
ConvNet์ ํ์ต ์ ์ฐจ๋ ์ผ๋ฐ์ ์ผ๋ก AlexNet์ ๋ฐฉ๋ฒ์ ๋ฐ๋์ต๋๋ค. ํ์ต ๊ณผ์ ์์ ๋ชจ๋ฉํ (momentum)์ ํ์ฉํ ๋ฏธ๋ ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(mini-batch gradient descent)์ ์ฌ์ฉํ์ฌ ๋คํญ ๋ก์ง์คํฑ ํ๊ท(multinominal logistic regression)์ ๋ชฉ์ ํจ์๋ฅผ ์ต์ ํํฉ๋๋ค. ๋ฐฐ์น ์ฌ์ด์ฆ๋ 256์ผ๋ก ์ค์ ํ์์ผ๋ฉฐ ๋ชจ๋ฉํ ์ 0.9์ ๋๋ค. ์ฒซ 2๊ฐ์ FC layer์ ๋ํด ๊ฐ์ค์น ๊ฐ์(weight decay)์ ๋๋กญ์์(dropout)์ ํตํด ํ์ต์ ๊ท์ ํ์์ต๋๋ค. ํ์ต๋ฅ (learning rate)์ ์ด๊น๊ฐ์ $ 10^{-2} $๋ก ์ค์ ํ์๊ณ , ํ๊ฐ ๋ฐ์ดํฐ์ (validation set)์ ์ ํ๋๊ฐ ํฅ์๋๋ ๊ฒ์ด ๋ฉ์ถ๋ฉด 10๋ฐฐ ๊ฐ์์์ผฐ์ต๋๋ค. ์ข ํฉํ์ฌ ์ด 3์ฐจ๋ก ํ์ต๋ฅ ์ ๊ฐ์ํ์๊ณ , 74 ์ํญ ์ดํ ํ์ต์ ๋ฉ์ถ์์ต๋๋ค. AlexNet๊ณผ ๋น๊ตํ์ฌ ๋ ๋ง์ ๋งค๊ฐ๋ณ์์ ๋ ๊น์ layer๋ฅผ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ , ๋ณธ ๋ ผ๋ฌธ์ ๋คํธ์ํฌ๋ ๋ค์ 2๊ฐ์ง์ ์ด์ ๋ก ๋ ์ ์ ์ํญ๋ง์ ์๋ ดํ ์ ์์์ต๋๋ค.
- ๋ ๊น์ layer์ ์์ Conv. ํํฐ๋ฅผ ํตํ ์ ์ฌ์ ์ธ ์ผ๋ฐํ ์ ์ฉ
- ํน์ layer๋ค์ ๋ํ์ฌ ์ฌ์ ์ ์ด๊ธฐํํ ๊ฐ์ ์ด์ฉ
๋คํธ์ํฌ ๊ฐ์ค์น์ ์ด๊ธฐํ(initialization)๋ ์ค์ํฉ๋๋ค. ํนํ ๊น์ ๋คํธ์ํฌ์์ ์๋ชป๋ ์ด๊ธฐํ๋ ๊ธฐ์ธ๊ธฐ(gradient)์ ๋ถ์์ ์ฑ์ผ๋ก ์ธํ์ฌ ํ์ต์ ์ง์ฐ์ํต๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด, ๋๋ค ์ด๊ธฐํ(random initialization)๋ก ํ์ตํ๊ธฐ ์ถฉ๋ถํ ์์ ๋คํธ์ํฌ์ธ ๋คํธ์ํฌ A๋ฅผ ํ์ตํ์์ต๋๋ค. ์ดํ ๋ ๊น์ ์ํคํ ์ฒ๋ฅผ ํ์ตํ ๋, ๋คํธ์ํฌ A์ layer๋ค์ ์ฒซ 4๊ฐ์ Conv. layer์ ๋ง์ง๋ง 3๊ฐ์ FC layer์ ์ด๊น๊ฐ์ผ๋ก ์ด์ฉํ์์ต๋๋ค. ํ์ต ๊ณผ์ ์์ ์ฌ์ ์ ์ด๊ธฐํ๋ layer๋ค์ ๋ณํ๋ฅผ ํ์ฉํ๊ธฐ ์ํด ํ์ต๋ฅ ์ ์ค์ด์ง ์์์ต๋๋ค. ๋๋ค ์ด๊ธฐํ๋ฅผ ์ํด ํ๊ท ์ด 0์ด๊ณ ๋ถ์ฐ์ด $ 10^{-2} $์ธ ์ ๊ท๋ถํฌ(normal distribution)๋ก๋ถํฐ ๊ฐ์ค์น๋ฅผ ์ถ์ถํ์์ต๋๋ค. ํธํฅ(bias)์ 0์ผ๋ก ์ด๊ธฐํํ์์ต๋๋ค. ๋ ผ๋ฌธ์ ์ ์ถํ ์ดํ, [Glorot & Bengio, 2010]์ ์ฐ๊ตฌ์์ ์ ์ํ ๋๋ค ์ด๊ธฐํ ์ ์ฐจ๋ฅผ ์ฌ์ฉํ๋ฉด ์ฌ์ ํ์ต ์์ด๋ ์ด๊ธฐํ๊ฐ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
ConvNet์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ $ 224\times224 $์ ํฌ๊ธฐ๋ก ๊ณ ์ ๋ ์ด๋ฏธ์ง๋ฅผ ์ป๊ธฐ ์ํด ํฌ๊ธฐ๊ฐ ์กฐ์ ๋ ํ์ต ์ด๋ฏธ์ง๋ค์ ๋๋คํ๊ฒ cropํ์์ต๋๋ค. ํ์ต ๋ฐ์ดํฐ์ ์ ๋ ๋๋ฆฌ๊ธฐ(augment) ์ํ์ฌ cropํ ์ฌ์ง๋ค ๊ฐ์ด๋ฐ ๋ฌด์์๋ก ์ข์ฐ ๋ฐ์ (horizontally flipping)ํ๊ณ RGB ์์ ๋๋คํ๊ฒ ์ฎ๊ฒผ์ต๋๋ค. ํ์ต ์ด๋ฏธ์ง์ ํฌ๊ธฐ ์กฐ์ ์ ๊ดํ ๋ฐฉ๋ฒ์ ์๋์ ๊ฐ์ต๋๋ค.
Training image size
crop๋ ๋ฐ์ดํฐ ๊ฐ์ด๋ฐ ์๋ฉด์ ํฌ๊ธฐ๋ฅผ ๋น๋กํ๊ฒ ์กฐ์ ํ(isotropically-rescaled) ํ์ต ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์งง์ ๋ฉด์ $ S $๋ผ๊ณ ํ๊ฒ ์ต๋๋ค. crop์ ํฌ๊ธฐ๋ฅผ $ 224\times224 $๋ก ๊ณ ์ ํ์์ง๋ง, $ S $๋ 224 ์ด์์ ๊ฐ์ด๋ฉด ๊ด์ฐฎ์ต๋๋ค. $ S=224 $์ธ crop์ ๊ฒฝ์ฐ, ํ์ต์ ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์งง์ ๋ฉด์ ์๋ฒฝํ๊ฒ ํฌ๊ดํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์ ๋ํ ์ ์ฒด์ ์ธ ํต๊ณ์น๋ฅผ ๋ด๊ณ ์์ต๋๋ค. $ S\gg224 $์ธ crop์ ๊ฒฝ์ฐ, ์์ ๊ฐ์ฒด๋ ๊ฐ์ฒด์ ์ผ๋ถ๋ถ์ ํฌํจํ๋ ์ด๋ฏธ์ง์ ์์ ๋ถ๋ถ์ ํด๋นํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ํ์ต ๋ฐ์ดํฐ์ ํฌ๊ธฐ $ S $๋ฅผ ์ค์ ํ๋ 2๊ฐ์ง ์ ๊ทผ๋ฒ์ ๊ณ ๋ คํ์์ต๋๋ค. ์ฒซ ๋ฒ์งธ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋์ ํฌ๊ธฐ๋ก ๊ณ ์ ํ๋ ๊ฒ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ 256๊ณผ 384 2๊ฐ์ ๊ณ ์ ๋ ํฌ๊ธฐ๋ฅผ ์ด์ฉํ์ฌ ํ์ตํ ๋ชจ๋ธ์ ํ๊ฐํ์์ต๋๋ค.
๋ ๋ฒ์งธ ์ ๊ทผ ๋ฐฉ๋ฒ์ ๋ค์ํ ํฌ๊ธฐ๋ก ํ์ตํ๋ ๊ฒ์ ๋๋ค. ๊ฐ๊ฐ์ ํ์ต ์ด๋ฏธ์ง๋ ํน์ ๋ฒ์์์ ๋ ๋ฆฝ์ ์ผ๋ก ๋๋คํ๊ฒ $ S $๋ฅผ ๋ฝ์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ $ S_{min} $์ 256์ผ๋ก $ S_{max} $๋ฅผ 512๋ก ์ค์ ํ์ฌ $ S $์ ๋ฒ์๋ฅผ $ [256, 512] $๋ก ์ ํํ์์ต๋๋ค. ์ด๋ scale jittering์ ํตํ ํ์ต ๋ฐ์ดํฐ์ ์ฆ๊ฐ๋ก ๋ณผ ์๋ ์์ต๋๋ค.
3.2 Testing
ํ ์คํธ ๊ณผ์ ์์๋ ํ์ตํ ConvNet๊ณผ ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋๋ค. ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ์ํด ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ์ ๋ฐ๋ฆ ๋๋ค.
- ์ฌ์ ์ ์ ์ํ ๊ฐ์ฅ ์งง์ ์ด๋ฏธ์ง์ ๋ฉด($ Q $)์ ๋ฐ๋ผ ์๋ฉด์ ํฌ๊ธฐ๋ฅผ ๋น๋กํ๊ฒ ์กฐ์ ํฉ๋๋ค. ์ฌ๊ธฐ์ ํ ์คํธ ํฌ๊ธฐ์ธ $ Q $๋ ํ์ต ํฌ๊ธฐ์ธ $ S $์ ๊ฐ์ ํ์๋ ์์ต๋๋ค.
- ๋คํธ์ํฌ์ OverFeat์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์กฐ์ ๋ ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ์ ์ฉํฉ๋๋ค. ๋ค์ ๋งํ๋ฉด, ์ฐ์ FC layer๋ฅผ Conv. layer๋ก ๋ณํํฉ๋๋ค(์ฒซ ๋ฒ์งธ FC layer๋ $ 7\times7 $ Conv. layer๋ก, ๋๋จธ์ง 2๊ฐ์ FC layer๋ $ 1\times1 $ Conv. layer๋ก ๋ณํ). ๋ณํํ Fully-Conv. ๋คํธ์ํฌ์ crop๋์ง ์์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ์ ์ฉํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ถ๋ฅ ์ซ์์ ๊ฐ์ ์ฑ๋ ์๋ฅผ ๊ฐ์ง class score map๊ณผ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ์ ์์กดํ๋ ๋ค์ํ spatial resolution๋ฅผ ์ป์ ์ ์์ต๋๋ค.
- ์ด๋ฏธ์ง์ ๋ํ ๋ถ๋ฅ ์ ์๋ก ์ด๋ฃจ์ด์ง ๊ณ ์ ๋ ํฌ๊ธฐ์ ๋ฒกํฐ๋ฅผ ์ป๊ธฐ ์ํด class score map์ sum poolingํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ด๋ฏธ์ง๋ฅผ ์ข์ฐ ๋ฐ์ ํ์ฌ ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ์ฆ๊ฐํ์์ต๋๋ค. ์๋ณธ๊ณผ ์ข์ฐ ๋ฐ์ ํ ์ด๋ฏธ์ง์ soft-max ๊ฐ์ ํ๊ท ๋ด์ด ์ด๋ฏธ์ง์ ๋ํ ์ต์ข ์ ์๋ฅผ ํ๋ํ์์ต๋๋ค.
Fully-Conv. ๋คํธ์ํฌ์ ์ ์ฒด ์ด๋ฏธ์ง๊ฐ ์ ์ฉ๋์๊ธฐ ๋๋ฌธ์, ํ ์คํธ ๊ณผ์ ์์๋ AlexNet์ฒ๋ผ ๋ค์ํ ํฌ๊ธฐ์ crop์ ์ถ์ถํ ํ์๊ฐ ์์ต๋๋ค. ๋ค์ํ ํฌ๊ธฐ์ crop์ ์ถ์ถํ ๊ฒฝ์ฐ, crop ๋ณ๋ก ๋คํธ์ํฌ์ ์ฌ์ฐ์ฐ์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ํจ์จ์ฑ์ด ๋จ์ด์ง๋๋ค. ์ด๋ฅผ ์ํด Szegedy ์ฐ๊ตฌ์ง์ฒ๋ผ crop์ ๋๊ท๋ชจ ์งํฉ์ ์ด์ฉํ๋ ๋ฐฉ๋ฒ์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ํ๋๋ฅผ ํฅ์ํ ์ ์์ผ๋ฉฐ Fully-Conv. ๋คํธ์ํฌ์ ๋น๊ตํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ ์ ์ถ์ถํฉ๋๋ค. ๋ํ, multi-crop evaluation์ ์๋ก ๋ค๋ฅธ Conv. ๊ฒฝ๊ณ ์กฐ๊ฑด์ผ๋ก ์ธํด dense evaluation๊ณผ ์ํธ๋ณด์์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์ง๋๋ค. ConvNet์ crop์ ์ ์ฉํ ๊ฒฝ์ฐ, ํน์ง ๋งต์ ์ฃผ์๋ 0์ผ๋ก ํจ๋ฉ๋๋ ๋ฐ๋ฉด dense evaluation์ ๊ฐ์ crop์ ๋ํ ํจ๋ฉ์ด ์ด๋ฏธ์ง์ ์ธ์ ํ ๋ถ๋ถ(neighbouring part)์์ ์์ฐ์ค๋ฝ๊ฒ ์์ฑ๋ฉ๋๋ค. ์ด๋ ์ ์ฒด์ ์ธ ๋คํธ์ํฌ์ ์์ฉ ์์ญ์ ๋ ๋ง์ด ์ฆ๊ฐํ๊ฒ ํ๋ฉฐ ๋ง์ ๋ฌธ๋งฅ์ ํฌ์ฐฉํ ์ ์๋๋ก ํฉ๋๋ค. ์ฌ๋ฌ crop์ผ๋ก ์ธํ์ฌ ์ฐ์ฐ ์๊ฐ์ด ์ฆ๊ฐํ๋ ๊ฒ์ด ์ ์ฌ์ ์ผ๋ก ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ์ผ๋ก ์ด์ด์ง์ง ์๋๋ค๊ณ ๋ฏฟ์์ง๋ง, ์ถ๋ก ๊ณผ์ ์์๋ ๋คํธ์ํฌ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ํฌ๊ธฐ ๋ณ๋ก 50๊ฐ์ crop์ ์ฌ์ฉํ์์ต๋๋ค.
Dense Evaluation [P. Sermanet et al., 2014]
FC layer๋ฅผ $ 1\times1 $ Conv. ๊ฐ๋ ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ค์ํ ํฌ๊ธฐ์ ์์์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ผ๋ก ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ์์ต๋๋ค. ๋ค์ํ ํฌ๊ธฐ์ ํ๋ง ๋งต์ ์์ฑ ํ์ฌ ํจ์ฌ ์กฐ๋ฐํ ๊ฒ์ถ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ๋งํฉ๋๋ค.
์๋ ๊ทธ๋ฆผ 3์ (a)์ ๊ฐ์ด unpooled map์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ, (b)์ฒ๋ผ ๋ค์ํ ํฌ๊ธฐ์ offset ๋งค๊ฐ๋ณ์๋ฅผ ํตํด ๊ฒน์ณ์ง์ง ์๊ฒ max pooling์ ์ํํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก (c)์ฒ๋ผ ๋ค๋ฅธ ํฌ๊ธฐ์ offset ๋ณ pooling map์ด ์์ฑ๋๊ณ (d)์ ๊ฐ์ด ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ผ๋ก pooling map์ ๋ํด ๋ถ๋ฅ๊ธฐ๋ฅผ ์ ์ฉํฉ๋๋ค. ์ต์ข ์ ์ผ๋ก (e)์ ๊ฐ์ด ์ฌ๋ฌ ํฌ๊ธฐ์ offset์ผ๋ก ์์ฑ๋ map ๊ฒฐ๊ณผ๋ฅผ ์กฐํฉํ๋ฉด ์กฐ๋ฐํ ๊ฒฐ๊ณผ์ output map์ด ์์ฑ๋ฉ๋๋ค.
4. Classification Experiments
Dataset
์ด๋ฒ ์ฅ์์๋ ILSVRC 2012 ๋ฐ์ดํฐ์ ์ ์ด์ฉํ ์ด๋ฏธ์ง ๋ถ๋ฅ ๊ฒฐ๊ณผ์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค. ๋ฐ์ดํฐ์ ์ 1000๊ฐ์ ๋ถ๋ฅ๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ 3๊ฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋๋ฉ๋๋ค. ํ์ต(1300๋ง ์ฅ), ํ๊ฐ(5๋ง ์ฅ), ํ ์คํธ(10๋ง ์ฅ).
ํ๊ฐ ๋ฐฉ๋ฒ
๋ถ๋ฅ ์ฑ๋ฅ์ 2๊ฐ์ง์ ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐํฉ๋๋ค. ์์ 1๊ฐ์ ์ค์ฐจ์จ(top-1 error)์ ๋ค์ค ๋ถ๋ฅ ์ค์ฐจ(multi-class classification error)๋ก ๋ถ๋ฅ๋ ์ด๋ฏธ์ง๊ฐ ๋ถ์ ํํ ๋น์จ์ ๋ปํฉ๋๋ค. ์์ 5๊ฐ์ ์ค์ฐจ์จ(top-5 error)์ ILSVRC์์ ํ๊ฐ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ์์ผ๋ฉฐ, ์ด๋ฏธ์ง๋ก๋ถํฐ ์์ธกํ 5๊ฐ์ ์นดํ ๊ณ ๋ฆฌ ๊ฐ์ด๋ฐ ์ฐธ๊ฐ์ด ํฌํจ๋์ง ์์ ํ๋ฅ ์ ๊ณ์ฐํฉ๋๋ค.
4.1 Single Scale Evaluation
2.2์ ์์ ์ค๋ช ํ layer์ ์ค์ ์ ์ฌ์ฉํ์ฌ ๋จ์ผ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ก ๊ฐ ConvNet ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํ์์ต๋๋ค. ํ ์คํธ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. $ Q=S $($ S $๋ ๊ณ ์ )์ด๋ฉฐ scale jittering์ ์ํด $ S\in[S_{min}, S_{max}] $์์ Q=0.5(S_{min}+S_{max})์ ๋๋ค. ๊ฒฐ๊ณผ๋ ์๋์ ํ 3์์ ํ์ธํ ์ ์์ต๋๋ค.
์คํ์ ํตํด ๋ค์์ 3๊ฐ์ง๋ฅผ ํ์ธํ ์ ์์์ต๋๋ค.
- LRN์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ๊ทํ layer๊ฐ ์๋ ๋ชจ๋ธ A๋ฅผ ๊ฐ์ ํ์ง ์๋๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ๋ฐ๋ผ์ ์ดํ์ ์ฌ์ธต ์ํคํ ์ฒ(B-E)์๋ ์ ๊ทํ๋ฅผ ์ ์ฉํ์ง ์์์ต๋๋ค.
- ConvNet์ ๊น์ด์ ๋ฐ๋ผ ๋ถ๋ฅ ์ค์ฐจ์จ์ด ๊ฐ์ํ๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ํนํ ๋์ผํ ๊น์ด์๋ ๋ถ๊ตฌํ๊ณ 3๊ฐ์ $ 1\times1 $ Conv. layer๋ฅผ ํฌํจํ C๊ฐ ๋คํธ์ํฌ์ $ 3\times3 $ Conv. layer๋ฅผ ์ ์ฉํ D๋ณด๋ค ์ฑ๋ฅ์ด ๋์ ๊ฒ์ ํ์ธํ์ต๋๋ค. ์ด๋ B์ ๋นํ์ฌ C๊ฐ ๋ซ๋ค๋ ์ ์์ ์ถ๊ฐ์ ์ธ ๋น์ ํ์ฑ์ด ์ฑ๋ฅ์ ๋์์ด ๋๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ํ์ง๋ง D๊ฐ C๋ณด๋ค ๋ซ๋ค๋ ์ ์์ ํน๋ณํ(non-trival) ์์ฉ ์์ญ์ ๊ฐ์ง Conv. filter๋ฅผ ์ฌ์ฉํ์ฌ ๊ณต๊ฐ์ ์ธ ๋งฅ๋ฝ์ ํฌ์ฐฉํ๋ ๊ฒ์ด ๋ ์ค์ํ๋ค๋ ์ ์ ๋ณด์ฌ์ค๋๋ค. 19์ธต์ ๊น์ด๊ฐ ๋๋ฌํ๋ฉด ์ค์ฐจ์จ์ด ๋ ์ด์ ๊ฐ์ ๋์ง๋ ์์ง๋ง, ๋ ํฐ ๋ฐ์ดํฐ์ ์ ๋ํด์๋ ๋ ๊น์ ๋ชจ๋ธ์ด ์ ๋ฆฌํ ์ ์์ต๋๋ค. ๋ํ, ๋คํธ์ํฌ B์ B์ $ 3\times3 $ Conv. layer 2๊ฐ๋ฅผ $ 5\times5 $ Conv. layer๋ก ๊ต์ฒดํ์ฌ ์๊ฒ ๋ง๋ ๋คํธ์ํฌ๋ฅผ ๋น๊ตํ์์ต๋๋ค. ์์ ๋คํธ์ํฌ๋ B์ ๋น๊ตํ์ฌ ์ค์ฐจ์จ์ด 7% ๋์์ผ๋ฉฐ, ์ด๋ ์์ ํํฐ๋ค์ ๊ฐ์ง ๊น์ ๋คํธ์ํฌ๊ฐ ํฐ ํํฐ๋ฅผ ๊ฐ์ง ์์ ๋คํธ์ํฌ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
- ํ์ต ๋จ๊ณ์์ scale jitteringํ๋ ๊ฒ์ ์งง์ ๋ฉด์ผ๋ก ๊ณ ์ ๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ๋งค์ฐ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ด๋ scale jittering์ ํตํ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฆ๊ฐ๊ฐ ๋ค์ํ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ํฌ์ฐฉํ๋๋ฐ ๋ ํจ๊ณผ์ ์์ ์๋ ค์ค๋๋ค.
4.2 Multi-Scale Evaluation
์ด์ ์ ์์๋ ๋จ์ผ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ก ConvNet ๋ชจ๋ธ์ ํ๊ฐํ์ต๋๋ค. ์ด๋ฒ ์ ์์๋ ํ ์คํธ ๋จ๊ณ์์ scale jittering์ ํ ํจ๊ณผ๋ฅผ ํ๊ฐํ๊ฒ ์ต๋๋ค. ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ๋ค์ํ ํฌ๊ธฐ๋ก ์กฐ์ ํ์ฌ ์ถ๋ก ํ ํ, ์ด๋ฅผ ํ๊ท ๋ด์ด ๋ถ๋ฅ๋ฅผ ์์ธกํฉ๋๋ค. ํ์ต ์ด๋ฏธ์ง ํฌ๊ธฐ์ ํ ์คํธ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ํฐ ์ฐจ์ด๊ฐ ์ฑ๋ฅ์ ๋จ์ด๋จ๋ฆฐ๋ค๋ ์ ์ ๊ณ ๋ คํ์ฌ, ๊ณ ์ ๋ ํฌ๊ธฐ์ $ S $์ ๋ํ์ฌ ํ์ตํ ๋ชจ๋ธ์ ํ์ต ์ด๋ฏธ์ง์ ํฌ๊ธฐ์ ์ ์ฌํ 3๊ฐ์ง์ ํ ์คํธ ์ด๋ฏธ์ง ํฌ๊ธฐ($ Q $)๋ก ํ๊ฐํฉ๋๋ค. ์ฌ๊ธฐ์ $ Q=\{S- 32, S, S+32\} $์ ๋๋ค. ๋ํ, ํ์ต ๊ณผ์ ์ scale jittering์ ๋ํด ํ ์คํธ ๊ณผ์ ์์ ๋ค์ํ ๋ฒ์์ ํฌ๊ธฐ์๋ ์ ์ํ ์ ์๋๋ก ํฉ๋๋ค. ์ด๋ฅผ ์ํด $ Q=\{S_{min}, 0.5(S_{min}+S_{max}, S_{max}\} $๋ก ํ๊ฐํฉ๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ํ ์คํธ ๋จ๊ณ์์ scale jittering์ด ๋ ์ข์ ์ฑ๋ฅ์ ์ด๋๋ค๋ ๊ฒ์ ์ ํ 4๋ฅผ ํตํด ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ ์ด์ ์ ๊ณผ ๋์ผํ๊ฒ ๊ฐ์ฅ ๊น์ ์ค์ ์ธ D์ E์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ผ๋ฉฐ, scale jittering์ ์ ์ฉํ๋ ๊ฒ์ด ์งง์ ๋ฉด $ S $๋ก ๊ณ ์ ๋ ์ด๋ฏธ์ง๋ก ํ์ตํ๋ ๊ฒ๋ณด๋ค ๋ ๋ฐ์ด๋ฉ๋๋ค.
4.3 Multi-Crop Evaluation
์๋์ ํ 5๋ multi-crop evaluation๊ณผ dense evaluation์ ๋น๊ตํฉ๋๋ค. 2๊ฐ์ง ํ๊ฐ ๊ธฐ๋ฒ์ ์ํธ๋ณด์์ฑ์ ์ธก์ ํ๊ธฐ ์ํด ๊ฐ ๊ธฐ๋ฒ์ soft-max ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ๋ ๋๋ค. ํ 5์์ ๋ณผ ์ ์๋ฏ์ด, multi-crop์ ์ฌ์ฉํ๋ ๊ฒ์ด dense evaluation๋ณด๋ค ๋ค์ ์ฑ๋ฅ์ด ์ข์์ผ๋ฉฐ, 2๊ฐ์ง ๋ฐฉ๋ฒ์ ์ํธ๋ณด์์ ์ด๊ธฐ ๋๋ฌธ์ ํผํฉํ์ฌ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ ์ฑ๋ฅ์ ๋ง๋ญ๋๋ค.
4.4 ConvNet Fusion
์ง๊ธ๊น์ง๋ ๊ฐ๋ณ ConvNet ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ์ด๋ฒ ์ ์์๋ ๋ช๋ช ๋ชจ๋ธ์ soft-max ๊ฒฐ๊ณผ์ ํ๊ท ์ ๊ตฌํ๋ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ๋ค์ ์ตํฉํ๊ฒ ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ๋ค์ ์ํธ๋ณด์์ฑ ๋๋ฌธ์ ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค๋ฉฐ ILSVRC 2012์ 2013์ ์ ์ถํ ๋ชจ๋ธ๋ค์ด ์ฌ์ฉํ ๋ฐฉ๋ฒ์ ๋๋ค.
ํ 6์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ILSVRC์ ์ ์ถํ ๋, ๋จ์ผ ํฌ๊ธฐ์ ๋คํธ์ํฌ์ ๋ค์ค ํฌ๊ธฐ์ D ๋คํธ์ํฌ๋ง์ ํ์ตํ์์ต๋๋ค. 7๊ฐ์ ๋คํธ์ํฌ๋ฅผ ์์๋ธํ ๊ฒฐ๊ณผ, ์์ 5๊ฐ์ ์ค์ฐจ์จ์ 7.3%์์ต๋๋ค. ์ ์ถํ ์ดํ, ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๋ค์ค ํฌ๊ธฐ์ ๋ชจ๋ธ 2๊ฐ(D์ E)๋ฅผ ์์๋ธํ๋ ๊ฒ์ ๊ณ ๋ คํ์์ต๋๋ค. ์ด๋ dense evaluation์ ์ ์ฉํ์ ๋ ์ค์ฐจ์จ์ 7.0%๊น์ง ์ค์์ผ๋ฉฐ, dense evaluaton๊ณผ multi-crop evaluation์ ํผํฉํ์ฌ ์ ์ฉํ์ ๋๋ 6.8%๊น์ง ๊ฐ์ํ์์ต๋๋ค.
4.5 Comparison with the State of The Art
๋ง์ง๋ง์ผ๋ก SOTA ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ๊ฒ ์ต๋๋ค. ILSVRC 2014์ ๋ถ๋ฅ ๋ฌธ์ ์์ VGG ํ์ 7๊ฐ์ ๋ชจ๋ธ์ ์์๋ธํ์ฌ 7.3%์ ์ค์ฐจ์จ์ ๊ธฐ๋กํ์๊ณ ์ด๋ 2์์ ์ฑ์ ์ด์์ต๋๋ค. ์ ์ถ ์ดํ, 2๊ฐ์ ๋ชจ๋ธ์ ์์๋ธํ์ฌ ์ค์ฐจ์จ์ 6.8%๊น์ง ๋ฎ์ถ์์ต๋๋ค.
ํ 7์์ ๋ณผ ์ ์๋ฏ์ด ๋ณธ ๋ ผ๋ฌธ์ ๊น์ ConvNet์ 2012๋ , 2013๋ ๋ํ์์ ์ข์ ์ฑ์ ์ ๊ฑฐ๋ ์ด์ ์ธ๋์ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, 2014๋ ๋ถ๋ฅ ๋ฌธ์ ์ ์ฐ์น ๋ชจ๋ธ์ธ GoogLeNet๊ณผ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ 2013๋ ์ฐ์น ๋ชจ๋ธ์ธ Clarifai๋ฅผ ์๋นํ ๋ฐ์ด๋๋ ๊ฒฐ๊ณผ์ ๋๋ค. ๋จ์ผ ๋ชจ๋ธ์ ์ฑ๋ฅ์์ ๋ณธ ๋ ผ๋ฌธ์ ์ํคํ ์ฒ๋ 7.0%๋ก ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์๊ณ ์ด๋ GoogLeNet๋ณด๋ค 0.9% ๋ฐ์ด๋ฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์ ํนํ ์ฃผ๋ชฉํด์ผ ํ ๋ถ๋ถ์ LeNet [LeCun et al., 1989]์์ ์ ์ํ ๊ณ ์ ์ ์ธ ConvNet ์ํคํ ์ฒ์์ ๋ฒ์ด๋์ง ์๊ณ ๊น์ด๋ฅผ ์๋นํ ์ฆ๊ฐํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์ํ๋ค๋ ๊ฒ์ ๋๋ค.
5. Conclusion
๋ณธ ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํ ๋งค์ฐ ๊น์ ConvNet์ ํ๊ฐํ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ representation depth๊ฐ ๋ถ๋ฅ์ ์ ํ๋์ ์ด๋กญ๋ค๋ ์ ๊ณผ ํ๋ฒํ ConvNet ์ํคํ ์ฒ๋ฅผ ๊น๊ฒ ์์์ผ๋ก์จ ImageNet ๋ํ์์ SOTA์ ์ฑ๋ฅ์ ๊ฑฐ๋ ์ ์๋ค๋ ์ ์ ์ฆ๋ช ํ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ visual representation์์ ๊น์ด์ ์ค์์ฑ์ ๋ํ์ฌ ๋ค์ ํ๋ฒ ํ์ธ์์ผ์ค๋๋ค.
References
- F. Perronnin et al., "Improving the Fisher Kernel for Large-Scale Image Classification," in ECCV, 2010
- A. Krizhevsky et al., "ImageNet Classification with Deep Convolutional Neural Networks," in NIPS, 2012
- A. Krizhevsky, "One Weird Trick for Parallelizing Convolutional Neural Networks," in CoRR, 2014
- D. Ciresan et al, "Flexible, High Performance Convolutional Neural Networks for Image Classification," in IJCAI, 2011
- P. Sermanet et al., "OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks," in ICLR, 2014
- M. D. Zeiler and R. Fergus, "Visualizing and Understanding Convolutional Networks," in CoRR, 2013
- C. Szegedy et al., "Going Deeper with Convolutions," in CoRR, 2014
- X. Glorot and Y. Bengio, "Understanding the Difficulty of Training Deep Feedfoward Neural Networks," in AISTATS, 2010
* ์ธ์ฉ๋ ๋ ผ๋ฌธ์ ๋ ์์ง๋ง, ๋ณธ ์์ฝ์์ ์ธ๊ธํ ๋ ผ๋ฌธ๋ง์ ์ ๋ฆฌํ์ต๋๋ค.
* ๋ฒ์ญ ์ค๋ฅ๋ ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์๋ฉด ์์ ํ๊ฒ ์ต๋๋ค.
์ฐธ๊ณ ์๋ฃ
- ์กฐ์ ์, ์ ๋ช ์, "Deep Convolutional Neural Networks๋ฅผ ์ด์ฉํ ๊ฐ์ฒด ๊ฒ์ถ ์ฑ๋ฅ์ ๋ฐ์ ๋ํฅ," ๊ตญ๋ฐฉ๊ณผํ์ฐ๊ตฌ์, 2017
- "VGG16 - Convolutional Network for Classification and Detection," https://neurohive.io/en/popular-networks/vgg16/, 2018
'์ธ๊ณต์ง๋ฅ ๋ ผ๋ฌธ ์์ฝ > Deep Network' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Going Deeper with Convolutions ์์ฝ (0) | 2021.08.27 |
---|