์ธ๊ณต์ง€๋Šฅ ๋…ผ๋ฌธ ์š”์•ฝ/Deep Network

Very Deep Convolutional Networks for Large-Scale Image Recognition ์š”์•ฝ

James Hwang๐Ÿ˜Ž 2021. 9. 21. 00:37
๐Ÿ“œ K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," in ICLR, 2014

๋…ผ๋ฌธ 2์ค„ ์š”์•ฝ

  1. ๊ณ ์ „์ ์ธ Convolution ์•„ํ‚คํ…์ฒ˜์—์„œ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๊ณ  ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๋ฅผ ์ฆ๊ฐ€ํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.
  2. ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋งค์šฐ ์ž‘์€ $ 3\times3 $ ํฌ๊ธฐ์˜ Convolutional filter๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

Abstract

  ๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ์ธ์‹ ๋ฌธ์ œ์—์„œ convolution network (ConvNet)์˜ ๊นŠ์ด๊ฐ€ ์ •ํ™•๋„(accuracy)์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์กฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์˜ ์ฃผ๋œ ์„ฑ๊ณผ๋Š” ๋งค์šฐ ์ž‘์€ $ 3\times3 $ Conv. ํ•„ํ„ฐ(filter)๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ์‚ฌ์šฉํ•˜์—ฌ ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด์„œ ์ด๋ฅผ ์ฒ ์ €ํžˆ ํ‰๊ฐ€ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. 16~19๊ฐœ์˜ layer๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ํ™•์žฅ์‹œํ‚ด์œผ๋กœ์จ ์ด์ „์˜ ๋ชจ๋ธ๋“ค์— ๋น„ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ์ƒ๋‹นํžˆ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐœ๊ฒฌ์€ ImageNet 2014 ๋Œ€ํšŒ์— ์ €์ž๋“ค์ด ์ œ์ถœํ•œ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋ณธ ๋Œ€ํšŒ์˜ ์œ„์น˜ ์‹๋ณ„(localization)๊ณผ ๋ถ„๋ฅ˜(classification) ๋ถ„์ œ์—์„œ ๊ฐ๊ฐ 1์œ„์™€ 2์œ„์˜ ์„ฑ์ ์„ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์—์„œ๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ state-of-the-art (SOTA)์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. Computer Vision (CV)์—์„œ deep visual representation์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•˜์—ฌ ๋ณธ ์—ฐ๊ตฌ์—์„œ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ–ˆ๋˜ 2๊ฐœ์˜ ConvNet ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•ฉ๋‹ˆ๋‹ค.


1. Introduction

  CV ๋ถ„์•ผ์—์„œ ConvNet์ด ํ”ํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜๋ฉด์„œ, AlexNet [A. Krizhevsky et al., 2012]๊ณผ ๊ฐ™์ด ๊ธฐ์กด์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐœ์„ ํ•˜์—ฌ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋ ค๋Š” ์‹œ๋„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ILSVRC 2013์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๊ฑฐ๋‘” ๋ชจ๋ธ๋“ค์€ ์ฒซ ๋ฒˆ์งธ Conv. layer์— ๋” ์ž‘์€ ํฌ๊ธฐ์˜ ์ˆ˜์šฉ ์œˆ๋„์šฐ(receptive window)์™€ ๋” ์ž‘์€ ์ŠคํŠธ๋ผ์ด๋“œ(stride)๋ฅผ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ ๋‹ค๋ฅธ ์˜ˆ์‹œ๋กœ๋Š” ์ „์ฒด ์ด๋ฏธ์ง€์™€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ๋กœ์˜ ์ด๋ฏธ์ง€ ์กฐ์ ˆ์„ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ๋ฅผ ๋ณด๋‹ค ์กฐ๋ฐ€ํ•˜๊ฒŒ ํ•™์Šตํ•˜๊ณ  ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ConvNet ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„์—์„œ ๋˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ธ ๊นŠ์ด(depth)๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์•„ํ‚คํ…์ฒ˜์˜ ๋‹ค๋ฅธ ๋งค๊ฐœ๋ณ€์ˆ˜(parameter)๋ฅผ ๊ณ ์ •ํ•˜๊ณ , ๋” ๋งŽ์€ Conv. layer๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋„คํŠธ์›Œํฌ๋ฅผ ๊พธ์ค€ํžˆ ๊นŠ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๋ชจ๋“  Conv. layer์—๋Š” ๋งค์šฐ ์ž‘์€ $ 3\times3 $ Conv. ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ €์ž๋“ค์€ ํ›จ์”ฌ ๋” ์ •ํ™•ํ•œ ConvNet ์•„ํ‚คํ…์ฒ˜๋“ค์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜๋“ค์€ ์ƒ๋Œ€์ ์œผ๋กœ ๋‹จ์ˆœํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ–ˆ์Œ์—๋„ ILSVRC์˜ ๋ถ„๋ฅ˜์™€ ์œ„์น˜ ์‹๋ณ„ ๋ฌธ์ œ์—์„œ SOTA์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ์ ํ•ฉํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ํ–ฅํ›„ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•˜์—ฌ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ธ 2๊ฐœ์˜ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ConvNet Configurations

  ConvNet์˜ ๊นŠ์ด์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ์„ ๊ณต์ •ํ•˜๊ฒŒ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“  Conv. layer์˜ ์„ค์ •์€ Ciresan ์—ฐ๊ตฌ์ง„์˜ ์—ฐ๊ตฌ[D. Ciresan et al., 2011]์™€ AlexNet์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„ ๋™์ผํ•œ ์›์น™์œผ๋กœ ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

2.1 Architecture

  ํ•™์Šต ๊ณผ์ •์—์„œ ConvNet์˜ ์ž…๋ ฅ(input)์€ ํฌ๊ธฐ๊ฐ€ $ 224\times224 $๋กœ ๊ณ ์ •๋œ RGB ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ์˜ ์œ ์ผํ•œ ์ „์ฒ˜๋ฆฌ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ ํ”ฝ์…€๋กœ๋ถ€ํ„ฐ ๊ณ„์‚ฐํ•œ RGB ๊ฐ’์˜ ํ‰๊ท (mean RGB value)์„ ๋นผ์ฃผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ „์ฒ˜๋ฆฌํ•œ ์ด๋ฏธ์ง€๋Š” ๋ˆ„์ ๋œ Conv. layer๋ฅผ ํ†ต๊ณผํ•ฉ๋‹ˆ๋‹ค. Conv. layer์—๋Š” ๋งค์šฐ ์ž‘์€ ์ˆ˜์šฉ ์˜์—ญ(receptive field)์ธ $ 3\times3 $ ํฌ๊ธฐ์˜ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ €์ž๋“ค์ด $ 3\times3 $ ํฌ๊ธฐ์˜ ํ•„ํ„ฐ๋ฅผ '์ขŒ/์šฐ'์™€ '์ƒ/ํ•˜', '์ค‘๊ฐ„'์˜ ๊ฐœ๋…(notion)์„ ํฌ์ฐฉํ•˜๋Š” ๊ฐ€์žฅ ์ž‘์€ ์‚ฌ์ด์ฆˆ๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ConvNet์˜ ์„ค์ • ๊ฐ€์šด๋ฐ ํ•˜๋‚˜๋Š” ์ž…๋ ฅ ์ฑ„๋„์˜ ์„ ํ˜• ๋ณ€ํ™˜(linear transformation)์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋Š” $ 1\times1 $ Conv. ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Conv. ํ•„ํ„ฐ์˜ ์ŠคํŠธ๋ผ์ด๋“œ๋Š” 1ํ”ฝ์…€๋กœ ๊ณ ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Conv. layer์˜ ์ž…๋ ฅ์— ๋Œ€ํ•œ spatial padding์ด ํ•ฉ์„ฑ๊ณฑ(convolution) ์ดํ›„์—๋„ ๊ณต๊ฐ„์ ์ธ ํ•ด์ƒ๋„(spatial resolution)๋ฅผ ๋ณด์กดํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค. spatial pooling์€ 5๊ฐœ์˜ max-pooling layer๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. max-pooling์€ ์ŠคํŠธ๋ผ์ด๋“œ๊ฐ€ 2์ธ $ 2\times2 $ ํฌ๊ธฐ์˜ ์œˆ๋„์šฐ(window)๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  ๋ˆ„์ ๋œ Conv. layer๋“ค ์ดํ›„์— 3๊ฐœ์˜ fully-connected layer (FC layer)๋ฅผ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ์™€ ๋‘ ๋ฒˆ์งธ FC layer๋Š” ๊ฐ๊ฐ 4096๊ฐœ์˜ ์ฑ„๋„์„ ๊ฐ€์กŒ์œผ๋ฉฐ, ์„ธ ๋ฒˆ์งธ FC layer๋Š” ILSVRC์—์„œ 1000๊ฐœ์˜ ๋ถ€๋ฅ˜(class)๋กœ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•ด 1000๊ฐœ์˜ ์ฑ„๋„์„ ๊ฐ–์Šต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰ layer๋Š” soft-max layer์ž…๋‹ˆ๋‹ค. FC layer์˜ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๋ชจ๋“  ๋„คํŠธ์›Œํฌ ์„ค์ •์—์„œ ๋™์ผํ•ฉ๋‹ˆ๋‹ค.

  ๋ชจ๋“  ์€๋‹‰์ธต์—๋Š” ๋น„์„ ํ˜•์„ฑ(non-linearity)์„ ์ถ”๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด Rectified Linear Unit (ReLU)๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์˜ค์ง ํ•˜๋‚˜์˜ ๋„คํŠธ์›Œํฌ์—๋งŒ Local Response Normalization (LRN)์ด ํฌํ•จ๋˜๋ฉฐ, ์ด๋Š” AlexNet๊ณผ ๋™์ผํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 1. AlexNet(์•„๋ž˜)๊ณผ 13์ธต VGGNet(์œ„)์˜ ์•„ํ‚คํ…์ฒ˜ ๋น„๊ต

2.2 Configurations

  ๋ณธ ๋…ผ๋ฌธ์—์„œ ํ‰๊ฐ€ํ•œ ConvNet์˜ ์„ค์ •์€ ํ‘œ 1์— ์š”์•ฝ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์„ค์ •์— ๋”ฐ๋ผ ์ด๋ฆ„(A-E)์ด ๋ถ™์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ์„ค์ •์€ 2.1์ ˆ์—์„œ ์„ค๋ช…ํ•œ ์ผ๋ฐ˜์ ์ธ ์„ค๊ณ„๋ฅผ ๋”ฐ๋ฅด๋ฉฐ ๊นŠ์ด์—๋งŒ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Conv. layer์˜ ๋„ˆ๋น„(์ฑ„๋„ ์ˆ˜)๋Š” ์ฒซ ๋ฒˆ์งธ layer์—์„œ 64๊ฐœ๋กœ ์‹œ์ž‘ํ•˜์—ฌ ๊ฐ max-pooling layer์—์„œ 2๋ฐฐ์”ฉ ์ฆ๊ฐ€ํ•˜๋ฉฐ ์ตœ๋Œ€ 512๊ฐœ๊นŒ์ง€ ๋Š˜์–ด๋‚ฉ๋‹ˆ๋‹ค.

ํ‘œ 1. ConvNet์˜ ๊ตฌ์„ฑ

  ํ‘œ 2๋Š” ๊ฐ ์„ค์ •์— ๋”ฐ๋ฅธ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๊ฐ€ ๋” ๊นŠ์–ด์กŒ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์–•์œผ๋ฉด์„œ layer์˜ ๋„ˆ๋น„์™€ ์ˆ˜์šฉ ์˜์—ญ์ด ํฐ ๋„คํŠธ์›Œํฌ์ธ OverFeat [P. Sermanet et al., 2014]๋ณด๋‹ค๋Š” ๋„คํŠธ์›Œํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์ ์Šต๋‹ˆ๋‹ค.

ํ‘œ 2. ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜(๋‹จ์œ„ : ๋ฐฑ๋งŒ)

2.3 Discussion

  ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋งค์šฐ ์ž‘์€ $ 3\times3 $ ์ˆ˜์šฉ ์˜์—ญ์„ ์ „์ฒด ๋„คํŠธ์›Œํฌ์— ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. 1๊ฐœ์˜ $ 7\times 7$ ํ˜น์€ $ 5\times5 $ Conv. layer๊ฐ€ ์•„๋‹Œ $ 3\times3 $ layer๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ์Œ“์Œ์œผ๋กœ์จ ์–ป๋Š” ์ด์ ์€ ๋ฌด์—‡์ผ๊นŒ์š”?

  1. ReLU๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๊ฒฐ์ • ํ•จ์ˆ˜(decision function)๊ฐ€ ๋” ์ž˜ ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  2. ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๋ฅผ ์ค„์ž…๋‹ˆ๋‹ค.
๊ทธ๋ฆผ 2. 2๊ณ„์ธต์˜ $ 3\times 3 $ Conv. layer์™€ 1๊ณ„์ธต์˜ $ 5\times5 $ Conv. layer ๋น„๊ต
  ์˜ˆ๋ฅผ ๋“ค์–ด, ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด ๋™์ผํ•œ ์ฑ„๋„(C)์„ ๊ฐ–๋Š”๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. 2 ๊ณ„์ธต์˜ $ 3\times3 $ Conv. layer๋“ค์€ $ 2(3^2C^2) = 18C^2 $์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด 1 ๊ณ„์ธต์˜ $ 5\times5 $ Conv. layer๋Š” $ 5^2C^2 = 25C^2 $์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ™์€ ํšจ๊ณผ๋ฅผ ์–ป์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  38%์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋” ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” $ 7\times7 $ Conv. layer์ผ ๋•Œ ๋” ์‹ฌํ•ด์ง‘๋‹ˆ๋‹ค.
  ๋˜ํ•œ, ์—ฌ๋Ÿฌ ๊ฐœ์˜ $ 3\times3 $ Conv. ํ•„ํ„ฐ๋กœ ๋ถ„ํ•ดํ•จ์œผ๋กœ์จ ์ผ๋ฐ˜ํ™”(regularization)๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.

  ๋„คํŠธ์›Œํฌ C์ฒ˜๋Ÿผ $ 1\times1 $ Conv. layer๋ฅผ ํฌํ•จํ•˜๋Š” ๊ฒƒ์€ Conv. layer๋“ค์˜ ์ˆ˜์šฉ ์˜์—ญ์˜ ์˜ํ–ฅ์„ ์ œ์™ธํ•˜๋ฉฐ ๊ฒฐ์ • ํ•จ์ˆ˜์˜ ๋น„์„ ํ˜•์„ฑ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ๋น„๋ก ๋ณธ ๋…ผ๋ฌธ์˜ $ 1\times1 $ Conv. layer๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๋™์ผํ•œ ์ฐจ์›์˜ ๊ณต๊ฐ„์œผ๋กœ ์„ ํ˜• ํˆฌ์˜(linear projection)ํ•˜์ง€๋งŒ, ReLU๋ฅผ ํ†ตํ•ด ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. $ 1\times1 $ Conv. layer๋Š” ์ตœ๊ทผ Lin ์—ฐ๊ตฌ์ง„์˜ "Network in Network"์—๋„ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  ์ž‘์€ ํฌ๊ธฐ์˜ Conv. ํ•„ํ„ฐ๋Š” ์ด๋ฏธ Ciresan ์—ฐ๊ตฌ์ง„์ด ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Ciresan ์—ฐ๊ตฌ์ง„์˜ ๋„คํŠธ์›Œํฌ๋Š” ๋ณธ ์—ฐ๊ตฌ์˜ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ๋œ ๊นŠ์—ˆ๊ณ  ILSVRC์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ‰๊ฐ€ํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ILSVRC 2014์˜ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์ธ GoogLeNet [C. Szegedy et al., 2014]์€ ๋ณธ ์—ฐ๊ตฌ์™€ ๋…๋ฆฝ์ ์œผ๋กœ ๊ฐœ๋ฐœ๋˜์—ˆ์ง€๋งŒ, 22์ธต์˜ ๊นŠ์€ ConvNet์„ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ์ ๊ณผ ์ž‘์€ Conv. ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ์ ์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ GoogLeNet์˜ ๋„คํŠธ์›Œํฌ ์œ„์ƒ ๊ตฌ์กฐ๋Š” ๋ณธ ๋…ผ๋ฌธ์˜ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ๋ณต์žกํ•˜๋ฉฐ, ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ธฐ ์œ„ํ•ด "Inception"์˜ ์ฒซ ๋ฒˆ์งธ layer์—์„œ ํŠน์ง• ๋งต์˜ ๊ณต๊ฐ„์ ์ธ ํ•ด์ƒ๋„๋ฅผ ๋” ๊ณต๊ฒฉ์ ์œผ๋กœ ์ค„์˜€์Šต๋‹ˆ๋‹ค.


3. Classification framework

3.1 Training

  ConvNet์˜ ํ•™์Šต ์ ˆ์ฐจ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ AlexNet์˜ ๋ฐฉ๋ฒ•์„ ๋”ฐ๋ž์Šต๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ ๋ชจ๋ฉ˜ํ…€(momentum)์„ ํ™œ์šฉํ•œ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(mini-batch gradient descent)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹คํ•ญ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(multinominal logistic regression)์˜ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ๋Š” 256์œผ๋กœ ์„ค์ •ํ•˜์˜€์œผ๋ฉฐ ๋ชจ๋ฉ˜ํ…€์€ 0.9์ž…๋‹ˆ๋‹ค. ์ฒซ 2๊ฐœ์˜ FC layer์— ๋Œ€ํ•ด ๊ฐ€์ค‘์น˜ ๊ฐ์†Œ(weight decay)์™€ ๋“œ๋กญ์•„์›ƒ(dropout)์„ ํ†ตํ•ด ํ•™์Šต์„ ๊ทœ์ œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ (learning rate)์˜ ์ดˆ๊นƒ๊ฐ’์€ $ 10^{-2} $๋กœ ์„ค์ •ํ•˜์˜€๊ณ , ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹(validation set)์˜ ์ •ํ™•๋„๊ฐ€ ํ–ฅ์ƒ๋˜๋Š” ๊ฒƒ์ด ๋ฉˆ์ถ”๋ฉด 10๋ฐฐ ๊ฐ์†Œ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ข…ํ•ฉํ•˜์—ฌ ์ด 3์ฐจ๋ก€ ํ•™์Šต๋ฅ ์€ ๊ฐ์†Œํ•˜์˜€๊ณ , 74 ์—ํญ ์ดํ›„ ํ•™์Šต์€ ๋ฉˆ์ถ”์—ˆ์Šต๋‹ˆ๋‹ค. AlexNet๊ณผ ๋น„๊ตํ•˜์—ฌ ๋” ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ๋” ๊นŠ์€ layer๋ฅผ ์‚ฌ์šฉํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋ณธ ๋…ผ๋ฌธ์˜ ๋„คํŠธ์›Œํฌ๋Š” ๋‹ค์Œ 2๊ฐ€์ง€์˜ ์ด์œ ๋กœ ๋” ์ ์€ ์—ํญ๋งŒ์— ์ˆ˜๋ ดํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ๋” ๊นŠ์€ layer์™€ ์ž‘์€ Conv. ํ•„ํ„ฐ๋ฅผ ํ†ตํ•œ ์ž ์žฌ์ ์ธ ์ผ๋ฐ˜ํ™” ์ ์šฉ
  2. ํŠน์ • layer๋“ค์— ๋Œ€ํ•˜์—ฌ ์‚ฌ์ „์— ์ดˆ๊ธฐํ™”ํ•œ ๊ฐ’์„ ์ด์šฉ

  ๋„คํŠธ์›Œํฌ ๊ฐ€์ค‘์น˜์˜ ์ดˆ๊ธฐํ™”(initialization)๋Š” ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๊นŠ์€ ๋„คํŠธ์›Œํฌ์—์„œ ์ž˜๋ชป๋œ ์ดˆ๊ธฐํ™”๋Š” ๊ธฐ์šธ๊ธฐ(gradient)์˜ ๋ถˆ์•ˆ์ •์„ฑ์œผ๋กœ ์ธํ•˜์—ฌ ํ•™์Šต์„ ์ง€์—ฐ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด, ๋žœ๋ค ์ดˆ๊ธฐํ™”(random initialization)๋กœ ํ•™์Šตํ•˜๊ธฐ ์ถฉ๋ถ„ํžˆ ์–•์€ ๋„คํŠธ์›Œํฌ์ธ ๋„คํŠธ์›Œํฌ A๋ฅผ ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ดํ›„ ๋” ๊นŠ์€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ•™์Šตํ•  ๋•Œ, ๋„คํŠธ์›Œํฌ A์˜ layer๋“ค์„ ์ฒซ 4๊ฐœ์˜ Conv. layer์™€ ๋งˆ์ง€๋ง‰ 3๊ฐœ์˜ FC layer์˜ ์ดˆ๊นƒ๊ฐ’์œผ๋กœ ์ด์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ ์‚ฌ์ „์— ์ดˆ๊ธฐํ™”๋œ layer๋“ค์˜ ๋ณ€ํ™”๋ฅผ ํ—ˆ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต๋ฅ ์„ ์ค„์ด์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋žœ๋ค ์ดˆ๊ธฐํ™”๋ฅผ ์œ„ํ•ด ํ‰๊ท ์ด 0์ด๊ณ  ๋ถ„์‚ฐ์ด $ 10^{-2} $์ธ ์ •๊ทœ๋ถ„ํฌ(normal distribution)๋กœ๋ถ€ํ„ฐ ๊ฐ€์ค‘์น˜๋ฅผ ์ถ”์ถœํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํŽธํ–ฅ(bias)์€ 0์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์„ ์ œ์ถœํ•œ ์ดํ›„, [Glorot & Bengio, 2010]์˜ ์—ฐ๊ตฌ์—์„œ ์ œ์‹œํ•œ ๋žœ๋ค ์ดˆ๊ธฐํ™” ์ ˆ์ฐจ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์‚ฌ์ „ ํ•™์Šต ์—†์ด๋„ ์ดˆ๊ธฐํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

  ConvNet์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•  $ 224\times224 $์˜ ํฌ๊ธฐ๋กœ ๊ณ ์ •๋œ ์ด๋ฏธ์ง€๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํฌ๊ธฐ๊ฐ€ ์กฐ์ •๋œ ํ•™์Šต ์ด๋ฏธ์ง€๋“ค์„ ๋žœ๋คํ•˜๊ฒŒ cropํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๋” ๋Š˜๋ฆฌ๊ธฐ(augment) ์œ„ํ•˜์—ฌ cropํ•œ ์‚ฌ์ง„๋“ค ๊ฐ€์šด๋ฐ ๋ฌด์ž‘์œ„๋กœ ์ขŒ์šฐ ๋ฐ˜์ „(horizontally flipping)ํ•˜๊ณ  RGB ์ƒ‰์„ ๋žœ๋คํ•˜๊ฒŒ ์˜ฎ๊ฒผ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ ์กฐ์ ˆ์— ๊ด€ํ•œ ๋ฐฉ๋ฒ•์€ ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Training image size
  crop๋œ ๋ฐ์ดํ„ฐ ๊ฐ€์šด๋ฐ ์–‘๋ฉด์˜ ํฌ๊ธฐ๋ฅผ ๋น„๋ก€ํ•˜๊ฒŒ ์กฐ์ •ํ•œ(isotropically-rescaled) ํ•™์Šต ์ด๋ฏธ์ง€์˜ ๊ฐ€์žฅ ์งง์€ ๋ฉด์„ $ S $๋ผ๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. crop์˜ ํฌ๊ธฐ๋ฅผ $ 224\times224 $๋กœ ๊ณ ์ •ํ•˜์˜€์ง€๋งŒ, $ S $๋Š” 224 ์ด์ƒ์˜ ๊ฐ’์ด๋ฉด ๊ดœ์ฐฎ์Šต๋‹ˆ๋‹ค. $ S=224 $์ธ crop์˜ ๊ฒฝ์šฐ, ํ•™์Šต์˜ ์ด๋ฏธ์ง€์˜ ๊ฐ€์žฅ ์งง์€ ๋ฉด์„ ์™„๋ฒฝํ•˜๊ฒŒ ํฌ๊ด„ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์ „์ฒด์ ์ธ ํ†ต๊ณ„์น˜๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. $ S\gg224 $์ธ crop์˜ ๊ฒฝ์šฐ, ์ž‘์€ ๊ฐ์ฒด๋‚˜ ๊ฐ์ฒด์˜ ์ผ๋ถ€๋ถ„์„ ํฌํ•จํ•˜๋Š” ์ด๋ฏธ์ง€์˜ ์ž‘์€ ๋ถ€๋ถ„์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
  ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ $ S $๋ฅผ ์„ค์ •ํ•˜๋Š” 2๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ•์„ ๊ณ ๋ คํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ํฌ๊ธฐ๋กœ ๊ณ ์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” 256๊ณผ 384 2๊ฐœ์˜ ๊ณ ์ •๋œ ํฌ๊ธฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•™์Šตํ•œ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  ๋‘ ๋ฒˆ์งธ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ๊ฐ์˜ ํ•™์Šต ์ด๋ฏธ์ง€๋Š” ํŠน์ • ๋ฒ”์œ„์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ๋žœ๋คํ•˜๊ฒŒ $ S $๋ฅผ ๋ฝ‘์•„ ํฌ๊ธฐ๋ฅผ ์กฐ์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” $ S_{min} $์„ 256์œผ๋กœ $ S_{max} $๋ฅผ 512๋กœ ์„ค์ •ํ•˜์—ฌ $ S $์˜ ๋ฒ”์œ„๋ฅผ $ [256, 512] $๋กœ ์ œํ•œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” scale jittering์„ ํ†ตํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ฆ๊ฐ€๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

3.2 Testing

  ํ…Œ์ŠคํŠธ ๊ณผ์ •์—์„œ๋Š” ํ•™์Šตํ•œ ConvNet๊ณผ ์ž…๋ ฅ ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋ฅผ ์œ„ํ•ด ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

  1. ์‚ฌ์ „์— ์ •์˜ํ•œ ๊ฐ€์žฅ ์งง์€ ์ด๋ฏธ์ง€์˜ ๋ฉด($ Q $)์— ๋”ฐ๋ผ ์–‘๋ฉด์˜ ํฌ๊ธฐ๋ฅผ ๋น„๋ก€ํ•˜๊ฒŒ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ…Œ์ŠคํŠธ ํฌ๊ธฐ์ธ $ Q $๋Š” ํ•™์Šต ํฌ๊ธฐ์ธ $ S $์™€ ๊ฐ™์„ ํ•„์š”๋Š” ์—†์Šต๋‹ˆ๋‹ค.
  2. ๋„คํŠธ์›Œํฌ์— OverFeat์™€ ์œ ์‚ฌํ•œ ๋ฐฉ์‹์œผ๋กœ ์กฐ์ •๋œ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•˜๋ฉด, ์šฐ์„  FC layer๋ฅผ Conv. layer๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค(์ฒซ ๋ฒˆ์งธ FC layer๋Š” $ 7\times7 $ Conv. layer๋กœ, ๋‚˜๋จธ์ง€ 2๊ฐœ์˜ FC layer๋Š” $ 1\times1 $ Conv. layer๋กœ ๋ณ€ํ™˜). ๋ณ€ํ™˜ํ•œ Fully-Conv. ๋„คํŠธ์›Œํฌ์— crop๋˜์ง€ ์•Š์€ ์ „์ฒด ์ด๋ฏธ์ง€๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ถ€๋ฅ˜ ์ˆซ์ž์™€ ๊ฐ™์€ ์ฑ„๋„ ์ˆ˜๋ฅผ ๊ฐ€์ง„ class score map๊ณผ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ์— ์˜์กดํ•˜๋Š” ๋‹ค์–‘ํ•œ spatial resolution๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๋ถ€๋ฅ˜ ์ ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ง„ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ๋ฒกํ„ฐ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด class score map์„ sum poolingํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ขŒ์šฐ ๋ฐ˜์ „ํ•˜์—ฌ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์–‘์„ ์ฆ๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์›๋ณธ๊ณผ ์ขŒ์šฐ ๋ฐ˜์ „ํ•œ ์ด๋ฏธ์ง€์˜ soft-max ๊ฐ’์„ ํ‰๊ท  ๋‚ด์–ด ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์ตœ์ข… ์ ์ˆ˜๋ฅผ ํš๋“ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  Fully-Conv. ๋„คํŠธ์›Œํฌ์— ์ „์ฒด ์ด๋ฏธ์ง€๊ฐ€ ์ ์šฉ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ํ…Œ์ŠคํŠธ ๊ณผ์ •์—์„œ๋Š” AlexNet์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ crop์„ ์ถ”์ถœํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ crop์„ ์ถ”์ถœํ•  ๊ฒฝ์šฐ, crop ๋ณ„๋กœ ๋„คํŠธ์›Œํฌ์˜ ์žฌ์—ฐ์‚ฐ์„ ์š”๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํšจ์œจ์„ฑ์ด ๋–จ์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด Szegedy ์—ฐ๊ตฌ์ง„์ฒ˜๋Ÿผ crop์˜ ๋Œ€๊ทœ๋ชจ ์ง‘ํ•ฉ์„ ์ด์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ Fully-Conv. ๋„คํŠธ์›Œํฌ์™€ ๋น„๊ตํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ๋” ์ž˜ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, multi-crop evaluation์€ ์„œ๋กœ ๋‹ค๋ฅธ Conv. ๊ฒฝ๊ณ„ ์กฐ๊ฑด์œผ๋กœ ์ธํ•ด dense evaluation๊ณผ ์ƒํ˜ธ๋ณด์™„์ ์ธ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ConvNet์— crop์„ ์ ์šฉํ•  ๊ฒฝ์šฐ, ํŠน์ง• ๋งต์˜ ์ฃผ์œ„๋Š” 0์œผ๋กœ ํŒจ๋”ฉ๋˜๋Š” ๋ฐ˜๋ฉด dense evaluation์€ ๊ฐ™์€ crop์— ๋Œ€ํ•œ ํŒจ๋”ฉ์ด ์ด๋ฏธ์ง€์˜ ์ธ์ ‘ํ•œ ๋ถ€๋ถ„(neighbouring part)์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ „์ฒด์ ์ธ ๋„คํŠธ์›Œํฌ์˜ ์ˆ˜์šฉ ์˜์—ญ์„ ๋” ๋งŽ์ด ์ฆ๊ฐ€ํ•˜๊ฒŒ ํ•˜๋ฉฐ ๋งŽ์€ ๋ฌธ๋งฅ์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ crop์œผ๋กœ ์ธํ•˜์—ฌ ์—ฐ์‚ฐ ์‹œ๊ฐ„์ด ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ์ž ์žฌ์ ์œผ๋กœ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๊ฒƒ์œผ๋กœ ์ด์–ด์ง€์ง€ ์•Š๋Š”๋‹ค๊ณ  ๋ฏฟ์—ˆ์ง€๋งŒ, ์ถ”๋ก  ๊ณผ์ •์—์„œ๋Š” ๋„คํŠธ์›Œํฌ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ํฌ๊ธฐ ๋ณ„๋กœ 50๊ฐœ์˜ crop์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Dense Evaluation [P. Sermanet et al., 2014]
  FC layer๋ฅผ $ 1\times1 $ Conv. ๊ฐœ๋…์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์˜์ƒ์„ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ๋ฐฉ์‹์œผ๋กœ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ํ’€๋ง ๋งต์„ ์ƒ์„ฑ ํ•˜์—ฌ ํ›จ์”ฌ ์กฐ๋ฐ€ํ•œ ๊ฒ€์ถœ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
  ์•„๋ž˜ ๊ทธ๋ฆผ 3์˜ (a)์™€ ๊ฐ™์ด unpooled map์ด ์ฃผ์–ด์งˆ ๊ฒฝ์šฐ, (b)์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ offset ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํ†ตํ•ด ๊ฒน์ณ์ง€์ง€ ์•Š๊ฒŒ max pooling์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ (c)์ฒ˜๋Ÿผ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ offset ๋ณ„ pooling map์ด ์ƒ์„ฑ๋˜๊ณ  (d)์™€ ๊ฐ™์ด ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ๋ฐฉ์‹์œผ๋กœ pooling map์— ๋Œ€ํ•ด ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ (e)์™€ ๊ฐ™์ด ์—ฌ๋Ÿฌ ํฌ๊ธฐ์˜ offset์œผ๋กœ ์ƒ์„ฑ๋œ map ๊ฒฐ๊ณผ๋ฅผ ์กฐํ•ฉํ•˜๋ฉด ์กฐ๋ฐ€ํ•œ ๊ฒฐ๊ณผ์˜ output map์ด ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค.
๊ทธ๋ฆผ 3. OverFeat์˜ Dense Evaluation ์ ˆ์ฐจ

4. Classification Experiments

Dataset
  ์ด๋ฒˆ ์žฅ์—์„œ๋Š” ILSVRC 2012 ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•œ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์…‹์€ 1000๊ฐœ์˜ ๋ถ€๋ฅ˜๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฉฐ 3๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ํ•™์Šต(1300๋งŒ ์žฅ), ํ‰๊ฐ€(5๋งŒ ์žฅ), ํ…Œ์ŠคํŠธ(10๋งŒ ์žฅ).
ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
  ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ์€ 2๊ฐ€์ง€์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ƒ์œ„ 1๊ฐœ์˜ ์˜ค์ฐจ์œจ(top-1 error)์€ ๋‹ค์ค‘ ๋ถ„๋ฅ˜ ์˜ค์ฐจ(multi-class classification error)๋กœ ๋ถ„๋ฅ˜๋œ ์ด๋ฏธ์ง€๊ฐ€ ๋ถ€์ •ํ™•ํ•  ๋น„์œจ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ์ƒ์œ„ 5๊ฐœ์˜ ์˜ค์ฐจ์œจ(top-5 error)์€ ILSVRC์—์„œ ํ‰๊ฐ€ ๊ธฐ์ค€์œผ๋กœ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฉฐ, ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ์˜ˆ์ธกํ•œ 5๊ฐœ์˜ ์นดํ…Œ๊ณ ๋ฆฌ ๊ฐ€์šด๋ฐ ์ฐธ๊ฐ’์ด ํฌํ•จ๋˜์ง€ ์•Š์€ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

4.1 Single Scale Evaluation

  2.2์ ˆ์—์„œ ์„ค๋ช…ํ•œ layer์˜ ์„ค์ •์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์ผ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋กœ ๊ฐ ConvNet ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. $ Q=S $($ S $๋Š” ๊ณ ์ •)์ด๋ฉฐ scale jittering์„ ์œ„ํ•ด $ S\in[S_{min}, S_{max}] $์—์„œ Q=0.5(S_{min}+S_{max})์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜์˜ ํ‘œ 3์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ‘œ 3. ๋‹จ์ผ ํฌ๊ธฐ์— ๋”ฐ๋ฅธ ConvNet ์„ฑ๋Šฅ ๋น„๊ต

  ์‹คํ—˜์„ ํ†ตํ•ด ๋‹ค์Œ์˜ 3๊ฐ€์ง€๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  1. LRN์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ •๊ทœํ™” layer๊ฐ€ ์—†๋Š” ๋ชจ๋ธ A๋ฅผ ๊ฐœ์„ ํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ดํ›„์˜ ์‹ฌ์ธต ์•„ํ‚คํ…์ฒ˜(B-E)์—๋Š” ์ •๊ทœํ™”๋ฅผ ์ ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.
  2. ConvNet์˜ ๊นŠ์ด์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜ ์˜ค์ฐจ์œจ์ด ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋™์ผํ•œ ๊นŠ์ด์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  3๊ฐœ์˜ $ 1\times1 $ Conv. layer๋ฅผ ํฌํ•จํ•œ C๊ฐ€ ๋„คํŠธ์›Œํฌ์— $ 3\times3 $ Conv. layer๋ฅผ ์ ์šฉํ•œ D๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚˜์œ ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” B์— ๋น„ํ•˜์—ฌ C๊ฐ€ ๋‚ซ๋‹ค๋Š” ์ ์—์„œ ์ถ”๊ฐ€์ ์ธ ๋น„์„ ํ˜•์„ฑ์ด ์„ฑ๋Šฅ์— ๋„์›€์ด ๋œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ D๊ฐ€ C๋ณด๋‹ค ๋‚ซ๋‹ค๋Š” ์ ์—์„œ ํŠน๋ณ„ํ•œ(non-trival) ์ˆ˜์šฉ ์˜์—ญ์„ ๊ฐ€์ง„ Conv. filter๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณต๊ฐ„์ ์ธ ๋งฅ๋ฝ์„ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ์ด ๋” ์ค‘์š”ํ•˜๋‹ค๋Š” ์ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. 19์ธต์— ๊นŠ์ด๊ฐ€ ๋„๋‹ฌํ•˜๋ฉด ์˜ค์ฐจ์œจ์ด ๋” ์ด์ƒ ๊ฐœ์„ ๋˜์ง€๋Š” ์•Š์ง€๋งŒ, ๋” ํฐ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ๋Š” ๋” ๊นŠ์€ ๋ชจ๋ธ์ด ์œ ๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋„คํŠธ์›Œํฌ B์™€ B์˜ $ 3\times3 $ Conv. layer 2๊ฐœ๋ฅผ $ 5\times5 $ Conv. layer๋กœ ๊ต์ฒดํ•˜์—ฌ ์–•๊ฒŒ ๋งŒ๋“  ๋„คํŠธ์›Œํฌ๋ฅผ ๋น„๊ตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์–•์€ ๋„คํŠธ์›Œํฌ๋Š” B์™€ ๋น„๊ตํ•˜์—ฌ ์˜ค์ฐจ์œจ์ด 7% ๋†’์•˜์œผ๋ฉฐ, ์ด๋Š” ์ž‘์€ ํ•„ํ„ฐ๋“ค์„ ๊ฐ€์ง„ ๊นŠ์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ํฐ ํ•„ํ„ฐ๋ฅผ ๊ฐ€์ง„ ์–•์€ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  3. ํ•™์Šต ๋‹จ๊ณ„์—์„œ scale jitteringํ•˜๋Š” ๊ฒƒ์€ ์งง์€ ๋ฉด์œผ๋กœ ๊ณ ์ •๋œ ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋งค์šฐ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” scale jittering์„ ํ†ตํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ์ฆ๊ฐ€๊ฐ€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ ํฌ์ฐฉํ•˜๋Š”๋ฐ ๋” ํšจ๊ณผ์ ์ž„์„ ์•Œ๋ ค์ค๋‹ˆ๋‹ค.

4.2 Multi-Scale Evaluation

  ์ด์ „ ์ ˆ์—์„œ๋Š” ๋‹จ์ผ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋กœ ConvNet ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ ์ ˆ์—์„œ๋Š” ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„์—์„œ scale jittering์„ ํ•œ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ๋กœ ์กฐ์ •ํ•˜์—ฌ ์ถ”๋ก ํ•œ ํ›„, ์ด๋ฅผ ํ‰๊ท  ๋‚ด์–ด ๋ถ€๋ฅ˜๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ์ด๋ฏธ์ง€ ํฌ๊ธฐ์™€ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€ ํฌ๊ธฐ์˜ ํฐ ์ฐจ์ด๊ฐ€ ์„ฑ๋Šฅ์„ ๋–จ์–ด๋œจ๋ฆฐ๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•˜์—ฌ, ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ $ S $์— ๋Œ€ํ•˜์—ฌ ํ•™์Šตํ•œ ๋ชจ๋ธ์„ ํ•™์Šต ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ์™€ ์œ ์‚ฌํ•œ 3๊ฐ€์ง€์˜ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€ ํฌ๊ธฐ($ Q $)๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ $ Q=\{S- 32, S, S+32\} $์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ•™์Šต ๊ณผ์ •์˜ scale jittering์— ๋Œ€ํ•ด ํ…Œ์ŠคํŠธ ๊ณผ์ •์—์„œ ๋‹ค์–‘ํ•œ ๋ฒ”์œ„์˜ ํฌ๊ธฐ์—๋„ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด $ Q=\{S_{min}, 0.5(S_{min}+S_{max}, S_{max}\} $๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

ํ‘œ 4. ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ํ…Œ์ŠคํŠธ์— ๋”ฐ๋ฅธ ConvNet ์„ฑ๋Šฅ ๋น„๊ต

  ๊ทธ ๊ฒฐ๊ณผ, ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„์—์„œ scale jittering์ด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ์ด๋ˆ๋‹ค๋Š” ๊ฒƒ์„ ์œ„ ํ‘œ 4๋ฅผ ํ†ตํ•ด ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด์ „ ์ ˆ๊ณผ ๋™์ผํ•˜๊ฒŒ ๊ฐ€์žฅ ๊นŠ์€ ์„ค์ •์ธ D์™€ E์—์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์œผ๋ฉฐ, scale jittering์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์งง์€ ๋ฉด $ S $๋กœ ๊ณ ์ •๋œ ์ด๋ฏธ์ง€๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค.

4.3 Multi-Crop Evaluation

  ์•„๋ž˜์˜ ํ‘œ 5๋Š” multi-crop evaluation๊ณผ dense evaluation์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. 2๊ฐ€์ง€ ํ‰๊ฐ€ ๊ธฐ๋ฒ•์˜ ์ƒํ˜ธ๋ณด์™„์„ฑ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๊ธฐ๋ฒ•์˜ soft-max ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ท  ๋ƒ…๋‹ˆ๋‹ค. ํ‘œ 5์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, multi-crop์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด dense evaluation๋ณด๋‹ค ๋‹ค์†Œ ์„ฑ๋Šฅ์ด ์ข‹์•˜์œผ๋ฉฐ, 2๊ฐ€์ง€ ๋ฐฉ๋ฒ•์€ ์ƒํ˜ธ๋ณด์™„์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ˜ผํ•ฉํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ข‹์€ ์„ฑ๋Šฅ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

ํ‘œ 5. ConvNet ํ‰๊ฐ€ ๊ธฐ๋ฒ• ๋น„๊ต

4.4 ConvNet Fusion

  ์ง€๊ธˆ๊นŒ์ง€๋Š” ๊ฐœ๋ณ„ ConvNet ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ ์ ˆ์—์„œ๋Š” ๋ช‡๋ช‡ ๋ชจ๋ธ์˜ soft-max ๊ฒฐ๊ณผ์˜ ํ‰๊ท ์„ ๊ตฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ชจ๋ธ๋“ค์„ ์œตํ•ฉํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ๋“ค์˜ ์ƒํ˜ธ๋ณด์™„์„ฑ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค๋ฉฐ ILSVRC 2012์™€ 2013์— ์ œ์ถœํ•œ ๋ชจ๋ธ๋“ค์ด ์‚ฌ์šฉํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

  ํ‘œ 6์€ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ILSVRC์— ์ œ์ถœํ•  ๋•Œ, ๋‹จ์ผ ํฌ๊ธฐ์˜ ๋„คํŠธ์›Œํฌ์™€ ๋‹ค์ค‘ ํฌ๊ธฐ์˜ D ๋„คํŠธ์›Œํฌ๋งŒ์„ ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค. 7๊ฐœ์˜ ๋„คํŠธ์›Œํฌ๋ฅผ ์•™์ƒ๋ธ”ํ•œ ๊ฒฐ๊ณผ, ์ƒ์œ„ 5๊ฐœ์˜ ์˜ค์ฐจ์œจ์€ 7.3%์˜€์Šต๋‹ˆ๋‹ค. ์ œ์ถœํ•œ ์ดํ›„, ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ ๋‹ค์ค‘ ํฌ๊ธฐ์˜ ๋ชจ๋ธ 2๊ฐœ(D์™€ E)๋ฅผ ์•™์ƒ๋ธ”ํ•˜๋Š” ๊ฒƒ์„ ๊ณ ๋ คํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” dense evaluation์„ ์ ์šฉํ–ˆ์„ ๋•Œ ์˜ค์ฐจ์œจ์„ 7.0%๊นŒ์ง€ ์ค„์˜€์œผ๋ฉฐ, dense evaluaton๊ณผ multi-crop evaluation์„ ํ˜ผํ•ฉํ•˜์—ฌ ์ ์šฉํ–ˆ์„ ๋•Œ๋Š” 6.8%๊นŒ์ง€ ๊ฐ์†Œํ•˜์˜€์Šต๋‹ˆ๋‹ค.

ํ‘œ 6. ConvNet ์•™์ƒ๋ธ” ๊ฒฐ๊ณผ ๋น„๊ต

4.5 Comparison with the State of The Art

  ๋งˆ์ง€๋ง‰์œผ๋กœ SOTA ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ILSVRC 2014์˜ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ VGG ํŒ€์€ 7๊ฐœ์˜ ๋ชจ๋ธ์„ ์•™์ƒ๋ธ”ํ•˜์—ฌ 7.3%์˜ ์˜ค์ฐจ์œจ์„ ๊ธฐ๋กํ•˜์˜€๊ณ  ์ด๋Š” 2์œ„์˜ ์„ฑ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ œ์ถœ ์ดํ›„, 2๊ฐœ์˜ ๋ชจ๋ธ์„ ์•™์ƒ๋ธ”ํ•˜์—ฌ ์˜ค์ฐจ์œจ์„ 6.8%๊นŒ์ง€ ๋‚ฎ์ถ”์—ˆ์Šต๋‹ˆ๋‹ค.

ํ‘œ 7. ILSVRC์˜ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ SOTA ๋ชจ๋ธ ๋น„๊ต

  ํ‘œ 7์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด ๋ณธ ๋…ผ๋ฌธ์˜ ๊นŠ์€ ConvNet์€ 2012๋…„, 2013๋…„ ๋Œ€ํšŒ์—์„œ ์ข‹์€ ์„ฑ์ ์„ ๊ฑฐ๋‘” ์ด์ „ ์„ธ๋Œ€์˜ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋˜ํ•œ, 2014๋…„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์˜ ์šฐ์Šน ๋ชจ๋ธ์ธ GoogLeNet๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ 2013๋…„ ์šฐ์Šน ๋ชจ๋ธ์ธ Clarifai๋ฅผ ์ƒ๋‹นํžˆ ๋›ฐ์–ด๋„˜๋Š” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ๋‹จ์ผ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์—์„œ ๋ณธ ๋…ผ๋ฌธ์˜ ์•„ํ‚คํ…์ฒ˜๋Š” 7.0%๋กœ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ  ์ด๋Š” GoogLeNet๋ณด๋‹ค 0.9% ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ ํŠนํžˆ ์ฃผ๋ชฉํ•ด์•ผ ํ•  ๋ถ€๋ถ„์€ LeNet [LeCun et al., 1989]์—์„œ ์ œ์‹œํ•œ ๊ณ ์ „์ ์ธ ConvNet ์•„ํ‚คํ…์ฒ˜์—์„œ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๊ณ  ๊นŠ์ด๋ฅผ ์ƒ๋‹นํžˆ ์ฆ๊ฐ€ํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


5. Conclusion

  ๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ๋งค์šฐ ๊นŠ์€ ConvNet์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ representation depth๊ฐ€ ๋ถ„๋ฅ˜์˜ ์ •ํ™•๋„์— ์ด๋กญ๋‹ค๋Š” ์ ๊ณผ ํ‰๋ฒ”ํ•œ ConvNet ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊นŠ๊ฒŒ ์Œ“์Œ์œผ๋กœ์จ ImageNet ๋Œ€ํšŒ์—์„œ SOTA์˜ ์„ฑ๋Šฅ์„ ๊ฑฐ๋‘˜ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ์ฆ๋ช…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ๋Š” visual representation์—์„œ ๊นŠ์ด์˜ ์ค‘์š”์„ฑ์— ๋Œ€ํ•˜์—ฌ ๋‹ค์‹œ ํ•œ๋ฒˆ ํ™•์ธ์‹œ์ผœ์ค๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 4. 16์ธต VGGNet์˜ ์•„ํ‚คํ…์ฒ˜


References

  1. F. Perronnin et al., "Improving the Fisher Kernel for Large-Scale Image Classification," in ECCV, 2010
  2. A. Krizhevsky et al., "ImageNet Classification with Deep Convolutional Neural Networks," in NIPS, 2012
  3. A. Krizhevsky, "One Weird Trick for Parallelizing Convolutional Neural Networks," in CoRR, 2014
  4. D. Ciresan et al, "Flexible, High Performance Convolutional Neural Networks for Image Classification," in IJCAI, 2011
  5. P. Sermanet et al., "OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks," in ICLR, 2014
  6. M. D. Zeiler and R. Fergus, "Visualizing and Understanding Convolutional Networks," in CoRR, 2013
  7. C. Szegedy et al., "Going Deeper with Convolutions," in CoRR, 2014
  8. X. Glorot and Y. Bengio, "Understanding the Difficulty of Training Deep Feedfoward Neural Networks," in AISTATS, 2010

* ์ธ์šฉ๋œ ๋…ผ๋ฌธ์€ ๋” ์žˆ์ง€๋งŒ, ๋ณธ ์š”์•ฝ์—์„œ ์–ธ๊ธ‰ํ•œ ๋…ผ๋ฌธ๋งŒ์„ ์ •๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค.

* ๋ฒˆ์—ญ ์˜ค๋ฅ˜๋Š” ๋Œ“๊ธ€๋กœ ๋‚จ๊ฒจ์ฃผ์‹œ๋ฉด ์ˆ˜์ •ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.


์ฐธ๊ณ  ์ž๋ฃŒ

  1. ์กฐ์„ ์˜, ์‹ ๋ช…์ˆ™, "Deep Convolutional Neural Networks๋ฅผ ์ด์šฉํ•œ ๊ฐ์ฒด ๊ฒ€์ถœ ์„ฑ๋Šฅ์˜ ๋ฐœ์ „ ๋™ํ–ฅ," ๊ตญ๋ฐฉ๊ณผํ•™์—ฐ๊ตฌ์†Œ, 2017
  2. "VGG16 - Convolutional Network for Classification and Detection," https://neurohive.io/en/popular-networks/vgg16/, 2018

'์ธ๊ณต์ง€๋Šฅ ๋…ผ๋ฌธ ์š”์•ฝ > Deep Network' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

Going Deeper with Convolutions ์š”์•ฝ  (0) 2021.08.27