์ธ๊ณต์ง€๋Šฅ ๋…ผ๋ฌธ ์š”์•ฝ/Deep Network

Going Deeper with Convolutions ์š”์•ฝ

James Hwang๐Ÿ˜Ž 2021. 8. 27. 00:24
๐Ÿ“œ C. Szegedy et al., "Going Deeper with Convolutions", in CVPR, 2014

๋…ผ๋ฌธ 3์ค„ ์š”์•ฝ

  1. ๋ชจ๋ฐ”์ผ๊ณผ ์ž„๋ฒ ๋””๋“œ ์ƒ์—์„œ ์ž˜ ์ž‘๋™ํ•˜๊ธฐ ์œ„ํ•ด ์ปดํ“จํŒ… ์ž์›์„ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•ด์•ผ ํ•œ๋‹ค๋Š” ์š”๊ตฌ๊ฐ€ ๋†’์•„์กŒ๋‹ค.
  2. ์ฐจ์› ์ถ•์†Œ๋ฅผ ํ†ตํ•œ ๊ณ„์‚ฐ์–‘ ๊ฐ์†Œ์™€ ๋น„์„ ํ˜•์„ฑ ์ถ”๊ฐ€ ๋‘ ๊ฐ€์ง€๋ฅผ ๋ชฉ์ ์œผ๋กœ ์ธ์…‰์…˜ ๋ชจ๋“ˆ์„ ๋„์ž…ํ–ˆ๋‹ค.
  3. ์ธ์…‰์…˜ ๋ชจ๋“ˆ์„ ํ†ตํ•ด ์ปดํ“จํŒ… ๋น„์šฉ์€ ์ ๊ฒŒ ์ƒ์Šนํ•˜์ง€๋งŒ, ๋” ๊นŠ๊ณ  ๋„“์œผ๋ฉด์„œ ์„ฑ๋Šฅ๋„ ์ข‹์€ GoogLeNet์„ ๊ตฌ์ถ•ํ–ˆ๋‹ค.

Abstract

  ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) 2014์—์„œ ๋ถ„๋ฅ˜์™€ ํƒ์ง€ ๋ฌธ์ œ์—์„œ ์ข‹์€ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘” '์ธ์…‰์…˜(Inception)'์ด๋ผ๋Š” ์ด๋ฆ„์˜ deep convolution neural network architecture๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ธ์…‰์…˜์˜ ๋Œ€ํ‘œ์ ์ธ ํŠน์ง•์€ ์‹ ๊ฒฝ๋ง(neural network) ๋‚ด๋ถ€์˜ ์ปดํ“จํŒ… ์ž์›(computational resource)์„ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์‹ ์ค‘ํ•œ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ์ปดํ“จํ„ฐ์˜ ์—ฐ์‚ฐ ๋น„์šฉ์„ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ ์‹ ๊ฒฝ๋ง์˜ ๊นŠ์ด์™€ ๋„ˆ๋น„๋ฅผ ์ฆ๊ฐ€์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์•„ํ‚คํ…์ฒ˜(architecture)์˜ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด 'ํ—ค๋น„์•ˆ ์›์น™(Hebbian principle)'๊ณผ '๋ฉ€ํ‹ฐ ์Šค์ผ€์ผ ํ”„๋กœ์„ธ์‹ฑ(multi-scale processing)'์˜ ์ง๊ด€์— ๊ธฐ๋ฐ˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ILSVRC 2014์— ์ œ์ถœํ•œ ๋ชจ๋ธ์€ 'GoogLeNet'์ด๋ผ ํ•˜๋ฉฐ 22์ธต์˜ ๊นŠ์ด๋ฅผ ๊ฐ€์ง„ ๋„คํŠธ์›Œํฌ๋กœ, ๋ถ„๋ฅ˜์™€ ํƒ์ง€ ๋ฌธ์ œ์— ๋Œ€ํ•ด ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.


1. Introduction

  2012๋…„๋ถ€ํ„ฐ 3๋…„ ๋™์•ˆ, ๋”ฅ๋Ÿฌ๋‹๊ณผ convolution ๋„คํŠธ์›Œํฌ์˜ ๋ฐœ์ „์œผ๋กœ ๊ฐ์ฒด ํƒ์ง€(object detection)์™€ ๊ฐ์ฒด ๋ถ„๋ฅ˜(object classification) ๋ถ„์•ผ์˜ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ํ–ฅ์ƒํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ณ ๋ฌด์ ์ด์—ˆ๋˜ ๊ฒƒ์€ ๋‹จ์ˆœํžˆ '๋” ๊ฐ•๋ ฅํ•œ ํ•˜๋“œ์›จ์–ด'๋‚˜ '๋” ํฐ ๋ฐ์ดํ„ฐ์…‹(dataset)', '๋” ํฐ ๋ชจ๋ธ'์„ ์‚ฌ์šฉํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹Œ, '์ƒˆ๋กœ์šด ์•„์ด๋””์–ด'๋‚˜ '์•Œ๊ณ ๋ฆฌ์ฆ˜' ๊ทธ๋ฆฌ๊ณ  '๊ฐœ์„ ๋œ ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜'๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒฐ๊ณผ์˜€์Šต๋‹ˆ๋‹ค.

  ๋˜ํ•œ, ๋ชจ๋ฐ”์ผ๊ณผ ์ž„๋ฒ ๋””๋“œ(embedded) ์ƒ์—์„œ ์šด์˜ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํšจ์œจ์„ฑ, ํŠนํžˆ ์ „๋ ฅ๊ณผ ๋ฉ”๋ชจ๋ฆฌ์˜ ํšจ์œจ์ ์ธ ์‚ฌ์šฉ์ด ์ค‘์š”ํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ •ํ™•๋„(accuracy)์˜ ์ˆ˜์น˜๋ณด๋‹ค ํšจ์œจ์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์‹ฌ์ธต(deep) ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 1. ์˜ํ™” Inception์˜ ์ธํ„ฐ๋„ท ๋ฐˆ

  ๋ณธ ๋…ผ๋ฌธ์€ ์ปดํ“จํ„ฐ ๋น„์ „(Computer Vision, CV)์„ ์œ„ํ•œ ํšจ์œจ์ ์ธ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง(deep neural network)์˜ ์•„ํ‚คํ…์ฒ˜์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ '์ธ์…‰์…˜(Inception)'์€ Network-in-network [M. Lin et al., 2013]์™€ ์˜ํ™” ์ธ์…‰์…˜์—์„œ ๊ทธ ์ด๋ฆ„์„ ๋”ฐ์™”์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ 'deep'์ด๋ผ๋Š” ๋‹จ์–ด๋Š” ๋‘ ๊ฐ€์ง€์˜ ์˜๋ฏธ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. '์ธ์…‰์…˜ ๋ชจ๋“ˆ'์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•œ๋‹ค๋Š” ์˜๋ฏธ์™€ ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์ง„๋‹ค๋Š” ์ง์ ‘์ ์ธ ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.


2. Related Work

  LeNet [Y. LeCun, 1998]์„ ์‹œ์ž‘์œผ๋กœ Convolutional Neural Network (CNN)์€ ํ‘œ์ค€ ๊ตฌ์กฐ๋ฅผ ๊ฐ–๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ์ค€ ๊ตฌ์กฐ๋Š” ๋ˆ„์ ๋œ Convolution layer ๋’ค์— ํ•˜๋‚˜ ์ด์ƒ์˜ Fully-connected layer (FC layer)๊ฐ€ ์ด์–ด์ง€๋Š” ํ˜•ํƒœ๋ฅผ ๋งํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— contrast normalization๊ณผ max-pooling์„ ์—ฐ๊ฒฐํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ImageNet๊ณผ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜๋Š” ๊ฒฝ์šฐ, ๊ณ„์ธต(layer)์˜ ์ˆ˜์™€ ๋„ˆ๋น„๋ฅผ ๋Š˜๋ฆฌ๋ฉด์„œ ๋“œ๋กญ ์•„์›ƒ(dropout)์„ ํ†ตํ•ด ๊ณผ์ ํ•ฉ(overfitting) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์ด ์ถ”์„ธ์˜€์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 2. LeNet-5์˜ ์•„ํ‚คํ…์ฒ˜

  Max-pooling layer๊ฐ€ ์ •ํ™•ํ•œ ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ์ƒ์‹คํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค๋Š” ์šฐ๋ ค์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , AlexNet [A. krizhevsk et al., 2012]์€ ์œ„์น˜ ์‹๋ณ„(localization)๊ณผ ๊ฐ์ฒด ํƒ์ง€, ์‚ฌ๋žŒ์˜ ์ž์„ธ๋ฅผ ์ถ”์ •(human pose estimation)ํ•˜๋Š” ๋ฌธ์ œ์—์„œ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

  ์˜์žฅ๋ฅ˜ ์‹œ๊ฐ ํ”ผ์งˆ(primate visual cortex)์— ๋Œ€ํ•œ ์‹ ๊ฒฝ ๊ณผํ•™ ๋ชจ๋ธ์—์„œ ์˜๊ฐ์„ ์–ป์€ Serre ์—ฐ๊ตฌ์ง„์€ ๋‹ค์–‘ํ•œ ๊ทœ๋ชจ์˜ ์ด๋ฏธ์ง€๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ๊ณ ์ •๋œ Gabor ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋„ ์ด์™€ ๋น„์Šทํ•œ ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ธ์…‰์…˜ ์•„ํ‚คํ…์ฒ˜์˜ ๋ชจ๋“  ํ•„ํ„ฐ๊ฐ€ ํ•™์Šต๋˜์—ˆ๋‹ค๋Š” ์ ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ๋˜ํ•œ, GoogLeNet ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ์ธ์…‰์…˜ ๊ณ„์ธต์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•˜์—ฌ 22์ธต์˜ ์‹ฌ์ธต ๋ชจ๋ธ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  Lin ์—ฐ๊ตฌ์ง„์—์„œ ์ œ์‹œํ•œ Network-in-network (NIN)๋Š” ์‹ ๊ฒฝ๋ง์˜ ํ‘œํ˜„๋ ฅ(representational power of neural networks)์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ทธ๋“ค์€ $ 1\times1 $ convolution layer๋ฅผ ๋„คํŠธ์›Œํฌ์— ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊นŠ์ด๋ฅผ ์ฆ๊ฐ€์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” $ 1\times1 $ convolution layer๋ฅผ 2๊ฐ€์ง€ ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ชฉ์ ์€ ์ปดํ“จํŒ… ๋ณ‘๋ชฉ ํ˜„์ƒ(bottleneck)์„ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๋ชจ๋“ˆ๋กœ ์ด์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ์˜ ํฌ๊ธฐ๊ฐ€ ์ œํ•œ๋˜๋Š” ๊ฒƒ์„ ๋ง‰์•˜์Šต๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋ชฉ์ ์€ ํฐ ์„ฑ๋Šฅ์˜ ์ €ํ•˜ ์—†์ด ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด์™€ ๋„ˆ๋น„๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

  2014๋…„ ๊ฐ์ฒด ํƒ์ง€ ๋ฌธ์ œ์˜ state-of-the-art (SOTA) ์—ฐ๊ตฌ๋Š” Girshick ์—ฐ๊ตฌ์ง„์˜ Regions with Convolutional Neural Network (R-CNN) [R. B. Girshick et al., 2014]์ด์—ˆ์Šต๋‹ˆ๋‹ค. R-CNN์€ ํƒ์ง€ ๋ฌธ์ œ๋ฅผ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ๋ถ„ํ•ดํ–ˆ์Šต๋‹ˆ๋‹ค.

  1. ์ƒ‰์ƒ(color)๊ณผ ์งˆ๊ฐ(texture) ๊ฐ™์€ ๋‚ฎ์€ ์ˆ˜์ค€์˜ ํŠน์ง•(low-level feature)์„ ํ™œ์šฉํ•˜์—ฌ ์นดํ…Œ๊ณ ๋ฆฌ์— ์ œํ•œ๋˜์ง€ ์•Š๋Š” ๋ฐฉ์‹(category-agnostic fashion)์œผ๋กœ ๊ฐ์ฒด์˜ ์œ„์น˜์— ๋Œ€ํ•œ ์ œ์•ˆ(location proposal)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  2. CNN ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ œ์•ˆํ•œ ์œ„์น˜์˜ ๊ฐ์ฒด์— ๋Œ€ํ•˜์—ฌ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๋ถ„๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค.

  ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ์ฒด ํƒ์ง€ ๋ฌธ์ œ์—์„œ ํ•ด๋‹น ์—ฐ๊ตฌ์™€ ์œ ์‚ฌํ•œ ํŒŒ์ดํ”„ ๋ผ์ธ์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ฒฝ๊ณ„ ์ƒ์ž(bounding box)์˜ ๋†’์€ ์žฌํ˜„์œจ(recall)์„ ์œ„ํ•œ Multi-box ์˜ˆ์ธก ๋ฐฉ๋ฒ•๊ณผ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ์ œ์•ˆ์„ ๋ณด๋‹ค ์ž˜ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•œ ์•™์ƒ๋ธ” ๋ฐฉ๋ฒ•, ์ด ๋‘ ๋‹จ๊ณ„๋ฅผ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์—์„œ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 3. VGGNet-13(์œ„)๊ณผ AlexNet(์•„๋ž˜)์˜ ์•„ํ‚คํ…์ฒ˜


3. Motivation and High Level Considerations

  ์‹ฌ์Šน ์‹ ๊ฒฝ๋ง์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์€ ๊ทธ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊นŠ์ด(๋„คํŠธ์›Œํฌ์˜ ๊ณ„์ธต ์ˆ˜)์™€ ๋„ˆ๋น„(๊ฐ ๊ณ„์ธต์˜ ์œ ๋‹› ์ˆ˜)๋ฅผ ๋ชจ๋‘ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ์ด ๊ฐ„๋‹จํ•œ ํ•ด๊ฒฐ์ฑ…์—๋Š” ์•„๋ž˜์˜ ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 4-a. ์‹œ๋ฒ ๋ฆฌ์•ˆ ํ—ˆ์Šคํ‚ค                              ๊ทธ๋ฆผ 4-b ์—์Šคํ‚ค๋ชจ ๋„๊ทธ

  1. ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ํฌ๋‹ค๋Š” ๊ฒƒ์€ ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜(parameter)๋ฅผ ๊ฐ€์ง„๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋„คํŠธ์›Œํฌ๊ฐ€ ๋” ์‰ฝ๊ฒŒ ๊ณผ์ ํ•ฉํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ˜„์ƒ์€ ํŠนํžˆ ๋ผ๋ฒจ๋ง๋œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ์–‘์ด ์ ์„ ๋•Œ ๋” ์ž˜ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ž˜ ๋ผ๋ฒจ๋ง๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌํ•˜๊ธฐ ์–ด๋ ต๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ธฐ ๋•Œ๋ฌธ์— ์ƒ๊ฒจ๋‚œ ๋ณ‘๋ชฉ ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ „๋ฌธ ์ธ๋ ฅ์ด๋”๋ผ๋„ ๊ทธ๋ฆผ 4์˜ ImageNet ์ด๋ฏธ์ง€๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๋ถ„๋ฅ˜ํ•˜๊ธฐ๋Š” ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  2. ๋„คํŠธ์›Œํฌ์˜ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ปดํ“จํŒ… ์ž์›์ด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์€ ํ•ญ์ƒ ํ•œ์ •์ ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ฒƒ์ด ์ฃผ๋œ ๋ชฉ์ ์ด๋”๋ผ๋„, ์ปดํ“จํŒ… ์ž์›์„ ํšจ์œจ์ ์œผ๋กœ ๋ถ„๋ฐฐํ•˜๋Š” ๊ฒƒ์ด ๋„คํŠธ์›Œํฌ์˜ ํฌ๊ธฐ๋ฅผ ๋ฌด๋ถ„๋ณ„ํ•˜๊ฒŒ ํ‚ค์šฐ๋Š” ๊ฒƒ๋ณด๋‹ค ๋ฐ”๋žŒ์งํ•ฉ๋‹ˆ๋‹ค.

  ์œ„ ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๊ทผ๋ณธ์ ์ธ ๋ฐฉ๋ฒ•์€ FC layer๋‚˜ convolution layer ๋‚ด๋ถ€๋ฅผ ํฌ์†Œ ์ธต(spares layer)์œผ๋กœ ๊ต์ฒดํ•˜์—ฌ ํฌ์†Œ์„ฑ(sparsity)์„ ๋ถ€์—ฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ƒ๋ฌผํ•™์  ์‹œ์Šคํ…œ์„ ๋ชจ๋ฐฉํ–ˆ๋‹ค๋Š” ๊ฒƒ ์™ธ์—๋„ Arora ์—ฐ๊ตฌ์ง„์˜ ์—ฐ๊ตฌ๋กœ๋ถ€ํ„ฐ ๊ฒฌ๊ณ ํ•œ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. Arora ์—ฐ๊ตฌ์ง„์˜ ์ฃผ์š” ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์…‹์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ํฌ์†Œํ•˜๊ณ  ํฐ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์•ž์„  ๊ณ„์ธต์˜ ํ™œ์„ฑํ™” ๊ฐ’๋“ค์˜ ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ƒ๊ด€ ๊ด€๊ณ„๊ฐ€ ๋†’์€ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ง„ ๋‰ด๋Ÿฐ๋“ค์„ ๊ตฐ์ง‘ํ™”(clustering)ํ•จ์œผ๋กœ์จ ์ตœ์ ํ™”๋œ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ˆ˜ํ•™์  ์ฆ๋ช…์œผ๋กœ ๋งค์šฐ ์—„๊ฒฉํ•œ ์กฐ๊ฑด๋“ค์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ—ค๋น„์•ˆ ๋ฒ•์น™์˜ '๋™์‹œ์— ํ™œ์„ฑํ™”๋œ ๋‰ด๋Ÿฐ์€ ์„œ๋กœ ์—ฐ๊ด€์ด ์žˆ๋‹ค'๋Š” ์‚ฌ์‹ค์„ ๋– ์˜ฌ๋ ค ๋ณด๋ฉด, ์‹ค์ œ๋กœ๋Š” ๋œ ์—„๊ฒฉํ•œ ์กฐ๊ฑด์—์„œ๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  ์•ˆํƒ€๊น๊ฒŒ๋„ ์˜ค๋Š˜๋‚ ์˜ ์ปดํ“จํŒ… ์ธํ”„๋ผ๋Š” ๋ถˆ๊ท ์ผํ•˜๊ณ  ํฌ์†Œํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ๋งค์šฐ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ์‹ฌ์ง€์–ด ํฌ์†Œ์„ฑ์„ ๋„์ž…ํ•˜์—ฌ ๊ณ„์‚ฐ ์ˆ˜๋ฅผ 100๋ฐฐ ๊ฐ์†Œํ•˜๋”๋ผ๋„, ์กฐํšŒ์™€ ์บ์‹œ ๋ˆ„๋ฝ(cache miss)์˜ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์••๋„์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ํฌ์†Œ ํ–‰๋ ฌ(sparse matrix)๋กœ ์ „ํ™˜ํ•˜๋Š” ํšจ๊ณผ๋Š” ๊ฑฐ์˜ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ท ์ผํ•˜์ง€ ์•Š์€ ํฌ์†Œ ๋ชจ๋ธ์€ ๋” ๋ณต์žกํ•œ ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ์ปดํ“จํŒ… ์ธํ”„๋ผ๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” ๋Œ€์นญ์„ฑ์„ ๊นจ๊ณ  ํ•™์Šต์„ ํ–ฅ์ƒํ•˜๊ธฐ ์œ„ํ•ด ํŠน์ง• ์ฐจ์›์—์„œ ๋žœ๋คํ•˜๊ฑฐ๋‚˜ sparse connection ํ…Œ์ด๋ธ”์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ถ”์„ธ์˜€์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ณ‘๋ ฌ ์—ฐ์‚ฐ์— ๋” ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด AlexNet์ฒ˜๋Ÿผ full connection์„ ์ด์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋‹ค์‹œ ๋ฐ”๋€Œ์—ˆ์Šต๋‹ˆ๋‹ค2014๋…„ CV ๋ถ„์•ผ์˜ SOTA ์•„ํ‚คํ…์ฒ˜๋“ค์€ ์ปดํ“จํŒ… ์ธํ”„๋ผ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๊ท ์ผํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ–๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋งŽ์€ ์ˆ˜์˜ ํ•„ํ„ฐ์™€ ํฐ ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ์—์„œ๋„ ํšจ์œจ์ ์ธ ์กฐ๋ฐ€ ์—ฐ์‚ฐ(dense computation)์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ๊ณ ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

  ์ด๋Š” ์กฐ๋ฐ€ ํ–‰๋ ฌ์ด ์—ฐ์‚ฐ์— ์ ํ•ฉํ•œ ํ•˜๋“œ์›จ์–ด๋ฅผ ํ™œ์šฉํ•œ๋‹ค๋Š” ์กฐ๊ฑด์—์„œ, ์•ž์„œ ์ด๋ก ์—์„œ ์ œ์‹œํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ํ•„ํ„ฐ ์ˆ˜์ค€๊ณผ ๊ฐ™์€ ์ค‘๊ฐ„ ๋‹จ๊ณ„์—์„œ ํฌ์†Œ์„ฑ์„ ์ด์šฉํ•  ๋ฐฉ๋ฒ•์ด ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์˜๋ฌธ์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค. ํฌ์†Œ ํ–‰๋ ฌ์˜ ์—ฐ์‚ฐ(sparse matrix computation)๊ณผ ๊ด€๋ จ๋œ ์—ฐ๊ตฌ๋“ค์€ ํฌ์†Œ ํ–‰๋ ฌ์„ ๊ตฐ์ง‘ํ™”ํ•˜์—ฌ ์ƒ๋Œ€์ ์œผ๋กœ ์กฐ๋ฐ€ํ•œ ํ•˜์œ„ ํ–‰๋ ฌ(dense submatrix)์„ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์ด ํฌ์†Œ ํ–‰๋ ฌ๊ณฑ(sparse matrix multiplication)์—์„œ ๋” ๊ดœ์ฐฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์€ ๊ฐ€๊นŒ์šด ๋ฏธ๋ž˜์— ๋ถˆ๊ท ์ผํ•œ ๋”ฅ๋Ÿฌ๋‹ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ž๋™์œผ๋กœ ๊ตฌ์ถ•ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ ์œ ์‚ฌํ•˜๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  ์ธ์…‰์…˜์€ ํฌ์†Œ ๊ตฌ์กฐ(sparse structure)์— ๋Œ€ํ•œ ๊ทผ์‚ฌํ™”๋ฅผ ํฌํ•จํ•˜์—ฌ ์กฐ๋ฐ€ํ•˜๋ฉด์„œ๋„ ์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ •๊ตํ•˜๊ฒŒ ์„ค๊ณ„๋œ ๋„คํŠธ์›Œํฌ ์œ„์ƒ ๊ตฌ์ถ•(network topology construction) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ‰๊ฐ€ํ•˜๋Š” ์‚ฌ๋ก€ ์—ฐ๊ตฌ์—์„œ ์‹œ์ž‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ถ”์ธก์— ๊ทผ๊ฑฐํ–ˆ๋˜ ํ”„๋กœ์ ํŠธ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  NIN์— ๊ธฐ๋ฐ˜ํ•œ ๊ธฐ์กด์˜ ๋„คํŠธ์›Œํฌ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, ์กฐ๊ธฐ์— ์„ฑ๋Šฅ์ด ์กฐ๊ธˆ ๋” ํ–ฅ์ƒ๋œ ๊ฒƒ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ดํ›„ ์•ฝ๊ฐ„์˜ ํŠœ๋‹์œผ๋กœ ๊ฒฉ์ฐจ๊ฐ€ ๋” ๋ฒŒ์–ด์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ธ์…‰์…˜์„ R-CNN๊ณผ Scalable object detection [D. Erhan et al., 2014]์˜ ๊ธฐ์ดˆ ๋„คํŠธ์›Œํฌ๋กœ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ, ๊ฐ์ฒด ์œ„์น˜ ์‹๋ณ„๊ณผ ๊ฐ์ฒด ํƒ์ง€ ๋ฌธ์ œ์—์„œ ํŠนํžˆ ์œ ์šฉํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.


4. Architectural Details

  ์ธ์…‰์…˜์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ตœ์ ์˜ ์ง€์—ญ์  ํฌ์†Œ ๊ตฌ์กฐ(optimal local sparse structure)๋กœ ๊ทผ์‚ฌํ™”ํ•˜๊ณ  ์ด๋ฅผ ์‰ฝ๊ฒŒ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์กฐ๋ฐ€ํ•œ ๊ตฌ์„ฑ ์š”์†Œ(dense component)๋กœ ๊ตฌ์„ฑํ• ์ง€์— ๋Œ€ํ•œ ๋ฐฉ๋ฒ•์„ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ตœ์ ์˜ ์ง€์—ญ ๊ตฌ์กฐ(optimal local structure)๋ฅผ ์ฐพ๊ณ  ์ด๋ฅผ ๊ณต๊ฐ„์ ์œผ๋กœ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค. Arora ์—ฐ๊ตฌ์ง„์€ ๋งˆ์ง€๋ง‰ ๊ณ„์ธต์˜ ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„์˜ ์œ ๋‹›๋“ค์„ ๊ตฐ์ง‘ํ™”ํ•˜๋Š” ๋ฐฉ์‹์˜ layer-by-layer ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ตฐ์ง‘๋“ค์€ ๋‹ค์Œ ๊ณ„์ธต์˜ ์œ ๋‹›์œผ๋กœ ๊ตฌ์„ฑ๋˜๊ณ  ์ด์ „ ๊ณ„์ธต์˜ ์œ ๋‹›๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด์ „ ๊ณ„์ธต์˜ ๊ฐ ์œ ๋‹›์ด ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ์ผ๋ถ€ ์˜์—ญ์— ํ•ด๋‹นํ•˜๋ฉฐ, ์ด๋“ค์€ ํ•„ํ„ฐ ๋ฑ…ํฌ(filter bank)๋ผ๋Š” ๊ทธ๋ฃน์œผ๋กœ ๋งŒ๋“ค์–ด์ง„๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์œ„ ๊ณ„์ธต(์ž…๋ ฅ๊ณผ ๊ฐ€๊นŒ์šด ๊ณ„์ธต)์—์„œ๋Š” ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์€ ์œ ๋‹›๋“ค์ด ๋กœ์ปฌ ์˜์—ญ์— ์ง‘์ค‘๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ•œ ์˜์—ญ์— ๋งŽ์€ ๊ตฐ์ง‘๋“ค์ด ์ง‘์ค‘๋œ๋‹ค๋Š” ๋œป์ด๊ธฐ์— NIN์—์„œ ์ œ์•ˆํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ๋‹ค์Œ ๊ณ„์ธต์—์„œ $ 1\times1 $ convolution layer๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ์…‰์…˜ ์•„ํ‚คํ…์ฒ˜๋Š” ํŒจ์น˜ ์ •๋ ฌ(patch-alignment) ๋ฌธ์ œ๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ํ•„ํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ $ 1\times1 $, $ 3\times3 $, $ 5\times5 $๋กœ ์ œํ•œํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ œ์•ˆํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋Š” ๋‹ค์Œ ๊ณ„์ธต์˜ ์ž…๋ ฅ๊ฐ’์„ ๊ตฌ์„ฑํ•˜๋Š” ์ถœ๋ ฅ ํ•„ํ„ฐ ๋ฑ…ํฌ(output filter bank)๋กœ ๊ตฌ์„ฑ๋œ ๊ณ„์ธต์˜ ์กฐํ•ฉ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ถœ๋ ฅ ํ•„ํ„ฐ ๋ฑ…ํฌ๋Š” ๋‹จ์ผ ์ถœ๋ ฅ ๋ฒกํ„ฐ๋ฅผ ํ•ฉ์นœ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, pooling ์ž‘์—…์ด convolution ๋„คํŠธ์›Œํฌ์˜ ์„ฑ๊ณต์„ ์œ„ํ•ด ํ•„์ˆ˜์ ์ด์—ˆ๊ธฐ์—, ๊ฐ ๋‹จ๊ณ„์— ๋ณ‘๋ ฌ pooling ๊ฒฝ๋กœ๋ฅผ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ์ข‹์€ ์˜ํ–ฅ์„ ๋”ํ•ด์ค๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 5. ํ•„ํ„ฐ ๋ฑ…ํฌ๊ฐ€ ์ ์šฉ๋˜๋Š” ๊ณผ์ •

  ์ธ์…‰์…˜ ๋ชจ๋“ˆ์„ ์Œ“์•„ ์˜ฌ๋ฆฌ๋ฉด ์ถœ๋ ฅ๊ฐ’์˜ ์ƒ๊ด€๊ด€๊ณ„๋Š” ๋งค๋ฒˆ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋†’์€ ๊ณ„์ธต(์ถœ๋ ฅ๊ณผ ๊ฐ€๊นŒ์šด ๊ณ„์ธต)์€ ๋†’์€ ์ˆ˜์ค€์œผ๋กœ ์ถ”์ƒํ™”๋œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋ฏ€๋กœ ๊ณต๊ฐ„ ์ง‘์ค‘๋„(spatial concentration)๊ฐ€ ๋–จ์–ด์งˆ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ $ 3\times3 $๊ณผ $ 5\times5 $ convolution layer์˜ ๋น„์œจ์€ ๋†’์€ ๊ณ„์ธต์œผ๋กœ ๊ฐˆ์ˆ˜๋ก ์ฆ๊ฐ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

  ์ธ์…‰์…˜ ๋ชจ๋“ˆ์˜ ํ•œ ๊ฐ€์ง€ ํฐ ๋ฌธ์ œ๋Š” ๋‹จ์ˆœํ•œ ํ˜•ํƒœ(naiive version)์—์„œ๋„ ํ•„ํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด $ 5\times5 $ convolution layer๋ฅผ ์ ์€ ์ˆ˜๋กœ ์Œ“๋”๋ผ๋„ ๊ณ„์‚ฐ์–‘์ด ๋งค์šฐ ์ปค์ง„๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. pooling ์œ ๋‹›์„ ์ถ”๊ฐ€ํ•˜๋ฉด ์ด ๋ฌธ์ œ๊ฐ€ ๋” ๋šœ๋ ทํ•˜๊ฒŒ ๋“œ๋Ÿฌ๋‚ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ถœ๋ ฅ๊ฐ’์˜ ์ฑ„๋„ ์ˆ˜๊ฐ€ ์ด์ „ ๊ณ„์ธต์˜ ํ•„ํ„ฐ์ˆ˜์™€ ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์— ์ƒ๊ธด ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜๋Š” ์ตœ์ ์˜ ํฌ์†Œ ๊ตฌ์กฐ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋งค์šฐ ๋น„ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰๋˜์–ด ๋ช‡ ๋‹จ๊ณ„๋งŒ์— ์ปดํ“จํŒ… ์ž์›์„ ํ„ฐํŠธ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  ์ด๋Š” ์ธ์…‰์…˜์˜ ๋‘ ๋ฒˆ์งธ ์•„์ด๋””์–ด๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค. ์ปดํ“จํŒ… ์š”๊ตฌ์‚ฌํ•ญ์ด ๋„ˆ๋ฌด ๋งŽ์ด ์ฆ๊ฐ€ํ•  ๊ฒฝ์šฐ, ๋ฐ˜๋Œ€๋กœ ์ฐจ์›์„ ์ถ•์†Œํ•˜์ž๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค. ๋‚ฎ์€ ์ฐจ์›์˜ ์ž„๋ฒ ๋”ฉ์€ ์ƒ๋Œ€์ ์œผ๋กœ ํฐ ์ด๋ฏธ์ง€ ํŒจ์น˜์— ๋Œ€ํ•ด ๋งŽ์€ ์ •๋ณด๋ฅผ ํฌํ•จํ•œ๋‹ค๋Š” ์„ฑ๊ณต์ ์ธ ์ž„๋ฒ ๋”ฉ์— ๊ธฐ๋ฐ˜ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ์ด๋Ÿฌํ•œ ์ž„๋ฒ ๋”ฉ์€ ์กฐ๋ฐ€ํ•œ ์ •๋ณด๋กœ ํ˜•ํƒœ์™€ ์ •๋ณด๋ฅผ ์••์ถ•ํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์— ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ค์›Œ์ง„๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Arora ์—ฐ๊ตฌ์ง„์˜ ์กฐ๊ฑด์— ๋”ฐ๋ฅด๋ฉด, ์••์ถ•๋œ ํ‘œํ˜„์€ ๋Œ€๋ถ€๋ถ„์˜ ์˜์—ญ์—์„œ ํฌ์†Œํ•˜๊ฒŒ ์œ ์ง€๋˜์–ด์•ผ ํ•˜๋ฉฐ ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋งŒ ์‹ ํ˜ธ๋ฅผ ์••์ถ•ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, $ 1\times1 $ convolution์ด ๊ณ„์‚ฐ์–‘์ด ํฐ $ 3\times3 $๊ณผ $ 5\times5 $ convolution์ด์ „์— ์‚ฌ์šฉ๋˜์–ด ์ฐจ์›์„ ์ถ•์†Œํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ์–‘์ด ๊ฐ์†Œํ•˜๋Š” ํšจ๊ณผ ์™ธ์—๋„ ReLU (Recified Linear Unit)๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋น„์„ ํ˜•์„ฑ์„ ๋”ํ•ด์ฃผ๋Š” ํšจ๊ณผ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ตœ์ข… ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜์˜ ๊ทธ๋ฆผ 6์œผ๋กœ ๋ฌ˜์‚ฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 6. ์ธ์…‰์…˜ ๋ชจ๋“ˆ์˜ ๊ตฌ์กฐ

  ์ธ์…‰์…˜์€ ๊ทธ๋ฆผ 6์ฒ˜๋Ÿผ ๋ชจ๋“ˆ๋“ค์„ ์Œ“์•„์„œ ๊ตฌ์„ฑํ•œ ๋„คํŠธ์›Œํฌ์ด๋ฉฐ, ๊ฐ„ํ˜น ๊ทธ๋ฆฌ๋“œ(grid)์˜ ํ•ด์ƒ๋„(resolution)๋ฅผ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ด๊ธฐ ์œ„ํ•ด ์ŠคํŠธ๋ผ์ด๋“œ(stride)๊ฐ€ 2์ธ max-pooling์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด ๋‚ฎ์€ ๊ณ„์ธต์—์„œ๋Š” ๊ธฐ์กด์˜ convolution ๋ฐฉ์‹์„ ์œ ์ง€ํ•˜๊ณ  ๋†’์€ ๊ณ„์ธต์—์„œ๋งŒ ์ธ์…‰์…˜ ๋ชจ๋“ˆ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•„์ˆ˜์ ์ธ ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ๋น„ํšจ์œจ์ ์ธ ์ธํ”„๋ผ๋ฅผ ๋ฐ˜์˜ํ•œ ๊ฒƒ ๋ฟ์ž…๋‹ˆ๋‹ค.

  ์ธ์…‰์…˜์˜ ์œ ์šฉํ•œ ์ ์€ ํ›„๋ฐ˜๋ถ€์˜ ๊ณ„์ธต์—์„œ๋„ ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ ์ œ์–ด ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฒŒ ์ปค์ง€์ง€ ์•Š์œผ๋ฉด์„œ, ๊ฐ ๊ณ„์ธต์˜ ์œ ๋‹› ์ˆ˜๋ฅผ ํฌ๊ฒŒ ๋Š˜๋ฆด ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํฐ ํฌ๊ธฐ์˜ ํŒจ์น˜๋กœ ์ธํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์ด ํฐ convolution layer ์ด์ „์— ์ฐจ์›์„ ์ถ•์†Œํ•จ์œผ๋กœ์จ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด ์„ค๊ณ„๋Š” ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ๋‹ค์–‘ํ•œ ์ฒ™๋„๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ข…ํ•ฉํ•จ์œผ๋กœ์จ, ๋‹ค์Œ ๊ณ„์ธต์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ์ฒ™๋„๋กœ๋ถ€ํ„ฐ ํŠน์„ฑ์„ ๋™์‹œ์— ์ถ”์ƒํ™”ํ•œ๋‹ค๋Š” ์‹ค๋ฌด์ ์ธ ์ง๊ด€์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

  ์ปดํ“จํŒ… ์ž์›์„ ๊ฐœ์„ ํ•œ ์ด ๋ฐฉ๋ฒ•์€ ์–ด๋ ค์›€ ์—†์ด ๊ณ„์ธต์˜ ๊นŠ์ด๋‚˜ ๋„ˆ๋น„๋ฅผ ๋Š˜๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ธ์…‰์…˜์„ ํ™œ์šฉํ•˜๋ฉด ๋‹ค์†Œ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€์ง€๋งŒ, ๊ณ„์‚ฐ์–‘์€ ๋” ์ ์œผ๋ฉด์„œ ๊นŠ๊ณ  ๋„“์€ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


5. GoogLeNet

  'GoogLeNet'์€ ILSVRC 2014 ๋Œ€ํšŒ์— ์ œ์ถœํ•œ ๋ชจ๋ธ๋กœ, ์ธ์…‰์…˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์•ฝ๊ฐ„ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง„ ๋” ๊นŠ๊ณ  ๋„“์€ ์ธ์…‰์…˜ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ์ด๋ฅผ ์•™์ƒ๋ธ”ํ–ˆ์„ ๋•Œ๋Š” ์•ฝ๊ฐ„์˜ ์„ฑ๋Šฅ๋งŒ์ด ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ •ํ™•ํ•œ ๊ตฌ์กฐ์  ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์˜ํ–ฅ์ด ์ƒ๋Œ€์ ์œผ๋กœ ๋ฏธ๋ฏธํ•˜๋‹ค๋Š” ๊ฒฝํ—˜์  ์ฆ๊ฑฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋„คํŠธ์›Œํฌ์˜ ์„ธ๋ถ€ ์ •๋ณด๋Š” ์ƒ๋žตํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜์˜ ํ‘œ 1์€ ๋Œ€ํšŒ์—์„œ ์‚ฌ์šฉํ•œ ์ผ๋ฐ˜์ ์ธ GoogLeNet์˜ ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€ ํŒจ์น˜ ์ƒ˜ํ”Œ๋ง ๋ฐฉ๋ฒ•์œผ๋กœ ํ•™์Šต๋œ ๋„คํŠธ์›Œํฌ๋“ค์˜ 7๊ฐœ ๊ฐ€์šด๋ฐ 6๊ฐœ์˜ ๋ชจ๋ธ์ด ์•™์ƒ๋ธ”์— ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ‘œ 1. GoogLeNet์˜ ๊ตฌ์กฐ

  ์ธ์…‰์…˜ ๋ชจ๋“ˆ์„ ํฌํ•จํ•œ ๋ชจ๋“  convolution layer๋Š” ReLU๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. receptive field์˜ ํฌ๊ธฐ๋Š” $ 224\times224 $๋กœ RGB ์ƒ‰ ์ฑ„๋„์„ ๊ฐ€์ง€๋ฉฐ zero-mean์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. '#$ 3\times3 $ reduce'์™€ "#$ 5\times5 $ reduce'๋Š” $ 3\times3 $๊ณผ $ 5\times5 $ convolution layer ์ด์ „์— ์‚ฌ์šฉ๋œ reduction layer์˜ $ 1\times1 $ ํ•„ํ„ฐ์˜ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. 'pool proj' ์—ด์€ max-pooling ์ดํ›„์— ๋”ฐ๋ผ์˜ค๋Š” projection layer์˜ $ 1\times1 $ ํ•„ํ„ฐ์˜ ๊ฐœ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋ชจ๋“  reduction/projection layer์—๋Š” ReLU๊ฐ€ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

  ๋„คํŠธ์›Œํฌ๋Š” ์—ฐ์‚ฐ ํšจ์œจ์„ฑ๊ณผ ์‹ค์šฉ์„ฑ์„ ์—ผ๋‘์— ๋‘๊ณ  ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ๋ฅผ ํฌํ•จํ•ด, ์ปดํ“จํŒ… ์ž์›์ด ์ œํ•œ๋œ ๊ธฐ๊ธฐ๋“ค์—์„œ๋„ ์ถ”๋ก (inference)์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋„คํŠธ์›Œํฌ์— linear layer๋ฅผ ์ถ”๊ฐ€ํ–ˆ์Œ์—๋„ ๋ถ„๋ฅ˜๊ธฐ ์ด์ „์— 'avg pool'์„ ์‚ฌ์šฉํ•œ ๊ฒƒ์€ NIN์„ ๋”ฐ๋ฅธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. linear layer๋Š” ๋„คํŠธ์›Œํฌ๋ฅผ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์— ์‰ฝ๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์€ ํŠน์ • ํšจ๊ณผ๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๊ธฐ๋ณด๋‹ค๋Š” ํŽธ์˜์ƒ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. FC layer๋ฅผ avg pool layer๋กœ ๋ฐ”๊พธ๋ฉด ์ƒ์œ„ 1๊ฐœ์˜ ์ •ํ™•๋„(top-1 accuracy)๊ฐ€ ์•ฝ 0.6% ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. FC layer๋ฅผ ์ œ๊ฑฐํ•œ ํ›„์—๋„ ๋“œ๋กญ์•„์›ƒ์€ ํ•„์ˆ˜์ ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  ๋„คํŠธ์›Œํฌ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๊นŠ์–ด์ง€๋ฉด์„œ ๋ชจ๋“  ๊ณ„์ธต์„ ํ†ตํ•ด ๊ธฐ์šธ๊ธฐ๊ฐ€ ํšจ๊ณผ์ ์œผ๋กœ ์—ญ์ „ํŒŒ(propagate gradients back)ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ค‘์š”ํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ๊ฐ™์€ ๋ฌธ์ œ์—์„œ ์–•์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋” ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒƒ์€ ๋„คํŠธ์›Œํฌ ์ค‘๊ฐ„์—์„œ ์ƒ์„ฑ๋˜๋Š” ํŠน์„ฑ๋“ค์ด ์‹๋ณ„์„ฑ์ด ๋†’์•„์•ผ ํ•จ์„ ์‹œ์‚ฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” '๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ(auxiliary classifier)'๋ฅผ ์ค‘๊ฐ„ ๊ณ„์ธต์— ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ, ๋‚ฎ์€ ๊ณ„์ธต์—์„œ ์‹๋ณ„์„ฑ์„ ๋ถ€์—ฌํ•˜๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ทœ์ œํ™”(Regularization)์˜ ํšจ๊ณผ์™€ ํ•จ๊ป˜ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(vanishing gradient) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ด์—ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ์˜ ์˜ค์ฐจ์— ๊ฐ€์ค‘์น˜๋ฅผ ์ ์šฉํ•˜์—ฌ ๋„คํŠธ์›Œํฌ์— ์ „์ฒด ์†์‹ค์— ๋”ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ์˜ ์˜ค์ฐจ์— 0.3์„ ๊ณฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ถ”๋ก  ๊ณผ์ •์—์„œ๋Š” ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค. ๋Œ€์กฐ๊ตฐ ์‹คํ—˜์—์„œ ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ์˜ ํšจ๊ณผ๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋ฏธ๋ฏธ(์•ฝ 0.5% ์„ฑ๋Šฅ ํ–ฅ์ƒ)ํ•˜๋ฉฐ ํ•˜๋‚˜์˜ ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ๋งŒ ์กด์žฌํ•˜์—ฌ๋„ ๋™์ผํ•œ ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํฌํ•จํ•œ ์ถ”๊ฐ€์ ์ธ ๋„คํŠธ์›Œํฌ์˜ ์ •ํ™•ํ•œ ๊ตฌ์กฐ๋Š” ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • average pooling layer๋Š” ํ•„ํ„ฐ ํฌ๊ธฐ๊ฐ€ $ 5\times5 $์ด๊ณ  ์ŠคํŠธ๋ผ์ด๋“œ๊ฐ€ 3์ž…๋‹ˆ๋‹ค. (4a)๋Š” $ 4\times4\times512 $๋ฅผ ์ถœ๋ ฅํ•˜๊ณ  (4d)๋Š” $ 4\times4\times528 $์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.
  • $ 1\times1 $ convolution layer(128 ํ•„ํ„ฐ)๋ฅผ ์ฐจ์› ์ถ•์†Œ์™€ ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
  • FC layer๋Š” 1024๊ฐœ์˜ ์œ ๋‹›์„ ๊ฐ€์กŒ์œผ๋ฉฐ ReLU๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋“œ๋กญ์•„์›ƒ์„ 0.7 ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • linear layer์— ์†ŒํฌํŠธ๋งฅ์Šค(softmax)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค(์ฃผ ๋ถ„๋ฅ˜๊ธฐ์™€ ๋™์ผํ•œ 1000๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ์˜ˆ์ธก. ์ถ”๋ก  ์‹œ์—๋Š” ์ œ๊ฑฐํ•จ).

์ตœ์ข…์ ์œผ๋กœ ๊ตฌ์ถ•ํ•œ ๋„คํŠธ์›Œํฌ๋Š” ์•„๋ž˜์˜ ๊ทธ๋ฆผ 7๋กœ ์ •๋ฆฌํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 7. GoogLeNet์˜ ์•„ํ‚คํ…์ฒ˜


6. Training Methodology

  GoogLeNet์€ DistBelief [J. Dean et al., 2012]๋ผ๋Š” ๋ถ„์‚ฐ ๊ธฐ๊ณ„ ํ•™์Šต ์‹œ์Šคํ…œ์„ ํ™œ์šฉํ•˜์—ฌ ์ ์ ˆํ•œ ์–‘์˜ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ์„ฑ(data-parallelism)์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์˜ตํ‹ฐ๋งˆ์ด์ €๋กœ๋Š” asynchronous Stochastic Gradient Descent (SGD) with 0.9 momentum์„ ์‚ฌ์šฉํ•˜์˜€๊ณ , 8 ์—ํญ๋งˆ๋‹ค 4%์”ฉ ํ•™์Šต๋ฅ ์„ ๋‚ฎ์ถ”๋„๋ก ํ•™์Šต ์Šค์ผ€์ค„์„ ์กฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

  ์ด๋ฏธ์ง€ ์ƒ˜ํ”Œ๋ง ๋ฐฉ๋ฒ•์€ ๋Œ€ํšŒ๋ฅผ ์ง„ํ–‰ํ•˜๋ฉด์„œ ํฌ๊ฒŒ ๋ฐ”๋€Œ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ ์ˆ˜๋ ด๋œ ๋ชจ๋ธ๋“ค์˜ ๊ฒฝ์šฐ, ๋“œ๋กญ์•„์›ƒ๊ณผ ํ•™์Šต๋ฅ  ๊ฐ™์€ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ(hyperparameter)๋ฅผ ๋ฐ”๊พธ๋Š” ๊ฒƒ์„ ํ†ตํ•ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ํ•˜๋‚˜์˜ ๋ฐฉ๋ฒ•์„ ์•ˆ๋‚ดํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์„ค์ƒ๊ฐ€์ƒ์œผ๋กœ Howard์˜ ์—ฐ๊ตฌ[A. G. Howard, 2013]์— ์˜๊ฐ์„ ๋ฐ›์•„ ์ผ๋ถ€ ๋ชจ๋ธ๋“ค์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ํฌ๊ธฐ์˜ crop์œผ๋กœ ์ฃผ๋กœ ํ•™์Šตํ•˜์˜€์ง€๋งŒ, ๋ช‡๋ช‡์€ ๋” ํฐ crop์œผ๋กœ ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋Œ€ํšŒ ์ดํ›„, ๊ฐ€๋กœ์™€ ์„ธ๋กœ ๋น„์œจ์„ [$ \frac{3}{4}, \frac{4}{3}]๋กœ ์ œํ•œํ•˜์—ฌ 8%์—์„œ 100%์˜ ํฌ๊ธฐ๊นŒ์ง€ ๊ท ๋“ฑํ•œ ๋ถ„ํฌ๋กœ ํŒจ์น˜ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒƒ์˜ ํšจ๊ณผ๊ฐ€ ์šฐ์ˆ˜ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Howard์˜ ์—ฐ๊ตฌ์—์„œ ๊ด‘๋„ ์™œ๊ณก(photometric distortion)์ด ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๋Š”๋ฐ ์œ ์šฉํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.


7. ILSVRC 2014 Classification Challenge Setup and Results

  ILSVRC 2014 ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋Š” ์ด๋ฏธ์ง€๋ฅผ ImageNet์˜ 1000๊ฐœ์˜ ์นดํ…Œ๊ณ ๋ฆฌ ๊ฐ€์šด๋ฐ ํ•˜๋‚˜๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. 120๋งŒ ์žฅ์˜ ์ด๋ฏธ์ง€๊ฐ€ ํ•™์Šต ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜์—ˆ์œผ๋ฉฐ, ๊ฒ€์ฆ๊ณผ ํ…Œ์ŠคํŠธ ๊ณผ์ •์—๋Š” ๊ฐ๊ฐ 5๋งŒ ์žฅ๊ณผ 10๋งŒ ์žฅ์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ฐ ์ด๋ฏธ์ง€๋Š” ํ•˜๋‚˜์˜ ์ฐธ ์นดํ…Œ๊ณ ๋ฆฌ์™€ ์—ฐ๊ด€๋˜์—ˆ์œผ๋ฉฐ, ๋ถ„๋ฅ˜๊ธฐ์˜ ์˜ˆ์ธก ์ค‘ ๋†’์€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ILSVRC ๋Œ€ํšŒ์—์„œ๋Š” ์ƒ์œ„ 5๊ฐœ์˜ ์˜ค์ฐจ์œจ์„ ๊ธฐ์ค€์œผ๋กœ ์ˆœ์œ„๋ฅผ ๋งค๊ฒผ์Šต๋‹ˆ๋‹ค.

์ƒ์œ„ 1๊ฐœ์˜ ์ •ํ™•๋ฅ (top-1 accuracy rate)
  ์ฒ˜์Œ ์˜ˆ์ธกํ•œ ๋ถ€๋ฅ˜(class)์™€ ์‹ค์ œ ์ฐธ๊ฐ’(ground truth)์„ ๋น„๊ตํ•˜์—ฌ ์ธก์ •
์ƒ์œ„ 5๊ฐœ์˜ ์˜ค์ฐจ์œจ(top-5 error rate)
  ์˜ˆ์ธกํ•œ ์ƒ์œ„ 5๊ฐœ์˜ ๋ถ€๋ฅ˜์™€ ์‹ค์ œ ์ฐธ๊ฐ’์„ ๋น„๊ตํ•˜์—ฌ ์ธก์ •. ์ˆœ์œ„์™€ ๊ด€๊ณ„์—†์ด ์ƒ์œ„ 5๊ฐœ์˜ ๋ถ€๋ฅ˜ ๋‚ด์— ์ฐธ๊ฐ’์ด ํฌํ•จ๋  ๊ฒฝ์šฐ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜ํ•œ ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผํ•จ

  GoogLeNet์€ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์ง€ ์•Š๊ณ  ๋Œ€ํšŒ์— ์ฐธ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰ํ•œ ํ•™์Šต ๋ฐฉ๋ฒ• ์™ธ์—๋„ ํ…Œ์ŠคํŠธ ๊ณผ์ •์—์„œ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ์–ป๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•„๋ž˜์— ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  1. ๋™์ผํ•œ GoogLeNet ๋ชจ๋ธ์˜ 7๊ฐ€์ง€ ๋ฒ„์ „(๋” ๋„“์€ ๋ฒ„์ „์„ ํ•˜๋‚˜ ํฌํ•จ)์„ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ , ์ด๋“ค์„ ์ด์šฉํ•˜์—ฌ ์•™์ƒ๋ธ” ์˜ˆ์ธกํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ๋“ค์€ ๋™์ผํ•œ ์ดˆ๊ธฐ๊ฐ’๊ณผ ํ•™์Šต๋ฅ  ์ •์ฑ…์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ž…๋ ฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฏธ์ง€ ์ˆœ์„œ์™€ ์ƒ˜ํ”Œ๋ง ๋ฐฉ๋ฒ•์—๋งŒ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ํ…Œ์ŠคํŠธํ•˜๋Š” ๋™์•ˆ, AlexNet๋ณด๋‹ค ์ ๊ทน์ ์ธ crop ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๊ฐ€ ์งง์€ ๋ฉด์„ ๊ธฐ์ค€์œผ๋กœ 4๊ฐ€์ง€(256, 288, 320, 352)์˜ ํฌ๊ธฐ๋กœ ์กฐ์ ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํฌ๊ธฐ๊ฐ€ ์กฐ์ •๋œ ์ด๋ฏธ์ง€์—์„œ ์ขŒ์ธก, ์ค‘์•™, ์šฐ์ธก์„ ์ƒ์ž๋กœ ์ทจํ–ˆ์Šต๋‹ˆ๋‹ค(์„ธ๋กœ ์ด๋ฏธ์ง€์˜ ๊ฒฝ์šฐ ์œ„, ์ค‘๊ฐ„, ์•„๋ž˜๋กœ ์ƒ์ž๋ฅผ ์ทจํ•จ). ๊ฐ ์‚ฌ๊ฐํ˜•์— ๋Œ€ํ•ด 4๊ฐœ์˜ ๋ชจ์„œ๋ฆฌ์™€ ์ค‘์•™์„ ๊ธฐ์ค€์œผ๋กœ $ 224\times224 $์˜ ์‚ฌ์ด์ฆˆ๋กœ cropํ•˜๊ณ  ์‚ฌ๊ฐํ˜• ์ž์ฒด์˜ ํฌ๊ธฐ๋ฅผ $ 224\times224 $๋กœ ์กฐ์ •ํ•œ ๊ฒƒ๊ณผ ์ขŒ์šฐ ๋Œ€์นญํ•œ ๋ฒ„์ „์„ ์ทจํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€ ๋ณ„๋กœ $ 4\times3\times6\times2=144 $์˜ ์ž˜๋ฆฐ ์ด๋ฏธ์ง€๊ฐ€ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. Howard์˜ ์—ฐ๊ตฌ์™€ ๋น„์Šทํ•œ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์˜€์ง€๋งŒ, ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์ด ๋” ์ข‹๋‹ค๋Š” ๊ฒƒ์„ ๊ฒฝํ—˜์ ์œผ๋กœ ๊ฒ€์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ถฉ๋ถ„ํ•œ ๊ฐœ์ˆ˜์˜ crop์ด ์กด์žฌํ•˜๋ฉด ๋” ๋งŽ์€ crop์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์˜ ์ด์ ์ด ๋ฏธ๋ฏธํ•ด์ง€๋ฏ€๋กœ, ์‹ค์ œ๋กœ๋Š” ์ด์ฒ˜๋Ÿผ ๊ณต๊ฒฉ์ ์ธ crop์ด ํ•„์š”ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ์ตœ์ข… ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ crop๊ณผ ๋ชจ๋“  ๊ฐœ๋ณ„ ๋ถ„๋ฅ˜๊ธฐ์— ๋Œ€ํ•œ ์†Œํ”„ํŠธ๋งฅ์Šค ํ™•๋ฅ ์„ ํ‰๊ท  ๋‚ด์–ด ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜์—์„œ๋Š” crop์— ๋Œ€ํ•œ max-pooling๊ณผ ๋ถ„๋ฅ˜๊ธฐ์— ๋Œ€ํ•œ ํ‰๊ท ์„ ํ†ตํ•ด ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋Œ€์•ˆ์ฑ…์„ ๋ถ„์„ํ•˜์˜€์ง€๋งŒ, ๋‹จ์ˆœํ•œ ํ‰๊ท ๋ณด๋‹ค ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

  ๋ณธ ๋…ผ๋ฌธ์˜ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์—์„œ๋Š” ์ตœ์ข… ์ œ์ถœํ•œ ๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์— ๊ธฐ์—ฌํ•œ ์—ฌ๋Ÿฌ ์š”์†Œ๋ฅผ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

ํ‘œ 2. ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ ๋น„๊ต

  ๋Œ€ํšŒ์— ์ตœ์ข… ์ œ์ถœํ•œ ๊ฒฐ๊ณผ, ๊ฒ€์ฆ๊ณผ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ๋ชจ๋‘ ์ƒ์œ„ 5๊ฐœ์˜ ์˜ค์ฐจ์œจ์—์„œ 6.67%๋ฅผ ๊ธฐ๋กํ•ด 1์œ„๋ฅผ ์ฐจ์ง€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” 2012๋…„์˜ SuperVision์— ๋น„ํ•˜์—ฌ 56.5%๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๊ฐ์†Œํ•œ ์ˆ˜์น˜์ด๋ฉฐ, 2013๋…„ ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ ์ ‘๊ทผ๋ฒ•์ด์—ˆ๋˜ Clarifai์— ๋น„ํ•˜์—ฌ ์•ฝ 40%๊ฐ€ ๊ฐ์†Œํ•œ ์ˆ˜์น˜์ž…๋‹ˆ๋‹ค. ํ‘œ 2๋Š” 2012๋…„๋ถ€ํ„ฐ 2014๋…„๊นŒ์ง€ 3๋…„๊ฐ„ ์ƒ์œ„ ์ˆœ์œ„๋ฅผ ๊ฑฐ๋‘” ์ ‘๊ทผ๋ฒ•์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

ํ‘œ 3. GogLeNet์˜ ์กฐ๊ฑด๋ณ„ ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ ๋น„๊ต

  ์œ„์˜ ํ‘œ 3์€ ์˜ˆ์ธก ๊ณผ์ •์—์„œ ๋ชจ๋ธ๊ณผ crop์˜ ์ˆ˜๋ฅผ ๋ณ€๊ฒฝํ•˜๋Š” ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•˜์—ฌ ์–ป์€ ๊ฒฐ๊ณผ๋ฅผ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ์—๋Š” ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์—์„œ ์ƒ์œ„ 1๊ฐœ์˜ ์˜ค์ฐจ์œจ์ด ๊ฐ€์žฅ ๋‚ฎ์€ ๋ชจ๋ธ์„ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๊ณผ์ ํ•ฉ๋˜์ง€ ์•Š๋„๋ก ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋งŒ์„ ์ฐธ๊ณ ํ•ฉ๋‹ˆ๋‹ค.


8. ILSVRC 2014 Detection Challenge Setup and Results

  ILSVRC ํƒ์ง€ ๋ฌธ์ œ๋Š” 200๊ฐœ์˜ ๋ถ€๋ฅ˜ ๊ฐ์ฒด ์ฃผ์œ„์— ๊ฒฝ๊ณ„ ์ƒ์ž๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํƒ์ง€๋œ ๊ฐ์ฒด๊ฐ€ ์ฐธ๊ฐ’๊ณผ ์ผ์น˜ํ•˜๊ณ  ๊ฒฝ๊ณ„ ์ƒ์ž์˜ 50% ์ด์ƒ ๊ฒน์น˜๋Š” ๊ฒฝ์šฐ(Jaccard index ์‚ฌ์šฉ) ์ •๋‹ต์œผ๋กœ ๊ฐ„์ฃผํ•ฉ๋‹ˆ๋‹ค. ๊ด€๋ จ ์—†๋Š” ํƒ์ง€๋Š” ๊ฑฐ์ง“ ๊ธ์ •(false positive)์œผ๋กœ ๊ฐ„์ฃผํ•˜์—ฌ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜ ๋ฌธ์ œ์™€ ๋‹ฌ๋ฆฌ, ๊ฐ ์ด๋ฏธ์ง€์—๋Š” ๋งŽ์€ ๊ฐ์ฒด๊ฐ€ ํฌํ•จ๋˜๊ฑฐ๋‚˜ ์—†๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์œผ๋ฉฐ ๊ฐ์ฒด์˜ ํฌ๊ธฐ๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค์„ฑ๋Šฅ์€ mean Average Precision (mAP)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. GoogLeNet์€ R-CNN๊ณผ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ์ทจํ•˜์ง€๋งŒ, ์˜์—ญ ๋ถ„๋ฅ˜๊ธฐ์— ์ธ์…‰์…˜ ๋ชจ๋ธ์„ ์ถ”๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์„ ํƒ์  ํƒ์ƒ‰(selective search [K. E. A. van de Sande et al., 2011])์„ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ ์žฌํ˜„์œจ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด multi-box ์˜ˆ์ธก๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ์ฒด์˜ ์œ„์น˜๋ฅผ ์ œ์•ˆํ•˜๋Š” ๋‹จ๊ณ„(region proposal step)๋ฅผ ๊ฐ•ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฑฐ์ง“ ๊ธ์ • ์ˆ˜๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด, super-pixel์˜ ์‚ฌ์ด์ฆˆ๋ฅผ 2๋ฐฐ๋กœ ์ฆ๊ฐ€์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— mult-box๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ 200๊ฐœ์˜ ๊ฐ์ฒด์˜ ์œ„์น˜์— ๋Œ€ํ•œ ์ œ์•ˆ์„ ์ถ”๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ๊ฐœ์ˆ˜๋Š” R-CNN์˜ ๊ฐ์ฒด์˜ ์œ„์น˜์— ๋Œ€ํ•œ ์ œ์•ˆ์˜ ์•ฝ 60% ์ •๋„์ง€๋งŒ, ์ ์šฉ ๋ฒ”์œ„(coverage)๋Š” 92%์—์„œ 93%๋กœ ๋Š˜์–ด๋‚ฌ์Šต๋‹ˆ๋‹ค. ๊ฐ์ฒด์˜ ์œ„์น˜์— ๋Œ€ํ•œ ์ œ์•ˆ ๊ฐœ์ˆ˜๋Š” ์ค„์–ด๋“ค๊ณ  ์ ์šฉ ๋ฒ”์œ„๋Š” ๋Š˜์–ด๋‚จ์œผ๋กœ์จ ๋‹จ์ผ ๋ชจ๋ธ์˜ mAP๊ฐ€ 1% ํ–ฅ์ƒํ•˜๋Š” ํšจ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์ œ์•ˆ๋œ ๊ฐ์ฒด์˜ ๋ถ„๋ฅ˜์—๋Š” 6๊ฐœ์˜ GoogLeNet์„ ์•™์ƒ๋ธ”ํ•˜์˜€๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ •ํ™•๋„๋ฅผ 40%์—์„œ 43.9%๋กœ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

ํ‘œ 4. ํƒ์ง€ ์„ฑ๋Šฅ ๋น„๊ต(?๋Š” ์–ธ๊ธ‰๋˜์ง€ ์•Š์€ ๊ฐ’์„ ์˜๋ฏธํ•จ)

  ํ‘œ 4๋Š” ํƒ์ง€ ๋ฌธ์ œ์—์„œ ์ƒ์œ„ ์ˆœ์œ„์˜ ์ ‘๊ทผ๋ฒ•๊ณผ ์ดˆ๊ธฐ ๋ฒ„์ „ ์ดํ›„์˜ ๋ณ€ํ™”๋ฅผ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 2013๋…„์˜ ๊ฒฐ๊ณผ์™€ ๋น„๊ตํ•˜๋ฉด ์ •ํ™•๋„๊ฐ€ ๊ฑฐ์˜ 2๋ฐฐ ๊ฐ€๊นŒ์ด ๋†’์•„์กŒ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, 2014๋…„ ์ตœ๊ณ  ์„ฑ๊ณผ๋ฅผ ์–ป์€ ํŒ€๋“ค ๋ชจ๋‘ CNN์„ ์‚ฌ์šฉํ–ˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 4๋Š” ๊ฐ ํŒ€์˜ ๊ณตํ†ต๋œ ์ „๋žต์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ „๋žต์€ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ ์—ฌ๋ถ€, ์•™์ƒ๋ธ” ๋ชจ๋ธ์ธ์ง€ ๋งฅ๋ฝ์  ๋ชจ๋ธ(contextual model)์ธ์ง€๋ฅผ ๋งํ•ฉ๋‹ˆ๋‹ค. ํ‘œ 4์—์„œ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ILSVRC 2012 ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ถ€ ํŒ€์—์„œ๋Š” ๊ฐ์ฒด ์œ„์น˜ ๋ฐ์ดํ„ฐ(localization dat)์˜ ์‚ฌ์šฉ์„ ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ์ฒด ์œ„์น˜ ์‹๋ณ„ ๊ฒฝ๊ณ„ ์ƒ์ž(localization bounding box)๋Š” ํƒ์ง€ ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ, ๋ถ„๋ฅ˜ ๋ฌธ์ œ์™€ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ regressor๋ฅผ ์‚ฌ์ „ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. GoogLeNet์€ ๊ฐ์ฒด ์œ„์น˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์ „ํ•™์Šต์— ์ด์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

ํ‘œ 5. ํƒ์ง€ ๋ฌธ์ œ์—์„œ ๋‹จ์ผ ๋ชจ๋ธ ์„ฑ๋Šฅ ๋น„๊ต

  ํ‘œ 5๋Š” ๋‹จ์ผ ๋ชจ๋ธ๋งŒ์„ ์‚ฌ์šฉํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ณ  ์„ฑ๋Šฅ์ธ Deep Insight์€ 3๊ฐœ์˜ ๋ชจ๋ธ์„ ์•™์ƒ๋ธ”ํ•˜์—ฌ 0.3์ ์ด ํ–ฅ์ƒ๋œ ๋ฐ˜๋ฉด, GoogLeNet์€ ์•™์ƒ๋ธ”์„ ํ†ตํ•ด ํ›จ์”ฌ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


9. Conclusions

  ๋ณธ ๋…ผ๋ฌธ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์‰ฝ๊ฒŒ ์ด์šฉ ๊ฐ€๋Šฅํ•œ dense building block์„ ํ†ตํ•˜์—ฌ ์ตœ์ ์˜ ํฌ์†Œ ๊ตฌ์กฐ๋กœ ๊ทผ์‚ฌํ™”ํ•˜๋Š” ๊ฒƒ์ด CV์˜ ์‹ ๊ฒฝ๋ง ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ด๋ผ๋Š” ํ™•์‹คํ•œ ์ฆ๊ฑฐ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ์–•๊ณ  ์ข์€ ์•„ํ‚คํ…์ฒ˜์— ๋น„ํ•˜์—ฌ ์ปดํ“จํŒ… ๋น„์šฉ์ด ์กฐ๊ธˆ ์ƒ์Šนํ•ด๋„ ์„ฑ๋Šฅ์€ ๋งค์šฐ ํ–ฅ์ƒํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  ๊ฐ์ฒด ํƒ์ง€ ๋ฌธ์ œ์—์„œ๋Š” ๋งฅ๋ฝ ๋ชจ๋ธ๊ณผ ๊ฒฝ๊ณ„ ์ƒ์ž์˜ regressor๋ฅผ ์ด์šฉํ•˜์ง€ ์•Š์•˜์Œ์—๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ์…‰์…˜ ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐ•์ ์— ๋Œ€ํ•œ ๋˜ ๋‹ค๋ฅธ ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค.

  ๋ถ„๋ฅ˜์™€ ํƒ์ง€ ๋ฌธ์ œ์—์„œ ์ธ์…‰์…˜์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ๋น„์Šทํ•œ ํฌ๊ธฐ์˜ ๋„คํŠธ์›Œํฌ์— ๋น„ํ•ด ์ ์€ ์ปดํ“จํŒ… ๋น„์šฉ์œผ๋กœ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ๋ฒ•์€ ๋ณด๋‹ค ํฌ์†Œํ•œ ์•„ํ‚คํ…์ฒ˜๋กœ ์ „ํ™˜ํ•˜๋Š” ๊ฒƒ์ด ์‹คํ˜„ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์œ ์šฉํ•œ ์•„์ด๋””์–ด๋ผ๋Š” ํ™•์‹คํ•œ ์ฆ๊ฑฐ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ธ์…‰์…˜์˜ ์•„์ด๋””์–ด๋ฅผ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์— ์ ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๋”๋ถˆ์–ด Arora ์—ฐ๊ตฌ์ง„์˜ ์—ฐ๊ตฌ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๋ณด๋‹ค ํฌ์†Œํ•˜๊ณ  ์ •์ œ๋œ ๊ตฌ์กฐ๋ฅผ ์ž๋™์œผ๋กœ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์„ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.


References

  1. M. Lin, Q. Chen, S. Yan, "Network in network", arXiv, 2013
  2. Y. LeCun, B. Boser, J. S. Denker et al., "Backpropagation applied to handwritten zip code recognition", in Neural Comput., 1998
  3. A. krizhevsk, I. Sutskever, and G. Hinton, "Imagenet classification with deep convolutional neural networks", in Advances in Neural Information Processing Systems, 2012
  4. R. B. Girshick et al., "Rich feature hierarchies for accurate object detection and semantic segmentaion", in CVPR, 2014
  5. D. Erhan et al., "Scalable object detection using deep neural networks", in CVPR, 2014
  6. J. Dean et al., "Large scale distributed deep networks", in NIPS, 2012
  7. A. G. Howard, "Some improvements on deep convolutional neural network based image classification", in CoPR, 2013
  8. K. E. A. van de Sande et al., "Segmentation as selective search for object recognition", in ICCV, 2011

* ์ธ์šฉ๋œ ๋…ผ๋ฌธ์€ ๋” ์žˆ์ง€๋งŒ, ๋ณธ ์š”์•ฝ์—์„œ ์–ธ๊ธ‰ํ•œ ๋…ผ๋ฌธ๋งŒ์„ ์ •๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค.

* ๋ฒˆ์—ญ ์˜ค๋ฅ˜๋Š” ๋Œ“๊ธ€๋กœ ๋‚จ๊ฒจ์ฃผ์‹œ๋ฉด ์ˆ˜์ •ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.