์˜ค์ฐจ์ œ๊ณฑํ•ฉ 1

์†์‹ค ํ•จ์ˆ˜(Loss function)

๐Ÿ’ก 'Deep Learning from Scratch'๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ์ž‘์„ฑ ์‹ ๊ฒฝ๋ง์—์„œ ํ•™์Šต(train)์ด๋ž€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜(weight parameter)์˜ ์ตœ์ ๊ฐ’(optimal value)์„ ์ž๋™์œผ๋กœ ํš๋“ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฒˆ ๊ฒŒ์‹œ๋ฌผ์—์„œ๋Š” ์‹ ๊ฒฝ๋ง์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ์ง€ํ‘œ, ์†์‹ค ํ•จ์ˆ˜์— ๋Œ€ํ•˜์—ฌ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. 1. ๋ฐ์ดํ„ฐ์™€ ํ•™์Šต ์‹ ๊ฒฝ๋ง์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฒƒ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๊ฐ’์„ ์ž๋™์œผ๋กœ ๊ฒฐ์ •ํ•œ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋“  ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ˆ˜์ž‘์—…์œผ๋กœ ๊ฒฐ์ •ํ•ด์•ผ ํ•˜๋Š” ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•ด์ค๋‹ˆ๋‹ค. 1.1 ๋ฐ์ดํ„ฐ ์ฃผ๋„ ํ•™์Šต ๊ธฐ๊ณ„ ํ•™์Šต(machine learning)์˜ ์ƒ๋ช…์€ ๋ฐ”๋กœ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์—์„œ ๋‹ต์„ ์ฐพ๊ณ  ๋ฐ์ดํ„ฐ์—์„œ ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋กœ ์ด์•ผ..