๐ Y. Wang et al., "Tacotron: Towards End-to-End Speech Synthesis," in Interspeech, 2017 ๋ ผ๋ฌธ 3์ค ์์ฝ ๋ณต์กํ ๊ตฌ์กฐ์ ํ๋ TTS ๋ชจ๋ธ์ end-to-end ๊ตฌ์กฐ๋ก ๋ณํํ์๋ค. ์์ผ๋ก ํ์ตํ์ฌ ๋ ๋ง์ ๋ฐ์ดํฐ, ๋ ๋ค์ํ ํน์ง์ ํ์ต์ด ๊ฐ๋ฅํด์ก๋ค. ์ค๋์ค ์ํ ๋จ์์ ์์ฑ์ด ์๋, Mel-spectrogram ํ๋ ์ ๋จ์๋ก ์์ฑ์ ์์ฑํ์ฌ ๋ ๋น ๋ฅธ ํ์ต๊ณผ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค. Abstract Text-to-Speech (TTS, ๋ฌธ์ ์์ฑ ๋ณํ) ์์คํ ์ ์ผ๋ฐ์ ์ผ๋ก ํ ์คํธ ๋ถ์์ ์ํ frontend์ ์ํฅ ๋ชจ๋ธ(acoustic model), ์ค๋์ค ํฉ์ฑ ๋ชจ๋(audio synthesis module)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ๊ตฌ์ฑ ์์๋ฅผ ๊ตฌ์ถ์..