๐ Y. Wang et al., "Tacotron: Towards End-to-End Speech Synthesis," in Interspeech, 2017
๋ ผ๋ฌธ 3์ค ์์ฝ
- ๋ณต์กํ ๊ตฌ์กฐ์ ํ๋ TTS ๋ชจ๋ธ์ end-to-end ๊ตฌ์กฐ๋ก ๋ณํํ์๋ค.
- <ํ ์คํธ, ์์ฑ> ์์ผ๋ก ํ์ตํ์ฌ ๋ ๋ง์ ๋ฐ์ดํฐ, ๋ ๋ค์ํ ํน์ง์ ํ์ต์ด ๊ฐ๋ฅํด์ก๋ค.
- ์ค๋์ค ์ํ ๋จ์์ ์์ฑ์ด ์๋, Mel-spectrogram ํ๋ ์ ๋จ์๋ก ์์ฑ์ ์์ฑํ์ฌ ๋ ๋น ๋ฅธ ํ์ต๊ณผ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค.
Abstract
Text-to-Speech (TTS, ๋ฌธ์ ์์ฑ ๋ณํ) ์์คํ ์ ์ผ๋ฐ์ ์ผ๋ก ํ ์คํธ ๋ถ์์ ์ํ frontend์ ์ํฅ ๋ชจ๋ธ(acoustic model), ์ค๋์ค ํฉ์ฑ ๋ชจ๋(audio synthesis module)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ๊ตฌ์ฑ ์์๋ฅผ ๊ตฌ์ถ์๋ ๊ด๋ฒ์ํ ๋๋ฉ์ธ์ ๋ํ ์ ๋ฌธ ์ง์์ด ํ์ํ๋ฉฐ, ๊ฐ ๊ตฌ์ฑ ์์์๋ ๋ถ์์ ํ ์ค๊ณ๊ฐ ํฌํจ๋ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ฌธ์๋ก๋ถํฐ ๋ฐ๋ก ์์ฑ์ ์์ฑํ๋ end-to-end TTS ๋ชจ๋ธ์ธ 'Tacotron'์ ์๊ฐํฉ๋๋ค. Tacotron์ ์ฃผ์ด์ง <ํ ์คํธ(text), ์ค๋์ค(audio)> ์์ ์ด์ฉํ์ฌ ๋๋คํ๊ฒ ์ด๊ธฐํ(random initialization)๋ ๋คํธ์ํฌ๋ฅผ ์ฒ์๋ถํฐ ๋๊น์ง ์๋ฒฝํ๊ฒ ํ์ตํ ์ ์์ต๋๋ค. ๋ํ, ์ด๋ฌํ ๋์ ์ ์ธ ๋ฌธ์ ๋ฅผ ์ ์ํํ๊ธฐ ์ํ ๋ช ๊ฐ์ง ์ค์ํ ๊ธฐ๋ฒ๋ค์ ์๊ฐํฉ๋๋ค. Tacotron์ US ์์ด์ ๋ํ mean opinion score (MOS)์์ 5์ ๋ง์ ์ 3.82์ ์ ์ฑ์ ์ ๊ฑฐ๋์์ต๋๋ค. Parametric ๊ธฐ๋ฐ์ ์์คํ ๋ณด๋ค ์์ฐ์ค๋ฌ์(terms of naturalness)์ ๋ํ ํ๊ฐ์์ ๋ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์์ต๋๋ค. ์ถ๊ฐ๋ก, Tacotron์ ํ๋ ์ ๋จ์(frame-level)๋ก ์์ฑ์ ์์ฑํ๊ธฐ ๋๋ฌธ์, ์ํ ๋จ์(sample-level)๋ก ์์ฑํ๋ autoregressive ๋ฐฉ๋ฒ๋ณด๋ค ๋์ฒด๋ก ๋น ๋ฆ ๋๋ค.
1. Introduction
ํ๋์ TTS ํ์ดํ๋ผ์ธ์ ๊ต์ฅํ ๋ณต์กํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํต๊ณ์ parametric ๊ธฐ๋ฐ์ TTS๋ ์ธ์ด์ ์ ๋ณด(linguistic feature)๋ฅผ ์ถ์ถํ๋ frontend ๋ชจ๋ธ๊ณผ duration์ ๋ถ์ํ๋ ๋ชจ๋ธ, ์ํฅ์ ์ ๋ณด(acoustic feature)๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ, ๋ณต์กํ ์ ํธ ์ฒ๋ฆฌ ๊ธฐ๋ฐ์ ๋ณด์ฝ๋(vocoder)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ๊ตฌ์ฑ ์์๋ค์ ์ํด ๊ด๋ฒ์ํ ๋๋ฉ์ธ์ ์ ๋ฌธ ์ง์์ ํ์๋ก ํ๋ฉฐ, ์ด๋ฅผ ์ค๊ณํ๋ ์ผ์ ๋งค์ฐ ์ด๋ ต์ต๋๋ค. ๋ํ, ๊ตฌ์ฑ ์์๋ณ๋ก ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์ ๊ตฌ์ฑ ์์๋ค์ ์ค์ฐจ๋ ๋์ ๋ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ <ํ ์คํธ, ์์ฑ> ์์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ end-to-end TTS ์์คํ ์ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ์์ต๋๋ค.
- ํด๋ฆฌ์คํฑํ๊ณ ๋ถ์์ ํ ์ค๊ณ๊ฐ ํฌํจ๋ ์ ์๋ feature engineering์ ํ์๋ฅผ ์ค์ ๋๋ค.
- ๋ฐํ์(speaker)๋ ์ธ์ด(language), ๊ฐ์ฑ(sentiment)๊ณผ ๊ฐ์ high-level์ ํน์ง์ ์ฝ๊ฒ ์กฐ์ ํ ์ ์์ต๋๋ค.
- ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ adaptation์ด ๋ ์ฌ์์ง๋๋ค.
- ์ฌ๋ฌ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ๋ชจ๋ธ๋ณด๋ค ๋ ๊ฒฌ๊ณ (robust)ํฉ๋๋ค.
TTS๋ ๋๊ท๋ชจ์ ์ญ๋ณํ ๋ฌธ์ (inverse problem)์ ๋๋ค. TTS๋ ์ ๋ณด๊ฐ ๋งค์ฐ ์์ถ๋ ํ ์คํธ๋ฅผ "decompress"ํจ์ผ๋ก์จ ์ค๋์ค๋ก ๋ณํํฉ๋๋ค. ๊ฐ์ ํ ์คํธ๋ผ๋ ์ฌ๋๋ง๋ค ๋ฐ์๊ณผ ๋งํ๋ ๋ฐฉ์์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, end-to-end ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ํ์ตํ๋ ๊ฒ์ ํนํ ์ด๋ ค์ ์ต๋๋ค. ์ด๋ฅผ ์ํด ๊ธฐ์กด์๋ ์ ํธ ๋จ์์์ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํ ๋ค์ํ ๋ณํ๋ฅผ ์ฒ๋ฆฌํด์ผ ํ์ต๋๋ค. ๋์ฑ์ด end-to-end ์์ฑ ์ธ์์ด๋ ๊ธฐ๊ณ ๋ฒ์ญ๊ณผ๋ ๋ค๋ฅด๊ฒ, TTS์ ์ถ๋ ฅ๊ฐ์ ์ฐ์์ ์ด๊ณ ์ผ๋ฐ์ ์ผ๋ก ์ ๋ ฅ๋ ๊ฐ๋ณด๋ค ๊ธธ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ attention์ ํฌํจํ sequence-to-sequence (seq2seq) ๊ธฐ๋ฐ์ end-to-end TTS ์์ฑ ๋ชจ๋ธ์ธ 'Tacotron'์ ์ ์ํฉ๋๋ค. Tacotron์ ๋ฌธ์(character)๋ฅผ ์ ๋ ฅ ๋ฐ๊ณ , linear-spectrogram์ ์ถ๋ ฅํฉ๋๋ค.
๋ฌธ์(character)
์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ์ํ๋ฒณ, ํ๊ธ๊ณผ ๊ฐ์ ๊ธ์๋ฅผ ์๋ฏธํฉ๋๋ค.
์์(phoneme)
์๋ฆฌ๋ฅผ ๋ด๋ ์ธ์ด์ ๋ฑ๋ง์ ๊ตฌ๋ถํ๋ ์ด๋ก ์ ์ธ ๋ฑ๋ฑ์ ์๋ฆฌ๋ฅผ ์๋ฏธํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์์๊ฐ ์๋ ๋ฌธ์๋ฅผ ์ฌ์ฉํ์ง๋ง, ์ต๊ทผ ๋๋ถ๋ถ์ TTS ์ฐ๊ตฌ์์๋ ์์๋ฅผ ์ ๋ ฅ๊ฐ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
2. Tacotron
Tacotron์ ๋ฐฑ๋ณธ ๋ชจ๋ธ์ attention์ ํฌํจํ seq2seq ๋ชจ๋ธ(์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ)์ ๋๋ค. ๊ทธ๋ฆผ 1์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ, Tacotron์ ์ธ์ฝ๋์ attention ๊ธฐ๋ฐ์ ๋์ฝ๋, post processing ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ๋ต์ ์ผ๋ก ๋ณด๋ฉด, Tacotron์ ๋ฌธ์๋ฅผ ์ ๋ ฅ๋ฐ์ linear-spectrogram์ ์์ฑํ๊ณ , Grifin-Lim์ ํตํด waveform์ผ๋ก ๋ณํํฉ๋๋ค.
2.1 CBHG Module
Tacotron์ contribution ๊ฐ์ด๋ฐ ํ๋๋ [J. Lee et al., 2017]์์ ์ ์ํ ์ธ์ฝ๋ ์ํคํ ์ณ๋ฅผ ์์ ํ CBHG ๋ชจ๋์ ๋๋ค. Tacotron์์ ์์ ํ ๋ถ๋ถ์ ํด๋น ๋ชจ๋์ด ์ผ๋ฐํ(generalization) ์ญ๋์ ํฅ์ํ๋๋ฐ ๋์์ ์ฃผ์์ต๋๋ค. ๊ทธ๋ฆผ 2์ฒ๋ผ CBHG ๋ชจ๋์ 1D convolutional bank์ highway ๋คํธ์ํฌ, Bidirectional GRU๋ก ์ด๋ฃจ์ด์ก์ต๋๋ค.
1) Conv1D bank: ์ ๋ ฅ ์ํ์ค๋ 1D convolutional filter์ $ K $๊ฐ์ ์งํฉ์ผ๋ก ๋ฌถ์ด๋๋ฐ, ์ฌ๊ธฐ์ $ k $๋ฒ์งธ ์งํฉ์ ๋๋น๊ฐ $ k $์ธ $ C_k $์ ํํฐ๋ฅผ ํฌํจํฉ๋๋ค. ์ด์ฒ๋ผ ๋ค์ํ ๋๋น์ ํํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๊ตญ์์ (local)์ด๊ณ ๋งฅ๋ฝ์ (contextual)์ธ ์ ๋ณด๋ฅผ explicitํ๊ฒ ๋ชจ๋ธ๋งํ๋๋ฐ ๋งค์ฐ ํจ๊ณผ์ ์ด์์ต๋๋ค. Conv1d bank์ convolutoin์ ์ถ๋ ฅ๊ฐ์ ๋์ (stack)๋ฉ๋๋ค.
2) Max-pooling: Local invariance๋ฅผ ๋์ด๊ธฐ ์ํด ์๊ฐ์ถ์ ๋ฐ๋ผ max-pooling์ ์ ์ฉํฉ๋๋ค. ์ ๋ ฅ๊ฐ์ ์๊ฐ ํด์๋๋ฅผ ์ ์งํ๊ธฐ ์ํด ์คํธ๋ผ์ด๋์ ํฌ๊ธฐ๋ก 1์ ์ ์ฉํ์ต๋๋ค.
3) Residual connection: ์ด๋ ๊ฒ ์ฒ๋ฆฌ๋ ์ํ์ค์ ๋ํด์ 1D convolution ์ฐ์ฐ์ ํ๊ณ residual connection์ ํตํด ์ ๋ ฅ ์ํ์ค๋ฅผ ๋ํด์ค๋๋ค.
4) Highway network: high-level ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด 4๊ณ์ธต์ FC layer์ ์ ๋ ฅ๋ฉ๋๋ค.
5) Bidirectional RNN: ์๋ฐฉํฅ์ผ๋ก ๋งฅ๋ฝ(context)์ผ๋ก๋ถํฐ ์๊ณ์ด์ ํน์ง(sequential feature)์ ์ถ์ถํ๊ธฐ ์ํด bidirectional GRU๋ฅผ ์ฌ์ฉํฉ๋๋ค.
2.2 Encoder
์ธ์ฝ๋์ ๋ชฉํ๋ ์ ๋ ฅ ํ ์คํธ๋ก๋ถํฐ ๊ฐ๊ฑดํ sequential representation์ ์ถ์ถํ๋ ๊ฒ์ ๋๋ค.
1) Input sequence: ์ธ์ฝ๋์ ์ ๋ ฅ๊ฐ์ ๋ฌธ์ ์ํ์ค๋ก, ๊ฐ ๋ฌธ์๋ ์-ํซ ๋ฒกํฐ(one-hot vector)๋ก ํํ๋๋ฉฐ ์ฐ์์ ์ธ ๋ฒกํฐ(continuous vector)๋ก ์๋ฒ ๋ฉ๋ฉ๋๋ค.
2) Pre-net: pre-net์ ํตํด ๋น์ ํ ๋ณํ(non-linear transformation)์ ์ ์ฉํฉ๋๋ค. Pre-net์๋ dropout์ด ํฌํจ๋์ด ์์ด bottleneck ์ญํ ์ ์ํํ๋ฉฐ, ์ด๋ ์๋ ด(convergence)์ ๋๊ณ ์ผ๋ฐํ(generalization)์ ๊ฐ์ ํ๋ ์ญํ ์ ํฉ๋๋ค.
3) CBHG module: CBHG module์ ํตํด pre-net์ ์ถ๋ ฅ๊ฐ์ ์ธ์ฝ๋์ ์ต์ข representation์ผ๋ก ๋ณํํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ CBHG ๊ธฐ๋ฐ์ ์ธ์ฝ๋๊ฐ ์ค๋ฒํผํ (overfitting)์ ์ค์ด๋ ๊ฒ๋ฟ ์๋๋ผ, ์ผ๋ฐ์ ์ธ RNN๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ณด๋ค ์๋ชป๋ ๋ฐ์์ ์์ฑ์ ์์ฑํ๋ ๊ฒ์ ์ค์ฌ์ค๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
2.3 Decoder
1) Attention: ๋ณธ ๋ ผ๋ฌธ์์๋ ์ปจํ ์ธ ๊ธฐ๋ฐ์ tanh attention ๋์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ, ๊ฐ ๋์ฝ๋ ์๊ฐ ๋จ๊ณ(time step)์์ stateful recurrent ๊ณ์ธต์ ํตํด attention query๋ฅผ ์์ฑํฉ๋๋ค.
Stateful recurrent model
๋ฐฐ์น ๋ด์ ์ํ์ ์ฒ๋ฆฌํ๊ณ ์ป์ state๋ฅผ ๋ค์ ๋ฐฐ์น์์ ์ํ์ ์ฒ๋ฆฌํ ๋ ์ด๊ธฐ state๋ก ์ฌ์ฌ์ฉํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด๋ฅผ ํตํ์ฌ ๊ณ์ฐ ๋ณต์ก๋(complexity)๋ฅผ ์ค์ด๊ณ ๋ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ํฉ๋๋ค.
2) Decoder RNN: Attention์ ์ถ๋ ฅ๊ฐ๊ณผ attention RNN์ ์ถ๋ ฅ๊ฐ์ concatenateํ์ฌ decoder RNN์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. Vertical residual connection์ ํฌํจํ ์ฌ๋ฌ GRU ๊ณ์ธต์ ์ฌ์ฉํ๋ฉฐ, residual connection์ด ์๋ ด ์๋๋ฅผ ๋์ธ๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
3) Decoder target: ๋ณธ ๋ ผ๋ฌธ์์๋ linear-spectrogram์ ๋ฐ๋ก ์์ธกํ๋ ๊ฒ์ด ๊ฐ๋ฅํ์ต๋๋ค. ํ์ง๋ง ์์ฑ ์ ํธ์ ํ ์คํธ ์ฌ์ด์ alingment๋ฅผ ํ์ตํ๋ ๋ชฉ์ ์ผ๋ก๋ ๋งค์ฐ ๋ถํ์ํ representation์ด๊ธฐ ๋๋ฌธ์, seq2seq ๋์ฝ๋ฉ๊ณผ waveform ํฉ์ฑ์ ์ํด ๋ค๋ฅธ ํ๊ฒ์ ์ฌ์ฉํ์ต๋๋ค. Seq2seq์ ํ๊ฒ์ผ๋ก๋ ๊ณ ์ ๋๊ฑฐ๋ ํ์ตํ ์ ์๋ inversion process์ ์ํด ์ถฉ๋ถํ ๋ช ๋ฃ(intelligibility)ํ์ฌ์ผ ํ๊ณ ํ๋ก์๋(prosody) ์ ๋ณด๋ฅผ ์ ๊ณตํ ์ ์์ผ๋ฉฐ ๋งค์ฐ ์์ถ๋์ด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ๋์ฝ๋์ ํ๊ฒ์ผ๋ก 80๋ฐด๋์ Mel-spectrogram์ ์ฌ์ฉํ์์ต๋๋ค.
Mel-spectrogram
์ฌ๋๋ค์ด ๋์ ์ฃผํ์์ ๋นํด ๋ฎ์ ์ฃผํ์๋ฅผ ๋ ์๋ฏผํ๊ฒ ์ธ์ํ๋ค๋ ์ ์์ ์ฐฉ์ํ์์ต๋๋ค. ์ด๋ฅผ ์ํด ๋ฎ์ ์ฃผํ์ ๋์ญ์ ์ธ๋ฐํ๊ฒ ์ธ๋ฐํ๊ฒ ๋ถ์ํ๊ณ , ๋๋จธ์ง๋ ์๋์ ์ผ๋ก ๋ ์ธ๋ฐํ๊ฒ ๋ถ์ํ๋ Mel filter bank๋ฅผ ์ ์ฉํฉ๋๋ค. Mel filter bank๋ฅผ ์ ์ฉํ ๊ฒฐ๊ณผ๋ฅผ Mel-spectrogram์ด๋ผ ํ๋ฉฐ, ์ด๋ฅผ ๋ก๊ทธ ์ค์ผ์ผ๋ก ๋ณํํ๋ ๊ฒฝ์ฐ log-Mel spectrogram์ด๋ผ ํฉ๋๋ค.
๋์ฝ๋์ ํ๊ฒ์ ์์ธกํ๊ธฐ ์ํด ๋จ์ํ FC layer๊ฐ ์ฌ์ฉ๋๋๋ฐ, ์ฌ๊ธฐ์ ์ ์๋ค์ ๊ฒน์น์ง ์๋(non-overlapping) ์ฌ๋ฌ ํ๋ ์์ ํ๋ฒ์ ์์ธกํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ ํธ๋ฆญ์์ ๋ฐ๊ฒฌํ์ต๋๋ค. ํ๋ฒ์ $ r $๊ฐ์ ํ๋ ์์ ์์ธกํ๋ฉด ์ด ๋์ฝ๋ ๋จ๊ณ(decoder step)๋ฅผ $ r $๊ฐ๋งํผ ์ค์ผ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ํ์ต ์๊ฐ, ์ถ๋ก ์๊ฐ์ ์ค์ฌ์ค๋๋ค. ๋ํ, attention์ผ๋ก๋ถํฐ ํ์ต๋ alignment๊ฐ ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ด๋ค๋ ๊ฒ์ ์ธก์ ํจ์ผ๋ก์จ ํด๋น ํธ๋ฆญ์ด ์๋ ด ์๋๋ฅผ ์๋นํ ๊ฐ์ ํ๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ์ด์ํ ํ๋ ์๋ค์ด ์๋ก ์ฐ๊ด๋์ด ์์ผ๋ฉฐ ๊ฐ ๊ธ์๊ฐ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋ฌ ํ๋ ์๋ค๋ก ๊ตฌ์ฑ๋๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์๊ฐํ์ต๋๋ค. ์ฌ๋ฌ ํ๋ ์๋ค์ ์์ฑํ๋ ๊ฒ์ ํ์ต ๋จ๊ณ์์ attention์ด ๋ ๋น ๋ฅด๊ฒ ์์ผ๋ก ๋์๊ฐ๋๋ก ํฉ๋๋ค.
๋์ฝ๋์ ์ฒซ ๋จ๊ณ๋ <GO> ํ๋ ์์ด๋ผ ๋ฌ์ฌ๋๋ ๋ชจ๋ 0์ธ ํ๋ ์์ ์ํด condition๋ฉ๋๋ค. ์ถ๋ก ๋จ๊ณ์์ ๋์ฝ๋์ $ t + 1 $ ๋ฒ์งธ ๋จ๊ณ์ ์ ๋ ฅ์ผ๋ก ์ง์ ๋จ๊ณ์ธ $ t $ ๋ฒ์งธ ๋จ๊ณ์ $ r $๊ฐ์ ์์ธก ๊ฐ์ด๋ฐ ๋ง์ง๋ง ํ๋ ์์ ์ฌ์ฉํฉ๋๋ค. ๋ง์ง๋ง ํ๋ ์๋ง์ ์ฌ์ฉํ๋ ๊ฒ์ ad-hoc choice์ด๋ฉฐ, ์์ธก๋ $ r $๊ฐ์ ํ๋ ์ ๋ชจ๋ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ํ์ต ๋จ๊ณ์์๋ ๋์ฝ๋์ ํญ์ ๋ชจ๋ $ r $ ๋ฒ์งธ ์ฐธ๊ฐ์ธ ํ๋ ์์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ํ์ต ๋ฐฉ์์ 'Teacher forcing'์ด๋ผ ๋ถ๋ฆ ๋๋ค. ์ ๋ ฅ๋ ํ๋ ์์ ์ธ์ฝ๋์ ๋์ผํ๊ฒ pre-net์ ํต๊ณผํฉ๋๋ค.
Teacher forcing
์ผ๋ฐ์ ์ผ๋ก teacher forcing์ seq2seq ๋ชจ๋ธ์์ ๋ง์ด ์ฌ์ฉ๋ฉ๋๋ค. ํ์ต ๋จ๊ณ์ ์ด๊ธฐ์ ์์ฑ๋ ํ๋ ์ ํน์ ๋จ์ด๊ฐ ์๋ชป ์์ธก๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ค์ ๋จ๊ณ์ ๊ฐ์ ์์ธกํ๋ฉด ๋ค์ ๋จ๊ณ์ ๊ฐ ์ญ์๋ ์๋ชป๋ ์์ธก์ผ๋ก ์ด์ด์ง๋๋ฐ, ์ด๋ ํ์ต ์๋๋ฅผ ์ ํ์ํค๋ ์์ธ์ด ๋ฉ๋๋ค. Teacher forcing์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ์์ผ๋ฉฐ, ํ์ต ๋จ๊ณ์์๋ ํ๋จ๊ณ์ ๊ฐ์ ์์ธกํ๊ธฐ ์ํด ์ฐธ๊ฐ์ธ ๊ฐ์ ์ ๋ ฅํด์ค๋๋ค. ๋ํ, seq2seq ๋ชจ๋ธ ์ธ์๋ ์ด๋ค feature๋ฅผ ์์ธกํ์ฌ ์ด์ฉํ๋ ๋ชจ๋ธ์์๋ ์ฐธ๊ฐ์ธ feature๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์ฃผ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
2.4 Post-Processing Net and Waveform Synthesis
๋ณธ ๋ ผ๋ฌธ์์๋ waveform์ ์์ฑํ๋ synthesizer๋ก Griffin-Lim ์๊ณ ๋ฆฌ์ฆ[D. Griffin and J. Lim, 1984] ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, decoder์์ ์์ธกํ Mel-spectrogram์ Linear-spectrogram์ผ๋ก ๋ณํํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด post-processing net์ ์ ํ ์ฃผํ์ ๊ท๋ชจ๋ก ์ํ๋ง๋ spectral magnitude (์ฝ๊ฒ ๋งํ๋ฉด linear-spectrogram)์ ์์ธกํ๋๋ก ํ์ต๋ฉ๋๋ค. ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก๋ง ์๋ํ๋ seq2seq ๋ชจ๋ธ๊ณผ๋ ๋ค๋ฅด๊ฒ, post-processing net์ ์ด๋ฏธ ์ ์ฒด ๊ธธ์ด์ ๋์ฝ๋ฉ๋ ์ํ์ค๋ฅผ ์ ๋ ฅ๋ฐ์ผ๋ฏ๋ก ๊ฐ ํ๋ ์์ ๋ํ์ฌ ์์ธก ์ค์ฐจ๋ฅผ ์ ์ ํ๊ธฐ ์ํด ์๋ฐฉํฅ์ ์ ๋ณด ๋ชจ๋๋ฅผ ์ด์ฉํฉ๋๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ post-processing net์ผ๋ก CBHG ๋ชจ๋์ ์ฌ์ฉํฉ๋๋ค.
3. Experiments
3.1 Ablation Analysis
๋ช๋ช ablation ์คํ์ ํตํด Tacotron์ ์ค์ํ ์์์ ๋ํ ์ดํด๋ฅผ ๋๊ณ ์ ํ์์ต๋๋ค. ์ด๋ฅผ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋น๊ต๋ฅผ ์งํํ์์ต๋๋ค.
1) Vanilla seq2seq: ์ธ์ฝ๋์ ๋์ฝ๋ ๋ชจ๋ residual RNN์ ์ฌ์ฉํ ๋ชจ๋ธ์ ๋๋ค. ๊ทธ๋ฆผ 3 (a)์ ๊ฒฐ๊ณผ๋ฅผ ํตํด vanilla seq2seq๊ฐ ํํธ์๋ attention alignment๋ฅผ ํ์ตํ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. Attention์ด ์์ผ๋ก ์ด๋ํ๊ธฐ ์ ์ ๋ง์ ํ๋ ์๋ค์์ ๊ผผ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์์์ผ๋ฉฐ, ์ด๋ ํฉ์ฑ๋ ์ ํธ์์ ๋์ ๋ช ๋ฃ์ฑ์ผ๋ก ์ด์ด์ก์ต๋๋ค. ์ด์ ๋ฐ๋๋ก Tacotron์ ๊ฒฝ์ฐ, ๊ทธ๋ฆผ 3 (c)์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๋ ๊นจ๋ํ๊ณ ๋ถ๋๋ฌ์ด alingment๋ฅผ ํ์ตํฉ๋๋ค.
2) GRU ์ธ์ฝ๋: Tacotron์ CBHG ๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ฅผ residual GRU ์ธ์ฝ๋๋ก ๋์ฒดํ ๋ชจ๋ธ์ ๋๋ค. ๊ทธ๋ฆผ 3 (b)์ (c)์์ ๋ณผ ์ ์๋ฏ์ด GRU ์ธ์ฝ๋์ alingment ๊ฒฐ๊ณผ๊ฐ ๋ ๋ถ์์ (noisy)ํฉ๋๋ค. ์ด๋ฌํ ๋ถ์์ ํ alignment๋ ์ข ์ข ์๋ชป๋ ๋ฐ์์ผ๋ก ์ด์ด์ง๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ๋ฐ๋ผ์ CBHG ๊ธฐ๋ฐ์ ์ธ์ฝ๋๊ฐ ์ค๋ฒํผํ ์ ์ค์ด๊ณ ๊ธธ๊ณ ๋ณต์กํ ๊ตฌ์ ์ ๋ ์ ์ผ๋ฐํํ๋ค๋ ๊ฒ์ ์ ์ ์์์ต๋๋ค.
3) Post-processing net: ๊ทธ๋ฆผ 4์์ ํ์ธํ ์ ์๋ฏ์ด post-processing net๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ, ๋งฅ๋ฝ์ ์ ๋ณด์ harmonic ์ ๋ณด(100-400 ์ฌ์ด์ bins)๊ฐ ๋ ํ๋ถํ๊ณ ๋์ ์ฃผํ์์ ํฌ๋จผํธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด๋ ํฉ์ฑ ์ํฐํฉํธ๋ฅผ ์ค์ ๋๋ค.
3.2 Mean Opinion Score Tests
MOS ํ๊ฐ ๊ฒฐ๊ณผ, Tacotron์ ๋น๊ต ๋ชจ๋ธ์ ๋ฐ์ด๋๋ 3.82์ ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. Griffin-Lim ํฉ์ฑ์ ๋์ ํจ์ผ๋ก์จ ๊ฐ๋ ฅํ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ์ดํฐํฉํธ๋ค์ด ์ฃผ์ด์ง๋ฉฐ, ์ด๋ ๋งค์ฐ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
Reference
- J. Lee et al., "Fully Character-Level Neural Machine Translation without Explicit Segmentation," in TACL, 2017.
- D. Griffin and J. Lim, "Signal Estimation from Modified Short-Time Fourier Transform," in TASSP, 1984.
'์ธ๊ณต์ง๋ฅ ๋ ผ๋ฌธ ์์ฝ > Text-to-Speech' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
WaveNet: A Generative Model for Raw Audio ์ ๋ฆฌ (0) | 2023.06.18 |
---|