๐ A. Oord et al., "WaveNet: A Generative Model for Raw Audio," in arXiv, 2016.
๋ ผ๋ฌธ 1์ค ์์ฝ
- WaveNet์ dilated causal convolution์ ๊ธฐ๋ฐ์ผ๋ก audio waveform์ ์์ฑํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋๋ค.
Abstract
๋ณธ ๋ ผ๋ฌธ์ ์ค๋์ค ํํ(audio waveform)์ ์์ฑํ๋ ์ ๊ฒฝ๋ง์ธ "WaveNet"์ ์๊ฐํฉ๋๋ค. WaveNet์ ๋ชจ๋ ์ด์ ์ ์ค๋์ค ์ํ๋ก๋ถํฐ ์กฐ์ ๋ ๊ฐ ์ค๋์ค ์ํ์ ๋ํ ๋ถํฌ๋ฅผ ์์ธกํ๋ ํ๋ฅ ์ ์ด๋ฉฐ auto-regressiveํ ๋ชจ๋ธ์ ๋๋ค. WaveNet์ ๊ฐ๊ฐ์ ๋ฐํ์(speaker)์ ์ ์ฌํ๊ฒ ํน์ง์ ํฌ์ฐฉํ๊ณ ์ด๋ฅผ ์กฐ์ ํจ์ผ๋ก์จ ๋ค๋ฅธ ๋ฐํ์์ ๋ชฉ์๋ฆฌ๋ก ๋ฐ๊ฟ ์ ์์ต๋๋ค.
1. Introduction
๋ณธ ๋ ผ๋ฌธ์์๋ auto-regressiveํ ์์ฑ ๋ชจ๋ธ๋ค๋ก๋ถํฐ ์๊ฐ์ ๋ฐ์, ์์ฑ ์์ฑ ๊ธฐ๋ฒ์ ๋ํ์ฌ ์ฐ๊ตฌํฉ๋๋ค. ์์ ์ฐ๊ตฌ๋ ์ ๊ฒฝ๋ง ๋ชจ๋ธ๋ค์ ํ์ฉํ์ฌ ์ต์ 16,000Hz์ ๊ด๋์ญ ์์ฑ์ ์์ฑํ ์ ์๋์ง๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃน๋๋ค. WaveNet์ PixelCNN [V. Oord et al., 2016] ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์์ฑ ์์ฑ ๋ชจ๋ธ์ ๋๋ค. ์ฃผ๋ ๊ธฐ์ฌ๋ ์๋์ ๊ฐ์ต๋๋ค.
- WaveNet์ text-to-speech(TTS) ๋ถ์ผ์์ ์ด์ ์๋ ๋ณด๊ณ ๋์ ์๋ ์๋์ ์ผ๋ก ์์ฐ์ค๋ฌ์ด ์์ฑ ์์ฑ์ด ๊ฐ๋ฅํฉ๋๋ค.
- ๋งค์ฐ ๋์ ์์ฉ ์์ญ(receptive field)์ ๋ณด์ฌ์ฃผ๋ dilated causal convolution์ ๊ธฐ๋ฐ์ผ๋กํ ์๋ก์ด ์ํคํ ์ฒ์ ๋๋ค.
- ๋ฐํ์(speaker)์ ํน์ฑ์ ์กฐ์ ํ์์ ๋, ๋จ์ผ ๋ชจ๋ธ๋ก๋ ๋ค๋ฅธ ๋ฐํ์์ ์์ฑ์ ์์ฑํ ์ ์์ต๋๋ค.
- ์์ ์์ฑ ์ธ์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ ์์ ๊ณผ ๊ฐ์ ๋ค๋ฅธ ๋ถ์ผ์์๋ ์์ฑ์ด ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์ ๋ง๋ฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ WaveNet์ ์ผ๋ฐ์ ์ด๊ณ ์ ์ฐํ ๊ตฌ์กฐ(framework)๊ฐ TTS๋ ์์ฑ ๋ณ์กฐ(voice conversion) ๋ฑ์ ์ค๋์ค ์์ฑ๊ณผ ๊ด๋ จ๋ ๋ง์ ๋ถ์ผ์ ์ ์ฉ๋ ๊ฒ์ด๋ผ๊ณ ๊ธฐ๋ํฉ๋๋ค.
2. WaveNet
WaveNet์ ์์ฑ ํํ์ ๋ํด ์ง์ ์๋ํ๋ ์์ฑ ๋ชจ๋ธ์ ๋๋ค. ํํ $ x = \left\{x_1, \ldots, x_T \right\} $์ joint probability์ conditional probability์ ๊ณฑ(product)์ผ๋ก ๋ถํดํด์ ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.
$$ \begin{equation} p(\mathbf{x})=\prod_{t=1}^{T}{p(x_t|x_1,\ldots,x_{t-1})} \end{equation} $$
๋ฐ๋ผ์ ๊ฐ๊ฐ์ ์์ฑ ์ํ $ x_t$๋ ๋ชจ๋ ์ด์ ์๊ฐ ๋จ๊ณ์ ์ํ๋ค์ condition์ผ๋ก ํฉ๋๋ค. PixelCNN [V. Oord et al., 2016]์์๋ ๋น์ทํ๊ฒ ์ปจ๋ณผ๋ฃจ์ (convolutional) ๊ณ์ธต๋ค์ ์์์ผ๋ก์จ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ์ต๋๋ค.
Autoregressive model (AR model)
์ถ๋ ฅ ๋ณ์(variable)๊ฐ ์ด์ ์ ๊ฐ๊ณผ ํ๋ฅ ์ ์ธ ํญ(stochastic term)์ ๋ํ์ฌ ์ ํ์ ์ผ๋ก ์์กดํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. WaveNet ๋คํธ์ํฌ๋ autoregressive ๋ชจ๋ธ ๊ฐ์ด๋ฐ ํ๋์ ๋๋ค.
2.1 Dilated Causal Convolutions
์ค๋์ค๋ฅผ ์์ฑํ๋ WaveNet์ ํต์ฌ์ causal convolution์ ๋๋ค. Causal convolution์ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ๋งํ๋ ์์๋ฅผ ์๋ฐํ์ง ์๋๋ก ํ๋ ์ญํ ์ ํฉ๋๋ค. ์๊ฐ ๋จ๊ณ $ t $์ ์์ธก๊ฐ $ p(x_{t+1}|x_1, \ldots, x_t) $์ ์ด๋ ํ ๋ฏธ๋ ์๊ฐ๋์ ์ ๋ณด $ x_{t+1}, \ldots, x_T $๋ฅผ ์ด์ฉํ์ง ์์ต๋๋ค. ์๊ฐ ๋จ๊ณ $ t $์์ ์์ฑํ๋ ๊ฒฐ๊ณผ๋ ๊ณผ๊ฑฐ์ ๊ฒฐ๊ณผ๋ง์ ์ฐธ๊ณ ํ๋ค๋ ๊ฒ์ ๊ทธ๋ฆผ 3์์ ํ์ธํ ์ ์์ต๋๋ค.
ํ์ต ๋จ๊ณ(training)์์๋ ์ฐ๋ฆฌ๋ ๋ชจ๋ ์๊ฐ ๋จ๊ณ์ ์ฐธ๊ฐ(ground truth) $ \mathbf{x} $๋ฅผ ์๊ณ ์๊ธฐ ๋๋ฌธ์, ๋ณ๋ ฌ์ (parallel)์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ํ์ตํ ์ ์์ต๋๋ค. ํ์ง๋ง ์ถ๋ก ๋จ๊ณ(inference)์์๋ ์์ธก์ด autoregressiveํ๊ฒ ์ด๋ฃจ์ด์ง๋๋ค. ์ฆ, ์ด์ ๋จ๊ณ์์ ์์ธก๋ ์ํ์ ํ์ฌ์ ์ํ์ ์์ธกํ๊ธฐ ์ํด ๋คํธ์ํฌ์ ์ง์ด๋ฃ์ต๋๋ค.
Causal convolution์ด ์ ์ฉ๋์๊ธฐ ๋๋ฌธ์ ๋ฐ๋ณต์ ์ธ ์ฐ๊ฒฐ(recurrent connection)์ ๊ฐ์ง์ง ์์ต๋๋ค. ํ์ง๋ง ์์ฉ ์์ญ์ ํค์ฐ๊ธฐ ์ํด์๋ ๋ ๋ง์ ๊ณ์ธต์ด๋ ๋ ํฐ ํํฐ๊ฐ ํ์ํ๋ค๋ ๊ฒ์ด causal connection์ด ๊ฐ์ง ๋ฌธ์ ์ ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ค์๋์ ๋ฐ๋ผ ์์ฉ ์์ญ์ ๋ํ๊ธฐ ์ํ์ฌ dilated convolution์ ์ฌ์ฉํฉ๋๋ค.
Dilated convolution์ ๊ทธ๋ฆผ 4์ ๊ฐ์ด ์ ๋ ฅ๊ฐ์ด ํน์ ๋จ๊ณ๋ฅผ ๊ฑด๋๋ฐ๋๋ก ์ค๊ณํจ์ผ๋ก์จ, ํํฐ๊ฐ ๊ธธ์ด๋ณด๋ค ํฐ ์์ญ์ ์ ์ฉ๋๋ convolution์ ์๋ฏธํฉ๋๋ค. Dilated convolution์ ์ผ๋ฐ์ ์ธ convolution๋ณด๋ค ๋ coarseํ ๊ท๋ชจ์์ ๋คํธ์ํฌ๊ฐ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋๋ก ํฉ๋๋ค. ์ด๋ ํ๋ง(pooling)์ด๋ ์คํธ๋ผ์ด๋(stride)๋ฅผ ์ฌ์ฉํ๋ convolution๊ณผ ์ ์ฌํ์ง๋ง, ์ถ๋ ฅ๊ฐ์ด ์ ๋ ฅ๊ฐ๊ณผ ๊ฐ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ค๋ ์ ์์ ๋ค๋ฆ ๋๋ค.
ํ๋ง (pooling)
Convolution ์ฐ์ฐ ์ดํ, ์ด๋ค ๊ฐ์ ์ทจํ ์ง๋ฅผ ๋ปํฉ๋๋ค. Pooling์ ๋ฐฉ๋ฒ์๋ ์ต๋๊ฐ์ ์ทจํ๋ max pooling๊ณผ convolution ์ฐ์ฐ์ ๊ฒฐ๊ณผ๋ฌผ์ ๋ํด ํ๊ท ๊ฐ์ ์ทจํ๋ average pooling์ด ์์ต๋๋ค.
์คํธ๋ผ์ด๋ (stride)
Convolution ์ฐ์ฐ์ ์ด์ฉํ๋ ์ปค๋(kernel)์ ์ผ๋ง๋ ์ด๋์ํฌ์ง๋ฅผ ์๋ฏธํฉ๋๋ค.
Dilated convolution์ ์ ์ ๊ณ์ธต๋ค๋ก๋ ๋คํธ์ํฌ๊ฐ ๋ ํฐ ์์ฉ ์์ญ์ ๊ฐ์ง๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค. ๋, ๋คํธ์ํฌ ์ ์ฒด์ ์ ๋ ฅ ํด์๋์ ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์ง๋ฉ๋๋ค. ์๋์ ๊ฐ์ด dilation์ ๋ชจ๋ ๊ณ์ธต์์ ๋๊น์ง 2๋ฐฐ๋ก ์ฆ๊ฐ๋๊ณ , ์ด๋ฅผ ๋ฐ๋ณตํฉ๋๋ค.
$$ 1, 2, 4, \ldots, 512, 1, 2, 4, \ldots, 512, 1, 2, 4, \ldots, 512. $$
์ด๋ฌํ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ง๋ญ๋๋ค.
- Dilation ๊ณ์๋ฅผ ์ง์์ ์ผ๋ก(exponentially) ์ฆ๊ฐ์ํค๋ฉด ๋คํธ์ํฌ์ ๊น์ด์ ์์ฉ ์์ญ ์ญ์ ์ง์์ ์ผ๋ก ์ปค์ง๋๋ค [Yu & Koltun, 2016].
- Dilation ๋ธ๋ก์ ์๋ ๊ฒ์ ๋ชจ๋ธ์ ๋ฅ๋ ฅ๊ณผ ์์ฉ ์์ญ์ ํฌ๊ธฐ๋ฅผ ๋ ์ฆ๊ฐ์ํฌ ์ ์์ต๋๋ค.
2.2 Softmax Distributions
๊ฐ๋ณ ์ค๋์ค ์ํ์ ๋ํ ์กฐ๊ฑด๋ถ ๋ถํฌ $ p(x_t|x_1, \ldots, x_{t-1}) $๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก mixture density ๋คํธ์ํฌ์ ๊ฐ์ ํผํฉ ๋ชจ๋ธ(mixture model)์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง softmax distribution์ด ์ ์ฌ์ ์ผ๋ก ์ฐ์์ ์ธ ๋ฐ์ดํฐ(continuous data)์์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ์ด๋ softmax distribution์ด ๋ ์ ์ฐํ๊ณ ํํ์ ๋ํ ๊ฐ์ ์ ํ์ง ์์๊ธฐ ๋๋ฌธ์, ์์์ ๋ถํฌ๋ก ๋ ์ฝ๊ฒ ๋ชจ๋ธ๋งํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ค๋์ค๋ 16๋นํธ ์ ์๊ฐ(์๊ฐ ๋จ๊ณ๋น 1๊ฐ)์ ์ํ์ค(sequence)๋ก ์ ์ฅ๋๊ธฐ ๋๋ฌธ์, softmax ๊ณ์ธต์ ๊ฐ๋ฅํ ๋ชจ๋ ํ๋ฅ ๊ฐ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ์๊ฐ ๋จ๊ณ๋น 56,636๊ฐ์ ํ๋ฅ ์ ๊ณ์ฐํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ๊ณ์ฐ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด ๋ฐ์ดํฐ์ $ \mu $-law companding transformation์ ์ ์ฉํ์ฌ 25๊ฐ์ ๊ฐ๋ฅํ ๊ฐ์ผ๋ก qunatizeํฉ๋๋ค.
Quantization
๋ฌดํ๋์ ๊ฐ์ ์ ํํ ๋ช ๊ฐ์ง์ ๋ํ๊ฐ์ผ๋ก ๋ฐ๊พธ์ด ์ฃผ๋ ๊ฒ (e.g. 0.5 → 1)
์ด๋ฅผ ์์ํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
$$ f(x_t) = \text{sign}(x_t)\frac{\ln{1+\mu|x_t|}}{\ln(1+\mu)} $$
์ฌ๊ธฐ์ $ -1 < x_t < 1 $์ด๋ฉฐ $ \mu = 225 $์ ๋๋ค. non-linear quantization์ ๋จ์ํ linear quantization๋ณด๋ค ๋ ์ ์ฌ๊ตฌ์ฑ(reconstruction)ํฉ๋๋ค. ํนํ ์์ฑ ๋ถ์ผ์์ quantization ์ดํ ์ฌ๊ตฌ์ฑ๋ ์ ํธ๊ฐ ๊ธฐ์กด์ ์ค๋์ค์ ๊ต์ฅํ ์ ์ฌํ๊ฒ ๋ค๋ฆฐ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์์ต๋๋ค.
2.3 Gated Activation Units
Gated PixelCNN [V. Oord et al., 2016]์์ ์ฌ์ฉํ gated activation unit์ ์ฌ์ฉํฉ๋๋ค.
$$ \begin{equation} \mathbf{z}=\tanh{(W_{f, k}*\mathbf{x})}\odot\sigma{(W_{g, k}*\mathbf{x})} \end{equation} $$
์ฌ๊ธฐ์ *๋ ํฉ์ฑ๊ณฑ(convolution) ์ฐ์ฐ, $ \odot $์ element-wise multiplication ์ฐ์ฐ, $ \sigma{(\cdot)} $์ sigmoid ํจ์, $ k $๋ ๊ณ์ธต์ ์ธ๋ฑ์ค, $ f $๋ ํํฐ, $ g $๋ ๊ฒ์ดํธ, $ W $๋ ํ์ต ๊ฐ๋ฅํ ์ปจ๋ณผ๋ฃจ์ ํํฐ๋ฅผ ์๋ฏธํฉ๋๋ค. ์ด๊ธฐ ์คํ์์ ์ด ๋น์ ํ ํจ์๊ฐ ReLU ํจ์๋ณด๋ค ๋ ์ ์๋ํ๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
2.4 Residual and Skip Connections
์๋ ด ์๋๋ฅผ ๋์ด๊ณ ๋ชจ๋ธ์ ๊น๊ฒ ์์์ ํ์ตํ๊ธฐ ์ํด residual connection๊ณผ ๋งค๊ฐ๋ณ์ํ๋ skip connection์ ๋คํธ์ํฌ ์ ์ฒด์ ์ฌ์ฉํ์์ต๋๋ค. ์ด๋ฅผ ์๋์ ๊ทธ๋ฆผ์ residual block์ผ๋ก ํํํ์์ต๋๋ค.
2.5 Conditional WaveNets
WaveNet์ ์ถ๊ฐ์ ์ธ ์ ๋ ฅ๊ฐ $ h $์ด ์ฃผ์ด์ง๋ฉด, ์ค๋์ค์ ์กฐ๊ฑด๋ถ ๋ถํฌ $ p(\mathbf{x}|\mathbf{h}) $๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค. $ h $๋ฅผ ์ด์ฉํ์ฌ (1)์ ์์ ์๋์ ๊ฐ์ด ์์ ํ ์ ์์ต๋๋ค.
$$ p(\mathbf{x}|\mathbf{h})=\prod_{t=1}^{T}{p(x_t|x_1,\ldots,x_{t-1}, \mathbf{h})} $$
์ ๋ ฅ ๋ณ์๋ค์ ํตํด ํ์ํ ํน์ฑ์ ๊ฐ์ง ์ค๋์ค๋ฅผ ์์ฑํ๋๋ก WaveNet์ ์ค์ ํ ์ ์์ต๋๋ค. ๋น์ทํ๊ฒ TTS์์๋ ์ถ๊ฐ์ ์ธ ์ ๋ ฅ๊ฐ์ผ๋ก์ ํ ์คํธ์ ๋ํ ์ ๋ณด๋ฅผ ์ ๋ ฅํ ํ์๊ฐ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ WaveNet์ ๋ ๊ฐ์ง ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๋ ฅ๊ฐ์ ์ง์ด๋ฃ์์ต๋๋ค.
2.5.1 Global conditioning
Global conditioning์ ์ํด ๋ชจ๋ ์๊ฐ ๋จ๊ณ์ ๊ฑธ์ณ ์ถ๋ ฅ๊ฐ์ ์ํฅ์ ์ฃผ๋ speaker embedding๊ณผ ๊ฐ์ ๋จ์ผ latent representation์ ์ฌ์ฉํฉ๋๋ค. ์์ (2)์ ํ์ฑํ ํจ์๋ฅผ ์ถ๊ฐํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์์์ ์์ฑํ ์ ์์ต๋๋ค.
$$ \mathbf{z}=\tanh{(W_{f, k}*\mathbf{x}+V_{f, k}^{T}\mathbf{h})}\odot\sigma{(W_{g, k}*\mathbf{x}+V_{f, k}^{T}\mathbf{h})} $$
์ฌ๊ธฐ์ $ V_{*, k} $๋ ํ์ต ๊ฐ๋ฅํ linear projection์ ์๋ฏธํ๋ฉฐ, $ V_{f, k}^{T}\mathbf{h} $๋ ์ ์ฒด ์๊ฐ ์ฐจ์์ ์ ์ฉ๋ฉ๋๋ค.
2.5.2 Local conditioning
local conditioning์ ์ํด ์ธ์ด์ ์ ๋ณด(linguistic feature)์ ๊ฐ์ด ์ค๋์ค ์ ํธ๋ณด๋ค ๋ฎ์ sampling frequency์ ์๊ณ์ด ์ํ์ค(timeseries sequence) $ h_t $๋ฅผ ์ด์ฉํ ์ ์์ต๋๋ค. ์ธ์ด์ ์ ๋ณด์ ์ํ์ค๋ฅผ ์ค๋์ค ์ ํธ์ ๋์ผํ ํด์๋๋ก upsampling ํ๊ธฐ ์ํด transposed convolution ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๊ฒ upsampling๋ ์๋ก์ด ์๊ณ์ด ์ํ์ค $ y=f(\mathbf{h}) $๋ ๋ค์๊ณผ ๊ฐ์ด activation unit์ด ์ ์ฉ๋ฉ๋๋ค.
$$ \mathbf{z} = \tanh{(W_{f, k} * \mathbf{x} + V_{f, k} * \mathbf{y})} \odot \sigma{(W_{g, k} * \mathbf{x} + V_{g, k} * \mathbf{y})} $$
์ฌ๊ธฐ์ $ V_{g, k} * \mathbf{y} $๋ $ 1 \times 1 $ ์ปจ๋ณผ๋ฃจ์ ์ด ๋ฉ๋๋ค. Transposed convolution ๋คํธ์ํฌ์ ๋์์ผ๋ก $ V_{f, k} * \mathbf{h} $๋ฅผ ์ฌ์ฉํ๊ณ , ์ด ๊ฐ์ ์๊ฐ ๋จ๊ณ์ ๋ฐ๋ผ ๋ฐ๋ณตํ ์๋ ์์ต๋๋ค.
2.6 Context Stacks
WaveNet์ ์์ฉ ์์ญ ํฌ๊ธฐ๋ฅผ ํค์ฐ๊ธฐ ์ํ ์ฌ๋ฌ ๋ฐฉ๋ฒ์ ์์ ์ธ๊ธํ์์ต๋๋ค. ๋ณด์์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ค๋์ค ์ ํธ์ ๊ธด ๋ถ๋ถ์ ์ฒ๋ฆฌํ๋ ์์ context stack์ผ๋ก ๋ถ๋ฆฌํ์ฌ ์ฌ์ฉํ๊ณ , ์ค๋์ค ์ ํธ์ ์งง์ ๋ถ๋ถ๋ง์ ์ฒ๋ฆฌํ๋ ๋ ํฐ WaveNet์ ๋ถ๋ถ์ ์ผ๋ก ์กฐ์ ํ๋ ๊ฒ์ ๋๋ค. ๋ํ, hiddnen unit์ ์์ ๊ธธ์ด๋ฅผ ๋ค์ํ๊ฒ ํ์ฌ ๋ค์ํ context stack์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ ๊ณ ๋ คํ ์ ์์ต๋๋ค.
3. Experiments
WaveNet์ ์ค๋์ค ๋ชจ๋ธ๋ง ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํ์ฌ 3๊ฐ์ง ๋ค๋ฅธ ๋ฌธ์ ๋ฅผ ์ด์ฉํ์์ต๋๋ค. Multi-speaker ์์ฑ ์์ฑ๊ณผ TTS, ์์ ์ค๋์ค ๋ชจ๋ธ๋ง์ ๋๋ค. ๋ณธ ๊ฒ์๋ฌผ์์๋ ์์ 2๊ฐ์ง ๋ฌธ์ ๋ง ์์๋ณด๊ฒ ์ต๋๋ค.
3.1 Multi-Speaker Speech Generation
๋ฐํ์์ ID๋ฅผ ๋ชจ๋ธ์ one-hot ๋ฒกํฐ์ ํํ๋ก ์ง์ด๋ฃ์ด ์์ฑ๋ ์์ฑ์ ๋ชฉ์๋ฆฌ๋ฅผ ์กฐ์ ํฉ๋๋ค. ๋ฐํ์ ์ ๋ณด์ ๋ํ one-hot encoding์ ์กฐ์ ํจ์ผ๋ก์จ, ๋จ์ผ WaveNet์ผ๋ก ์ด๋ ํ ๋ฐํ์์ ์์ฑ์ด๋ ํ์ตํ ์ ์์ต๋๋ค. ๋จ์ผ ๋ฐํ์๋ก๋ง ํ์ตํ๋ ๊ฒ๋ณด๋ค ์ฌ๋ฌ ๋ฐํ์๋ก ํ์ตํ๋ ๊ฒ์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด๋ WaveNet์ ๋ด๋ถ representation์ด ์ฌ๋ฌ ๋ฐํ์๋ค ์ฌ์ด์ ๊ณต์ ๋๊ณ ์์์ ๋งํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก WaveNet์ด ๋ชฉ์๋ฆฌ ๊ทธ ์์ฒด ์ด์ธ์๋ ์ค๋์ค๋ก๋ถํฐ ๋ค๋ฅธ ํน์ง๋ค์ ํฌ์ฐฉํ์์ ํ์ธํ์ต๋๋ค.
3.2 Text-to-Speech
TTS ๋ฌธ์ ๋ฅผ ์ํด WaveNet์ ์ ๋ ฅ ํ ์คํธ๋ก๋ถํฐ ์ถ์ถํ ์ธ์ด์ ํน์ง(linguistic feature)์ ๋ถ๋ถ์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค. ๋ํ, ์ธ์ด์ ํน์ง์ logarithmic fundamental frequency $ \log F_{0}$์ ๋ํ์ฌ ํผ์น ์ ๋ณด๋ฅผ ์กฐ์ ํ ์ ์๋๋ก ํ์ตํฉ๋๋ค. ์ธ์ด์ ํน์ง์ผ๋ก๋ถํฐ $ \log F_{0} $ ๊ฐ๊ณผ ์์ duration์ ์์ธกํ๋ ์ธ๋ถ์ ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค. WaveNet์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ์ฃผ๊ด์ ์ธ ํ๊ฐ์ธ mean opinion score (MOS) ํ ์คํธ๋ฅผ ์งํํ์ต๋๋ค. MOS ํ ์คํธ์ ๊ฒฐ๊ณผ๋ ์๋์ ํ์ ๊ฐ์ต๋๋ค.
4. Conclusion
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ WaveNet์ autoregressiveํ๊ฒ ์์ฑ์ ์์ฑํฉ๋๋ค. WaveNet์ causal ํํฐ๋ค์ ํตํฉํ์ฌ ์์ฉ ์์ญ์ด ์ง์์ ์ผ๋ก ๊น์ด๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ์์ต๋๋ค. ๋ํ, WaveNet์ด ์ด๋ป๊ฒ ์ ๋ ฅ๊ฐ์ ๋ํ์ฌ global ํน์ localํ ๋ฐฉ์์ผ๋ก ์กฐ์ ๋๋์ง๋ฅผ ํ์ธํ์์ต๋๋ค. TTS ๋ฌธ์ ์ WaveNet์ ์ ์ฉํ ๊ฒฝ์ฐ, WaveNet์ผ๋ก ์์ฑํ ์ํ๋ค์ด ํ์กดํ๋ TTS ์์คํ ๋ค๋ณด๋ค ์์ฐ์ค๋ฌ์ด ๊ฒ์ ํ์ธํ์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก WaveNet์ ์์ ๋ชจ๋ธ๋ง๊ณผ ์์ฑ ์ธ์์ ์ ์ฉํ์์ ๋, ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
Reference
- V. Oord et al., "Pixel Recurrent Neural Networks," in ICML, 2016.
- Yu and Koltun, "Multi-scale Context Aggregation by Dilated Convolutions," in ICLR, 2016
* ์ธ์ฉ๋ ๋ ผ๋ฌธ์ ๋ ์์ง๋ง, ๋ณธ ์์ฝ์์ ์ธ๊ธํ ๋ ผ๋ฌธ๋ง์ ์ ๋ฆฌํ์ต๋๋ค.
์ฐธ๊ณ ์๋ฃ
- "WaveNet: A Generative Model for Raw Audio," https://www.deepmind.com/blog/wavenet-a-generative-model-for-raw-audio, 2016.
- "Types of Convolution Kernels: Simplified," https://towardsdatascience.com/types-of-convolution-kernels-simplified-f040cb307c37, 2019.
'์ธ๊ณต์ง๋ฅ ๋ ผ๋ฌธ ์์ฝ > Text-to-Speech' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Tacotron: Towards End-to-End Speech Synthesis ์์ฝ (0) | 2023.07.03 |
---|