hchang 28 Jun 2022
0.
text를 바로 사람의 음성으로 바꾸는 Tacotron 2에 대해 얘기해보자. rnn seq2seq model로 이루어져있다. Wavenet에서 conditioning input으로 주던 linguistic, duration, and $F_0$ features 대신 mel-spectrogram을 이용한다.
텍스트언어로 부터 자연어 발화를 얻어내는 것은 지난 수십년간의 발전에도 불구하고 아직 도전과제로 남아있다.