hchang 28 Jun 2022

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

1. Abstract

text를 바로 사람의 음성으로 바꾸는 Tacotron 2에 대해 얘기해보자. rnn seq2seq model로 이루어져있다. Wavenet에서 conditioning input으로 주던 linguistic, duration, and $F_0$ features 대신 mel-spectrogram을 이용한다.

$F_0 features$: 가장 강한 주파수. wavenet의 개형은 아래와 같다.

Wavenet image

2. Introduction

텍스트언어로 부터 자연어 발화를 얻어내는 것은 지난 수십년간의 발전에도 불구하고 아직 도전과제로 남아있다.

Tacotron2 graph