hchang   28 Jun 2022

TACOTRON: TOWARDS END TO END SPEECH SYNTYESIS



Intro

일단 음성데이터를 다루는 일을 이제야 시작하려고 하는데, 솔직히 말해서 아는게 하나도 없었다. 오디오 분야에서는 44100Hz의 음성 데이터를 쓰는 일이 많은 것 같다. 사람은 20 ~ 20000 Hz 정도의 음성을 들을 수 있다.

Abstract

tts(이하 A text-to-speech synthesis system) 보통 여러 단계를 거쳐서 이루어진다. 글자 분석, 음향모델, 오디오 발음 모듈 등. 이러한 요소들을 실현하는데에는 종종 광범위한 지식, 경험이 필요하고, 이는 brittle design choices도 포함한다. 본 논문에서 제시하는 Tacotron은 tts End to End 모델이다. <문자, 음향> 데이터가 주어지면, 모델은 학습할 수 있다. 핵심전략은 ???