hchang 28 Jun 2022

TACOTRON: TOWARDS END TO END SPEECH SYNTYESIS

Intro

일단 음성데이터를 다루는 일을 이제야 시작하려고 하는데, 솔직히 말해서 아는게 하나도 없었다. 오디오 분야에서는 44100Hz의 음성 데이터를 쓰는 일이 많은 것 같다. 사람은 20 ~ 20000 Hz 정도의 음성을 들을 수 있다.

mel-spectrogram tacotron부터는 음성데이터를 row하게 집어넣기보다는 mel-spectrogram을 사용한다. 여기서 mel-scale이라는 개념이 나오는데, 수식으로는 다음과 같다. \(m = 2595\ log_{10} \left(1 + {f \over 700}\right)\)

Abstract

tts(이하 A text-to-speech synthesis system) 보통 여러 단계를 거쳐서 이루어진다. 글자 분석, 음향모델, 오디오 발음 모듈 등. 이러한 요소들을 실현하는데에는 종종 광범위한 지식, 경험이 필요하고, 이는 brittle design choices도 포함한다. 본 논문에서 제시하는 Tacotron은 tts End to End 모델이다. <문자, 음향> 데이터가 주어지면, 모델은 학습할 수 있다. 핵심전략은 ???