Expressive Tacotron (implementation with Pytorch)

Introduction

This repository provides a multi-mode and multi-speaker expressive speech synthesis framework, including multi-attentive Tacotron, DurIAN, Non-attentive Tacotron.

The framework also includes various deep learning architectures such as Global Style Token (GST), Variational Autoencoder (VAE), and Gaussian Mixture Variational Autoencoder (GMVAE), and X-vectors for building prosody encoder.

Only provides kernel model files, not including data prepared scripts, training scripts and synthesis scripts
You can reference ExpressiveTacotron for more training scripts

Available recipes

Expressive Mode

Framework Mode

Differences

Non-attentive Tacotron: duration stacked convolution layers are concatenated with encoder outputs

Acknowledgements

This implementation uses code from the following repos: NVIDIA, ESPNet, ERISHA, ForwardAttention

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
README.md		README.md
TDNN_gpu.py		TDNN_gpu.py
gmvae.py		gmvae.py
hparams.py		hparams.py
loss_function.py		loss_function.py
model_attention.py		model_attention.py
model_duration.py		model_duration.py
modules.py		modules.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Expressive Tacotron (implementation with Pytorch)

Introduction

Available recipes

Expressive Mode

Framework Mode

Differences

Acknowledgements

About

Releases

Packages

Languages

BridgetteSong/ExpressiveTacotron

Folders and files

Latest commit

History

Repository files navigation

Expressive Tacotron (implementation with Pytorch)

Introduction

Available recipes

Expressive Mode

Framework Mode

Differences

Acknowledgements

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages