Preview

Вестник СибГУТИ

Расширенный поиск

Использование векторных представлений текста для синтеза эмоциональной речи

https://doi.org/10.55648/1998-6920-2021-15-4-23-31

Аннотация

Исследуется возможность синтеза эмоциональной речи при помощи глобальных векторов стиля. Предлагается новый метод синтеза эмоциональной речи, использующий векторные представления эмоций на основе текстов. Демонстрируется реализация метода на авторегрессионной архитектуре Tacotron 2 и на базе трансформера FastSpeech 2.

Об авторе

В. С. Болдаков
СибГУТИ
Россия


Список литературы

1. Shen J., Pang R., Weiss R et al. Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions //2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada, April 15 - April 20, 2018. P. 4779-4783.

2. Ren Y., Hu C., Tan X. et al. FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. [Электронный ресурс]. URL: https://arxiv.org/abs/2006.04558 (дата обращения: 09.09.2021).

3. Felbo B., Mislove A., SogaardA. etal. Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm // Conference on Empirical Methods in Natural Language Processing, Copenhagen, Denmark, September, 2017. P. 1615-1625.

4. Wang Y, Stanton D., Zhang Y. et al. Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis. [Электронный ресурс]. URL: https://arxiv.org/abs/1803.09017 (дата обращения: 19.09.2021).

5. McAuliffe M., Socolof M., Mihuc S. et al. Montreal Forced Aligner: Trainable Text-Speech Alignment Using Kaldi // INTERSPEECH 2017: Conference of the International Speech Communication Association, Stockholm, Sweden, August 20 - August 24, 2017. P. 498-502.

6. Zhu X., Zhang Y., Yang S. et al. Pre-Alignment Guided Attention for Improving Training Efficiency and Model Stability in End-to-End Speech Synthesis // IEEE Access. 2019. V. 7. P. 65955-65964.

7. Болдаков В. С. Примеры синтеза эмоциональной речи на базе Tacotron 2. [Электронный ресурс]. URL: https://bit.ly/3nOPHRN (дата обращения: 09.09.2021).

8. Болдаков В. С. Примеры синтеза эмоциональной речи на базе FastSpeech 2. [Электронный ресурс]. URL: https://bit.ly/39i0T15 (дата обращения: 09.09.2021).

9. Ito K., Johnson L. The LJ Speech Dataset. [Электронный ресурс]. URL: https://keithito.com/LJ-Speech-Dataset/(дата обращения: 09.09.2021).

10. Luo L., Wang Y. et al. EmotionX-HSU: Adopting Pre-trained BERT for Emotion Classification. [Электронный ресурс]. URL: https://arxiv.org/pdf/1907.09669.pdf (дата обращения: 19.09.2021).


Рецензия

Для цитирования:


Болдаков В.С. Использование векторных представлений текста для синтеза эмоциональной речи. Вестник СибГУТИ. 2021;(4):23-31. https://doi.org/10.55648/1998-6920-2021-15-4-23-31

For citation:


Boldakov V... Emotional Speech Synthesis with Emotion Embeddings. The Herald of the Siberian State University of Telecommunications and Information Science. 2021;(4):23-31. (In Russ.) https://doi.org/10.55648/1998-6920-2021-15-4-23-31

Просмотров: 471


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6920 (Print)