Порівняльний аналіз систем для автоматизованого озвучення відео
Анотація
Метою цієї роботи є проведення всебічного порівняльного аналізу сучасних систем синтезу мовлення (TTS), які знаходять застосування в автоматизованому озвученні відеоконтенту. Особлива увага приділяється дослідженню їх архітектурних особливостей, фундаментальних принципів функціонування, а також оцінці якості та швидкості генерації мовлення. До того ж важливим аспектом є виявлення ключових тенденцій, що визначають подальший розвиток технологій у цій динамічній галузі.
Посилання
A Survey on Neural Speech Synthesis / X. Tan, T. Qin, F. Soong, T. -Y. Liu. arXiv.org. 2021. URL: https://arxiv.org/abs/2106.15561 (дата звернення: 12.05.2025).
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions / J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. J. SkerryRyan, R. A. Saurous, Y. Agiomyrgiannakis, Y. Wu. arXiv.org. 2017. URL: https://arxiv.org/abs/ 1712.05884 (дата звернення: 12.05.2025).
WaveNet: A Generative Model for Raw Audio / A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu. arXiv.org. 2016. URL: https://arxiv.org/abs/1609.03499 (дата звернення: 12.05.2025).
Towards achieving robust universal neural vocoding / J. Lorenzo-Trueba, T. Drugman, J. Latorre, T. Merritt, B. Putrycz, R. Barra-Chicote, A. Moinet, V. Aggarwal. arXiv.org. 2018. URL: https://arxiv.org/abs/1811.06292 (дата звернення: 12.05.2025).
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech / Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, T.-Y. Liu. arXiv.org. 2020. URL: https://arxiv.org/abs/2006.04558 (дата звернення: 12.05.2025).