Порівняльний аналіз систем для автоматизованого озвучення відео

Д. І. Колібабчук; П. В. Римар

Автор(и)

Д. І. Колібабчук Донецький національний університет імені Василя Стуса
П. В. Римар Донецький національний університет імені Василя Стуса

Анотація

Метою цієї роботи є проведення всебічного порівняльного аналізу сучасних систем синтезу мовлення (TTS), які знаходять застосування в автоматизованому озвученні відеоконтенту. Особлива увага приділяється дослідженню їх архітектурних особливостей, фундаментальних принципів функціонування, а також оцінці якості та швидкості генерації мовлення. До того ж важливим аспектом є виявлення ключових тенденцій, що визначають подальший розвиток технологій у цій динамічній галузі.

Біографії авторів

Д. І. Колібабчук , Донецький національний університет імені Василя Стуса

здобувач вищої освіти 4 курсу спеціальності 122 Комп’ютерні науки

П. В. Римар , Донецький національний університет імені Василя Стуса

старший викладач кафедри інформаційних технологій

Посилання

A Survey on Neural Speech Synthesis / X. Tan, T. Qin, F. Soong, T. -Y. Liu. arXiv.org. 2021. URL: https://arxiv.org/abs/2106.15561 (дата звернення: 12.05.2025).

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions / J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. J. SkerryRyan, R. A. Saurous, Y. Agiomyrgiannakis, Y. Wu. arXiv.org. 2017. URL: https://arxiv.org/abs/ 1712.05884 (дата звернення: 12.05.2025).

WaveNet: A Generative Model for Raw Audio / A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu. arXiv.org. 2016. URL: https://arxiv.org/abs/1609.03499 (дата звернення: 12.05.2025).

Towards achieving robust universal neural vocoding / J. Lorenzo-Trueba, T. Drugman, J. Latorre, T. Merritt, B. Putrycz, R. Barra-Chicote, A. Moinet, V. Aggarwal. arXiv.org. 2018. URL: https://arxiv.org/abs/1811.06292 (дата звернення: 12.05.2025).

FastSpeech 2: Fast and High-Quality End-to-End Text to Speech / Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, T.-Y. Liu. arXiv.org. 2020. URL: https://arxiv.org/abs/2006.04558 (дата звернення: 12.05.2025).

Порівняльний аналіз систем для автоматизованого озвучення відео

Автор(и)

Анотація

Біографії авторів

Д. І. Колібабчук , Донецький національний університет імені Василя Стуса

П. В. Римар , Донецький національний університет імені Василя Стуса

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Інформація

Мова