top of page
TŁO STRONY_edited_edited.jpg

EWOLUCJA SYNTEZY
czyli JAK TO BYŁO I JAK JEST?

Systemy syntezy mowy kiedyś i dziś

dr hab. inż., prof. PJATK Krzysztof Szklanny


Technologie syntezy mowy w ostatnich latach przeszły znaczącą ewolucję. Tradycyjne systemy syntezy mowy oparte na regułach i nagranych próbkach głosu zostały zastąpione przez rozwiązania oparte na sieciach neuronowych (DNN). Nowoczesne modele brzmią naturalnie i nadają mowie kontekst emocjonalny – od radości po smutek, zaskoczenie czy powagę.


W celu zrozumienia jak duży postęp dokonał się w dziedzinie cyfrowego przetwarzania sygnału poniżej zostaną opisane systemy syntezy mowy. Koncept cyfrowego syntezatora mowy formantowej został wprowadzony przez Dennisa Klatta w 1979 roku. Ten rodzaj syntezy opiera się na modelowaniu charakterystycznych cech mowy jakimi są formanty, czyli elementy, w których pasma energii dla danej głoski są największe. W uproszczeniu, brzmienie mowy samogłoski „a” można uzyskać za pomocą 5 formantów. Synteza mowy generowana w ten sposób brzmi sztucznie i nienaturalnie. Dzięki niskim wymaganiom obliczeniowym synteza ta przez lata była standardem w urządzeniach dla osób niedowidzących.
Przełomem w technologiach syntezy mowy było stworzenie modelu konkatenacyjnego. Był on rozwijany od lat 70., zyskał znaczącą popularność dzięki zdolności do generowania dobrej jakości, naturalnej, ale monotonnie brzmiącej mowy.

 

W syntezie konkatenacyjnej mowa jest generowana przez łączenie jednostek akustycznych, takich jak fonemy, difony, trifony i sylaby [2]. Zaletą tego typu syntezy był niewielki rozmiar bazy danych. Im mniejsza baza, tym mowa jest generowana szybciej, a wymagania sprzętowe są mniejsze [3]. Alternatywną metodą był system syntezy mowy korpusowej oparty na specjalnym korpusie, który zawiera wiele wystąpień jednostek akustycznych w różnych kontekstach, wykorzystując jednostki o różnej długości. Dzięki temu często unikało się błędów w miejscach łączenia tych jednostek, co pozwoliło na uzyskanie naturalnie brzmiącej mowy [4]. Najważniejszym elementem odpowiedzialnym za wybór segmentu akustycznego jest funkcja kosztu, która służy do oceny stopnia dopasowania dwóch jednostek, jeśli nie znajdują się one w sąsiednich pozycjach w bazie akustycznej, oraz do oceny które jednostki najbardziej odpowiadają cechom lingwistycznym zdania docelowego [5, 6]. Kolejne systemy syntezy mowy oparte zostały na ukrytych modelach Markowa (HMM) [7].

 

W pewnym sensie był to system podobny do syntezy konkatenacyjnej. Jednak zamiast stosowania segmentów naturalnej mowy, proces syntezy opiera się na kontekstowo-zależnych modelach HMM. Modele te są łączone zgodnie z tekstem do zsyntetyzowania, a powstałe wektory cech (obserwacje) służą jako podstawa do syntezowania mowy realizowanej przez konkretny filtr. W 2016 roku firma DeepMind Technologies opublikowała wyniki badań nad systemem WaveNet [8]. Według autorów, system zmniejszał różnicę między najlepszą dostępną syntezą mowy a mową naturalną o ponad 50%. Podobnie jak synteza HMM, metoda ta również opiera się na modelowaniu akustycznym. W zasadzie od tego momentu zdefiniowano syntezatory mowy oparte na głębokich sieciach neuronowych.


Podsumowując, przez około 30 lat technologia nie umożliwiła generowania mowy nieodróżnialnej od naturalnej i zawierającej emocje. Kolejne 9 lat przyniosło rewolucje zarówno w systemach obliczeniowych poprzez stosowanie karty graficznej, jak i technologicznych, które pozwoliły zamienić 6. godzinny korpus mowy na 10. sekundowy, który jest wystarczający do wytrenowania systemu syntezy. Istnieje wiele firm oraz serwisów internetowych, które pozwalają na sklonowanie głosu, co jeszcze kilka lat temu było nieosiągalne. Technologie te były zastrzeżone dla programistów i naukowców. Zaobserwowano, że nowoczesne technologie syntezy mowy oparte na DNN nie są w zasadzie dostępne bez przetwarzania danych w chmurze. Uruchomienie tych systemów lokalnie nadal pozostaje wyzwaniem, zaś podjęcie decyzji o przetwarzaniu głosu w chmurze niesie za sobą swoje konsekwencje. Dane te nie mogą być wykorzystane bezpośrednio przez firmy, ale mogą zostać użyte do poprawienia działania systemu np. Elevenlabs. Osoby, które kilka lat temu potrafiły uruchamiać te systemy lokalnie, założyły własne firmy czy startupy. Im więcej nagrań mówcy złożyli w danej firmie tym większe możliwości i lepszą jakość oferuje system syntezy mowy, potrafiąc dopasować się do nowego głosu. Jeśli system syntezy mowy X posiada w swej bazie model mówcy o parametrach zbliżonych do nagrań nowego głosu osoby Y, to automatycznie jakość syntezatora będzie lepsza. Kluczowe znaczenie dla jakości syntezy ma także jakość danych wejściowych – szczególnie korpusów zbalansowanych. Korpus zbalansowany to taki, który jest bogaty fonetycznie, zawiera wiele nieoczywistych słów połączonych ze sobą. Dzięki temu korpus staje się reprezentatywny dla języka polskiego. W projekcie „Wirtualizacja w narracji – lektorzy i narratorzy AI” użyto korpusu zbalansowanego zawierającego 100 zdań. Poniżej podano jedno z nich:

 

Fala powietrza z dzwonka nad drzwiami wejściowymi wdziera się do środka

 

Zdania zbalansowane są dość trudne do wymówienia i wymagają większej koncentracji podczas pracy głosem. Jednakże stosowanie korpusów zbalansowanych poprawia jakość syntetycznie brzmiącej mowy. Przeprowadzone badania wskazują na pewne cechy charakterystyczne systemów syntezy mowy opartych na DNN. Nowy głos trenowany na 30-100 zdaniach brzmi na tyle dobrze, że trudno jest rozróżnić, który pochodzi od lektora, a który od syntezatora mowy. Zauważano, że modulowany głos lektora, w którym zmienia on częstotliwość podstawową na niższą od naturalnej, jest jeszcze rozróżnialny, np. głos podobny do głosu Saurona we Władcy Pierścienia. W syntetycznym głosie pojawia się szum i artefakty dźwiękowe. Jest to związane z charakterystyką głosu ludzkiego, można oczekiwać, że w głosie kobiecym ten problem nie wystąpi. Częstotliwość głosu męskiego mieści się zazwyczaj w zakresie od 80 do 150 Hz, a kobiecego od 160 do 250 Hz. Problem ten jest mniej zauważalny również w głosie dziecięcym. Głos syntetyczny można wykryć na podstawie błędów akustycznych, brzmieniowych i artykulacyjnych. Wydaje się, że wyeliminowanie tych artefaktów jest możliwe poprzez zastosowanie wtyczek zmieniających brzmienie (korekcja częstotliwości podstawowej), takich jak Dehumaniser 2 firmy Krotos. Po ich zastosowaniu głos syntetyczny będzie praktycznie nieodróżnialny pod względem statystycznym od głosu lektora. Wtyczki te dotychczas były używane podczas pracy nad ścieżką dźwiękową w dubbingu czy audiobookach. Wydaje się, że zastosowanie ich w syntezie mowy jest kwestią czasu.

 

Błędy artykulacyjne mogą być wyeliminowane poprzez stosowanie korpusów bogatych fonetycznie. Ewolucja syntezy mowy – od prostych syntezatorów formantowych po zaawansowane modele DNN – pokazuje, jak szybko technologia przekracza granice tego, co jeszcze kilka lat temu wydawało się niemożliwe. Dziś synteza głosu osiąga jakość niemal nieodróżnialną od naturalnej mowy, otwierając nowe możliwości w edukacji, rozrywce czy pomocy dla osób z niepełnosprawnościami. Jednocześnie rodzi to pytania o bezpieczeństwo, prywatność i etykę – wyzwania, którym społeczeństwo i prawodawcy będą musieli sprostać, aby zapobiec nadużyciom. Przyszłość syntezy mowy zależeć będzie nie tylko od postępu algorytmów, ale także od odpowiedzialnego ich wykorzystania.

 

Wyniki tego projektu wskazały, że technologia zastąpiła już lektorów. Każdy tydzień przynosi nowe zmiany w technologiach przetwarzania języka naturalnego i mowy. Można je obserwować na platformach takich jak Hugging Face czy w mediach społecznościowych. Według artificialanalysis.ai [i] firma ElevenLabs utraciła podium wraz z Open AI na rzecz MiniMax. Oznacza to, rosnącą konkurencję, a to bardzo pozytywne zjawisko.

 

 

Literatura:

[1] Klatt, D.H. Software for a cascade/parallel formant synthesizer. J. Acoust. Soc. Am. 1980, 67, 971–995 [2] Khan, R.A.; Chitode, J.S. Concatenative speech synthesis: A Review. Int. J. Comput. Appl. 2016, 136, 1–6. [3] Taylor, P. Text-to-Speech Synthesis; Cambridge University Press: New York, NY, USA, 2009. [4] Kishore, S.P.; Black, A.W. Unit size in unit selection speech synthesis. In Proceedings of the Eighth European Conference on Speech Communication and Technology, Geneva, Switzerland, 1–4 September 2003. [5] Szklanny, K.; Koszuta, S. Implementation and verification of speech database for unit selection speech synthesis. In Proceedings of the 2017 Federated Conference on Computer Science and Information Systems (FedCSIS), Prague, Czech Republic, 3–6 September 2017. [6] Tokuda, K.; Kobayashi, T.; Masuko, T.; Imai, S. Mel-generalized cepstral analysis-a unified approach to speech spectral estimation. In Proceedings of the Third International Conference on Spoken Language Processing, Tokyo, Japan, 18–22 September 1994. [7] Oord, A.V.D.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A.; Kavukcuoglu, K. Wavenet: A generative model for raw audio. arXiv 2006, arXiv:1609.03499. Available online: https://doi.org/10.48550/arXiv.1609.03499 (accessed on 5 April 2022).
[i] https://artificialanalysis.ai/text-to-speech/arena?tab=leaderboard

©  2023-2025 Cineo Studio Sp. z o.o.

bottom of page