top of page
TŁO STRONY_edited_edited.jpg

SYNTEZA AI

Raport z dziań w zakresie syntezy AI

dr Jolnata Bachan
mgr inż. Marek Lange

 

Celem projektu było wygenerowanie głosów za pomocą najnowszych systemów syntezy
i konwersji mowy. Prace zostały podzielone na 2 etapy:

1.      trenowanie modelu i generowanie materiału do testu porównawczego

2.      generowanie różnych głosów postaci do użycia w materiałach audiowizualnych
i audiobooku: dialogi po polsku, dialogi po angielsku, lektor, narrator.

Test porównawczy

Folder TEST_PORÓWNAWCZY zawiera 3 foldery, które odpowiadają nazwom aplikacji użytych do generowania mowy.

1.      APPLIO - A simple, high-quality voice conversion tool focused on ease of use and performance, <applio.org>

2.      ELEVEN - The most realistic voice AI platform, <elevenlabs.io>

3.      MINIMAX – Enhanced Multilingual Expressiveness Exceptional Voice Cloning Fidelity <www.minimax.io>

 

Dla wszystkich trzech aplikacji użyto tego samego materiału uczącego oraz testowego (porównawczego). Materiał testowy – wyłączony z materiału uczącego – stanowiły 3 nagrania zdań oznaczone numerami 27, 28, 29.

Do stworzenia modeli zostały użyte głosy ludzkie:

1.      dla głosu KS (NORMAL) użyto nagrań zdań bogatych fonetycznie (teksty od 01 do 100, z wyłączeniem nagrań testowych) – łącznie 97 zdań,

2.      dla głosów HIGH, LOW, MID, OLD użyto nagrań od 01 do 26, oraz nagranie 30, łącznie 27 zdań.

Wygenerowano materiały do testu porównawczego dla każdego głosu (łącznie 5 głosów).

Nagrania syntetyczne dla APLLIO wygenerowane zostały przez aplikację ElevenLabs, ponieważ Apllio nie jest typowym syntezatorem mowy text-to-speech (TTS), ale speech-to-speech, Applio potrzebuje nagrania źródłowego, na który nakłada się model głosu. Applio potrafi tworzyć modele głosu oraz modyfikować jeden głos w drugi lub tworzyć nowe głosy z wielu innych głosów – mieszając je. Applio domyślnie wykorzystuje EdgeTTS, ale dla języka polskiego nie działa on poprawnie – pojawiają się błędy wymowy „ż”, „sz”, itp. Dla obecnych testów użyto syntezy ElevenLabs (głos neutralny), która generuje poprawnie mowę polską. Parametry ustawiono na niską stabilność i dużą „przesadę”, aby upodobnić nagrania z TTS do modelowanego głosu).

 

Dla aplikacji ElevenLabs zostały wygenerowane pliki z użyciem modelu V2. Aplikacja pozwala na wybór różnych parametrów, których wartości zawarte są w nazwie pliku. Przykładowa nazwa pliku:

ELEVEN_TTS_V2_KS_normal_ivc_sp81_s35_sb91_se89_b_m2_t27.mp3

 

Parametry, którymi można manipulować (z liczbami w nazwie pliku) przy generowaniu mowy, są wymienione poniżej:

•      V2 – nazwa użytego modelu dodana przez autora testu (dostępna jest również wersja V3)

•      sp - speed

•      s - similarity

•      sb - stability

•      se – exaggeration

•      m2 – model

•      t – tekst (numer nagrania/zdania)

Dla aplikacji Minimax użyto syntezy utworzonej przez Instant Clone (ulimate similarity ultra-high quality, który potrafi sklonować głos z próbki o długości minimum 10 sekund do maksimum 300 sekund.

Ta pochodząca z Chin aplikacja ma bardzo podobne funkcje do ElevenLabs.

Tekst czytany (dialogi filmowe / audiobook)

Drugą część testów stanowiło wygenerowanie mowy syntetycznej do materiałów audiowizualnych (filmu) oraz audiobooka. Materiały podzielono na:

1.      dialogi po polsku – materiał dźwiękowy wygenerowany dla różnych głosów postaci ze scenariusza „Przeprawa...”

2.      dialogi po angielsku – materiał dźwiękowy wygenerowany dla różnych głosów postaci ze scenariusza „Przeprawa...” – polski tekst został automatycznie przetłumaczony na język angielski

3.      lektor (voice over) – tekst ze scenariusza „Przeprawa...” wygenerowany w formie lektorskiej do późniejszego nałożenia na angielskie dialogi

4.      narrator – cały tekst „Przeprawy...” wygenerowany na wzór audiobooka zawierający opisy oraz tekst dialogów z interpretacją narratorską

 

Wszystkie materiały dźwiękowe zostały wygenerowane w aplikacji ElevenLabs. Teksty użyte do syntezy mowy znajdują się w załączniku. Do testów na licencji  ze scenariusza „Przeprawa ...” autorstwa Kamila Przełęckiego (2025) wybrano sceny: 9, 10, 17. W scenach tych wypowiadają się następujące postaci (kolejność alfabetyczna):

1.      Budżet

2.      Harmonogram

3.      Impostor Vat

4.      Kalendarzówka

5.      Kosztorys

6.      Scenariusz

Dla każdej postaci nagrany został modelowy głos ludzki, który był użyty do wytrenowania modelu syntezy mowy. Jeden lektor - K1 - Kamil, zamodelował wszystkie głosy męskie. Jedynie dla głosu damskiego (Kalendarzówki) zostały użyte naturalne nagrania kobiecego głosu - N1 - Natalii.

Stworzono:

- wersję lektorską tekstu dialogów po polsku, która ma zostać nałożona na wypowiedzi postaci w wersji angielskiej.
Mowa lektorska charakteryzuje się monotonnością.

- wersję wygenerowanych całych scen ze scenariusza „Przepaści..” wraz z opisami na wzór audiobooka.

 

Teksty zawierają tagi w nawiasach kwadratowych, którymi modulowano głos syntetyczny narratora. Użyte tagi to:

[announcing]

[bawls]

[calmly]

[clears throat]

[cries out]

[determined]

[exhales sharply]

[nods]

[roars]

[roars]

[screams]

[screams]

[shouting]

[sighs]

[thoughtful]

[whisper, scared]

[whisper]

[yells]

 

Podsumowanie

Przygotowany materiał został poddany ewaluacji odsłuchowej. Mowa polska wygenerowana była poprawnie
(błąd w wyrazie „obmierzły” – zapis zastąpiono „obmier-zły”), natomiast mowa angielska była z charakterystycznym polskim akcentem (prawdopodobnie dlatego, że do trenowania użyto mowy polskiej).

©  2023-2025 Cineo Studio Sp. z o.o.

bottom of page