CELE

Celem projektu było stworzenie bazy do prototypu syntezatora mowy i opracowanie metody rejestracji opartej o zbalansowane korpusy języka polskiego oraz o nowe metody mapowania emocji (na bazie rozkładu emocji). To działania koncepcyjne i realizacyjne pociągające za sobą sesje nagraniowe z udziałem aktora w wielu wariantach emocji. Nagrania stanowią wsad do prototypu algorytmu generującego dźwięk w postaci mowy.

Projekt odpowiada na kilka potrzeb:

1) archiwizacyjną i kulturową (dziedzictwo kultury) poprzez zdeponowanie unikalnych zapisów
w najwyższej jakości formatach (192 kHZ, kilka planów mikrofonowych, praca w studio PROSOUND Dolby Atmos oraz testowe rejestracje EGG - elektroglotograf),

2) naukową – poprzez opracowania nagrań dźwiękowych i przygotowanie modelu pozwalającego na rozpoznanie i zmapowanie emocji oraz interpretacji aktorskich (z opcją udostępnienia nagrań do badań naukowych),

3) technologiczną – poprzez wykorzystanie syntezy mowy jako produktu technologicznego pozwalającego na poprawę jakości produkcji w branżach audiowizualnych,

4) kreacyjną – poprzez posiadanie zmapowanego systemu interpretacji i emocji pozwalającego na tworzenie nowych utworów audiowizualnych o charakterze INTERAKTYWNYM (w przeciwieństwie do pasywnych form),

5) społeczną - poprzez możliwości użycia w kulturze (przewodniki w muzeach) i psychologii (terapie)

6) kulturową - poprzez audiobooki tworzone automatycznie w szerokim dostępie w mistrzowskich wykonaniach.

Chcemy nasz projekt rozwijać do postaci funkcjonującego systemu, pozwalającego na automatyczną lub półautomatyczną syntezę tekstu na głos do wykorzystywania w wielu branżach, w tym nam najbliższej - czyli kreatywnej - z obszaru filmu i telewizji. W trakcie zadania zbudowaliśmy unikalne kompetencje mapowania emocji w syntezie mowy i unikalne metody budowania emocji.

Wielobranżowość wykorzystania daje szansę połączenia branż w wirtualne światy obrazu, dźwięku i interakcji, co zdecydowanie wpływa na możliwości powstania nowych form artystycznych wykorzystujących multimedia
i nowe technologie cyfrowe (dubbing / gry / książki / przewodniki / interaktywne poradniki).

Efekty zadania:

BAZA DANYCH WEJŚCIOWYCH - DŹWIĘKI:

- nagrania korpusów

- nagrania wersji w różnych emocjach

- nagrania małych form literackich

BAZA DANYCH WEJŚCIOWYCH - ANOTACJE:

- opisy nagrań - wg schematów dla syntezy mowy i emocji

BAZA DANYCH WEJŚCIOWYCH - OPRACOWANIE:

- opis podziału nagrań na fonemy (najmniejsze cząstki mowy)

KONCEPT MAPY EMOCJI - TEORIA:

- przygotowanie modelu emocji i charakterystyk adekwatnych do modelu z nagrań

- wyznaczenie emocji głównych i pochodnych

- opracowanie parametrów wzorcowych dla emocji

KONCEPT MAPY EMOCJI - TESTY:

- przygotowanie testowych nagrań poza korpusowych i korpusowych

- przygotowanie zakresu dźwięków nieartykułowanych i niewerbalnych

MODEL SYNTEZATORA - ZAŁOŻENIA:

- przygotowanie założeń algorytmu syntezatora dla uczenia maszynowego

- wykonanie struktury parametrów wiodących przy generowaniu emocji

- nałożenie widma dźwięku na różne modele emocji (poszukiwanie zależności i prawideł)

MODEL SYNTEZATORA – DOKUMENTACJA TECHNICZNA:

- przygotowanie zarysu dokumentacji technicznej dla modelu

PODSUMOWANIE PROJEKTU TWORZENIA PROTOTYPU – OPIS:

- przygotowanie opisu prototypu

Fazy prac:

FAZA I:

Przygotowanie nagrań – wybór treści (korpusy i literatura – fragmenty powieści, scenariuszy, słuchowisk, artykułów, tematy mowy wolnej, poematy, instrukcje obsługi itp. – różne gatunkowo i interpretacyjnie).

FAZA II:

Opracowanie mapy emocji i mapy interpretacyjnej. W oparciu o teorię 8 emocji Roberta Plutchika i zachowania adaptacyjne i stopień natężenia. Podział emocji (np. radość, zaufanie, strach, zaskoczenie, smutek, wstręt, gniew, niecierpliwość) i ich funkcja w interpretacji (np. kpina, żart, dowcip, sarkazm, protekcjonalność, wyniosłość, itp.)

FAZA III:

Realizacja nagrań z udziałem aktora. Różne warianty nagrań z różnymi emocjami. Anotacje bieżące
i postpodukcyjne.

FAZA IV:

Wyciąganie wniosków poprzez analizę nagrań i metadanych potrzebnych do budowy modelu syntezy mowy. Rozwiazywanie problemu „nowych emocji” sąsiadujących (dane metryczne – częstotliwość, barwa, dynamika).

FAZA V:

Opis prototypu modelu syntezatora mowy z elementami modyfikacji emocjonalnej. W całości zadania korzystamy z nabytych kompetencji (aktorstwo filmowe i jego rejestracja technologiczna) i tworzymy nowe kompetencje - generujące i pozwalające na modyfikację interpretacji.