CELE
Celem projektu było stworzenie bazy do prototypu syntezatora mowy i opracowanie metody rejestracji opartej o zbalansowane korpusy języka polskiego oraz o nowe metody mapowania emocji (na bazie rozkładu emocji). To działania koncepcyjne i realizacyjne pociągające za sobą sesje nagraniowe z udziałem aktora w wielu wariantach emocji. Nagrania stanowią wsad do prototypu algorytmu generującego dźwięk w postaci mowy.
Projekt odpowiada na kilka potrzeb:
1) archiwizacyjną i kulturową (dziedzictwo kultury) poprzez zdeponowanie unikalnych zapisów
w najwyższej jakości formatach (192 kHZ, kilka planów mikrofonowych, praca w studio PROSOUND Dolby Atmos oraz testowe rejestracje EGG - elektroglotograf),
2) naukową – poprzez opracowania nagrań dźwiękowych i przygotowanie modelu pozwalającego na rozpoznanie i zmapowanie emocji oraz interpretacji aktorskich (z opcją udostępnienia nagrań do badań naukowych),
3) technologiczną – poprzez wykorzystanie syntezy mowy jako produktu technologicznego pozwalającego na poprawę jakości produkcji w branżach audiowizualnych,
4) kreacyjną – poprzez posiadanie zmapowanego systemu interpretacji i emocji pozwalającego na tworzenie nowych utworów audiowizualnych o charakterze INTERAKTYWNYM (w przeciwieństwie do pasywnych form),
5) społeczną - poprzez możliwości użycia w kulturze (przewodniki w muzeach) i psychologii (terapie)
6) kulturową - poprzez audiobooki tworzone automatycznie w szerokim dostępie w mistrzowskich wykonaniach.
Chcemy nasz projekt rozwijać do postaci funkcjonującego systemu, pozwalającego na automatyczną lub półautomatyczną syntezę tekstu na głos do wykorzystywania w wielu branżach, w tym nam najbliższej - czyli kreatywnej - z obszaru filmu i telewizji. W trakcie zadania zbudowaliśmy unikalne kompetencje mapowania emocji w syntezie mowy i unikalne metody budowania emocji.
Wielobranżowość wykorzystania daje szansę połączenia branż w wirtualne światy obrazu, dźwięku i interakcji, co zdecydowanie wpływa na możliwości powstania nowych form artystycznych wykorzystujących multimedia
i nowe technologie cyfrowe (dubbing / gry / książki / przewodniki / interaktywne poradniki).
Efekty zadania:
BAZA DANYCH WEJŚCIOWYCH - DŹWIĘKI:
- nagrania korpusów
- nagrania wersji w różnych emocjach
- nagrania małych form literackich
BAZA DANYCH WEJŚCIOWYCH - ANOTACJE:
- opisy nagrań - wg schematów dla syntezy mowy i emocji
BAZA DANYCH WEJŚCIOWYCH - OPRACOWANIE:
- opis podziału nagrań na fonemy (najmniejsze cząstki mowy)
KONCEPT MAPY EMOCJI - TEORIA:
- przygotowanie modelu emocji i charakterystyk adekwatnych do modelu z nagrań
- wyznaczenie emocji głównych i pochodnych
- opracowanie parametrów wzorcowych dla emocji
KONCEPT MAPY EMOCJI - TESTY:
- przygotowanie testowych nagrań poza korpusowych i korpusowych
- przygotowanie zakresu dźwięków nieartykułowanych i niewerbalnych
MODEL SYNTEZATORA - ZAŁOŻENIA:
- przygotowanie założeń algorytmu syntezatora dla uczenia maszynowego
- wykonanie struktury parametrów wiodących przy generowaniu emocji
- nałożenie widma dźwięku na różne modele emocji (poszukiwanie zależności i prawideł)
MODEL SYNTEZATORA – DOKUMENTACJA TECHNICZNA:
- przygotowanie zarysu dokumentacji technicznej dla modelu
PODSUMOWANIE PROJEKTU TWORZENIA PROTOTYPU – OPIS:
- przygotowanie opisu prototypu
Fazy prac:
FAZA I:
Przygotowanie nagrań – wybór treści (korpusy i literatura – fragmenty powieści, scenariuszy, słuchowisk, artykułów, tematy mowy wolnej, poematy, instrukcje obsługi itp. – różne gatunkowo i interpretacyjnie).
FAZA II:
Opracowanie mapy emocji i mapy interpretacyjnej. W oparciu o teorię 8 emocji Roberta Plutchika i zachowania adaptacyjne i stopień natężenia. Podział emocji (np. radość, zaufanie, strach, zaskoczenie, smutek, wstręt, gniew, niecierpliwość) i ich funkcja w interpretacji (np. kpina, żart, dowcip, sarkazm, protekcjonalność, wyniosłość, itp.)
FAZA III:
Realizacja nagrań z udziałem aktora. Różne warianty nagrań z różnymi emocjami. Anotacje bieżące
i postpodukcyjne.
FAZA IV:
Wyciąganie wniosków poprzez analizę nagrań i metadanych potrzebnych do budowy modelu syntezy mowy. Rozwiazywanie problemu „nowych emocji” sąsiadujących (dane metryczne – częstotliwość, barwa, dynamika).
FAZA V:
Opis prototypu modelu syntezatora mowy z elementami modyfikacji emocjonalnej. W całości zadania korzystamy z nabytych kompetencji (aktorstwo filmowe i jego rejestracja technologiczna) i tworzymy nowe kompetencje - generujące i pozwalające na modyfikację interpretacji.