top of page
TŁO STRONY_edited_edited.jpg

WSTĘP
czyli PARĘ SŁÓW O PROJEKCIE

Wirtualizacja głosu – tsunami nie do zatrzymania?

mgr Kamil Przełęcki – inicjator, autor i producent projektu

Gdyńska Szkoła Filmowa, Warszawska Szkoła Filmowa, Collegium Da Vinci, Wajda School


Projekt „Wirtualizacja narracji – lektorzy i narratorzy AI” właściwie nie zakładał, że wirtualizacja lektorów i narratorów zostanie jakkolwiek zatrzymana, ale skupiał się na badaniu, jaki mamy stan na dziś. Miał odpowiedzieć pytanie czy to już?

Wiele wskazuje na to, że to już – i nie jesteśmy w stanie odróżniać głosów generowanych od prawdziwych. Są jednak imponderabilia, które sprawiają, że transformacja nie musi być taka oczywista. W świecie opanowanym przez Spotify – młodzi ludzie zaczynają słuchać płyt gramofonowych. Dlaczego? Przecież są zawodne, rysują się, są duże, zajmują miejsce – nie można ich posłuchać w tramwaju, trzeba je kupić (a cena 10 piosenek przewyższa koszt miesięcznego dostępu do milionów utworów). A jednak zjawisko ma miejsce tu i teraz. I należy się nad nim pochylić. Może jest tak dlatego, że płyta ma „to coś”, czego nie ma plik z internetu – duszę? A może słuchanie płyty z gramofonu to celebra?

Podobnie jest z klonowaniem i generowaniem głosu – jest znakomite, niemal perfekcyjne. Słowo „niemal” ma tu jednak kluczowe znaczenie. Bo może jednak mamy swój ulubiony głos, którego właścicielem jest Tomasz Knapik, Piotr Fronczewski, Krystyna Czubówna, Krzysztof Gosztyła, Maciej Gudowski, Jacek Brzostyński czy Dariusz Szpakowski? I chcemy, by to oni opowiadali nam świat.

A co, jeśli jednak te głosy zostaną zwirtualizowane? Może w tej grze najcenniejsze jest to, by właśnie nie były wirtualizowane? By były mniej dostępne.

Zadajemy sobie te pytania i sami nie wiemy, czy to dobrze, że zachowujemy przed zapomnieniem znakomite głosy, które będą mogły w przyszłości przeczytać za 100 lat coś, czego jeszcze nie napisano? A może niedobrze, bo unikalne nagrania analogowe (jak płyta winylowa) mają tę duszę, której nie chcemy stracić?

A może to jest tak, że musimy sobie podzielić świat na różne obszary. Ten użytkowy, gdy lektor podaje nam listę zakupów, informuje o odjeżdżających pociągach, pomaga odczytać tekst bez okularów i relacjonuje przesłane nam SMS-y, gdy prowadzimy (jeszcze oldschoolowo sami) samochód. I ten inny - artystyczny obszar sacrum, w którym coś przeżywamy. Obszar, w którym wtapiamy się w opowieść spływającą z audiobooka, słuchowiska czy filmu.

Pewnie tak. Pewnie będziemy w przyszłości tak właśnie dzielić ten świat i wybierać to, co użytkowe i wymagające szybkości, i to, co ma dać nam przeżycia i przenieść w sferę sacrum.

Ale co, jeśli generowane głosy przez upowszechnienie wejdą w naszą głowę i tam zostaną. C Co jeśli znajdą taką konfigurację tempa, częstotliwości, barwy (wszak to tylko parametry cyfrowe, akustyczne, fizyczne) i dodadzą do czystego, wyuczonego przekazu oddechy, westchnienia, jęknięcia i stworzą nowego e-Knapika, e-Fronczewskiego, e-Czubównę.

I przyzwyczaimy się do nich i zaczniemy ich kochać jak tych prawdziwych ludzkich lektorów? Czy nasza jawa i cyfrowy sen nie zleją się w jedność i czy przypadkiem nie będziemy sami pewni tego, co jest lepsze i co nam się bardziej podoba?

Kolejne pytanie jest takie: czy będziemy w stanie zapłacić więcej za to, że tekst jest przeczytany przez ludzkiego lektora, a nie jego klon? Te wątpliwości leżały u progu pomysłu na ten projekt.

Pewne jest, że ostatnie dwa lata to tak szalona rewolucja, że nasze działania kilka razy musieliśmy modyfikować, bo jak już przygotowaliśmy się do czegoś, to trzeba było to zmieniać, bo właśnie powstała jakaś nowa aplikacja, jakiś serwis wprowadził nowe, lepsze, oszałamiające rozwiązanie. Wreszcie w krótkim czasie, w sierpniu i wrześniu 2025 – spięliśmy się i wykonaliśmy testy „na tu i teraz”, oparte specjalnie o średni zasób wejściowy, by dało się go ulepszyć. Wcześniej liczyliśmy, że uda się dorównać oryginałowi, a teraz wiemy, że możemy go poprawić, ulepszyć, uczynić perfekcyjnym – tylko czy to działa na korzyść odbioru?

 

Dzięki współpracy ze znakomitymi specjalistami (vide SEKCJA: SPECJALIŚCI) - mamy zatem próbki doskonałe, prawie doskonałe dobre i te gorsze, w których daje się wyczuć cyfrową ingerencję czy też syntezę. Ale wiemy, że za chwilę (a może już właśnie) można je będzie ulepszyć jak filtrem z rodzaju „GLAMOUR” na TikToku można poprawiać swoje twarze
i tworzyć ułudę rzeczywistości. Działa to jak maskony, o których pisał Stanisław Lem w „Kongresie Futurologicznym”.

I właściwie nie mamy tu wątpliwości: szybkość, niskie koszty, mały nakład pracy, by przenieść 1000 stron tekstu na audio – sprawią, że większość treści będzie w przyszłości generowana. Już jest. Przyjemniej w świecie kontentu niskiej (lub zadowalająco wystraczającej) jakości. 

Jednak coś nie daje mi spokoju i pewności w tych predykcjach. Przecież dziś każdy łatwo i wspaniale może fotografować świat (czytaj: tworzyć perfekcyjne obrazy) bez kosztu, bez ograniczeń, mając zawsze znakomity aparat fotograficzny (telefon) ze sobą, a i tak ludzie chodzą do galerii oglądać malowane na płótnie obrazy – mniej perfekcyjne w swojej fotorealistycznej naturalności. O co zatem chodzi? Może o tę niedoskonałość waśnie?

Inną kwestią jest odbiór przez ludzi. Podamy im wspaniałą jakość, znakomitą możliwość tworzenia treści, nieograniczone możliwości poprawy słabości i niedociągnięć. A oni i tak będą bardziej cenić tych, którzy wejdą do studia i staną naprzeciw mikrofonu. Ot, tajemnica konstrukcji człowieka. Ale też i tajemnica konstrukcji społeczeństw. Pewnie 90% uzna tę nową formę generowania głosu za wystarczająco dobrą (jak dziś chcąc zobaczyć aktorów -  większość ludzi wybiera film w telewizji, bo jest wygodnie i tanio). I pewnie 10% uzna ją za zbyt normalną, powszechną, pozbawioną duszy  - więc poszukają treści z „ludzkim” lektorem (jak dziś część osób chcąc mieć kontakt z aktorem -  wybiera pójście do teatru, choć jest drogo, gorzej widać, a wyjście wymaga czasu na dojazd i powrót).

W konkluzji doprowadzającej nas do badania wydaje nam się, że narracja i lektorzy czytający tłumaczenia (co jest geograficzną specyfiką, jeśli chodzi o Polskę) mogą czuć się zagrożeni w projektach masowych. Ale z drugiej strony, już niedługo znakiem szczególnym, atrybutem, elementem wyróżniającym może stać się informacja – że „w naszym filmie zagrają prawdziwi aktorzy”, czy też „w naszym filmie lektorem jest człowiek”. Świat się zmienia.

Ledwie nieco ponad 100 lat temu bogaty człowiek mógł sobie pozwolić na samochód, a biedny był skazany na posiadanie konia. Dziś się to odwróciło – biedny ma samochód, a bogaty konia. I może ten „human touch” stanie się wyróżnikiem za kilka lat, a moda czy przekonania ludzi sprawią, że takie właśnie projekty z „ludzkim wkładem” będą wybierać chętniej do mediowej konsumpcji z całego zalewu treści, jakich i tak nie są w stanie przerobić.

I będzie jak z fastfoodami (które bezrefleksyjnie, z wygody lub atrakcyjności ekonomicznej spożywa większość ludzkości) i zdrową żywnością, którą wybiera ledwie garstka. Ludzcy lektorzy będą więc jak „jajka od szczęśliwych kur z wolnego wybiegu”. Droższe, ale bardziej cenione. Jednak nie oszukujmy się — większość wybierze tanią i łatwo dostępną wirtualizację z możliwościami większymi od ludzkich. Nieliczni pozostaną wierni niuansom, o których masowa produkcja może zapomnieć.

Tak było z negatywem Kodaka — najpierw niedościgniony, choć naśladowany przez cyfrę, dziś już przez nią prześcignięty skończył jako bankrut. Tak było z kineskopowymi telewizorami, gonionymi przez słabe LED-y, które ostatecznie je wyprzedziły i pobiły bezprecedensowo (najpierw swoją płaskością, a później jakością). Tak było z niezniszczalnymi i wytrzymałymi telefonami Nokii z klawiaturą, bez której nie można było sobie wyobrazić telefonu. Tak było
z płytami DVD z dźwiękiem 5.1, które streaming starał się dogonić, oferując przez pierwsze lata czkający się obraz gorszej jakości. Dziś nawet najgorszy streaming nie schodzi do granicy PAL-u z jego 625 liniami analogowej rozdzielczości.

Kolej rzeczy. Rozwój. Ewolucja. Dla większości osób akceptowalnym jest, że stanie się nieuniknione. Dla mniejszej grupy sentyment pozwoli trwać ludzkim lektorom. Jak wyglądają proporcje – to chcieliśmy zbadać. I może się zdziwić wynikami.

W projekcie postanowiliśmy na sprawdzenie wirtualizacji w trzech obszarach. Audiobooki (czyli czytający narratorzy), filmy tłumaczone (czyli voice over lektora) i filmy animowane i kreowane (czyli dialogi aktorów w języku natywnym pre- i postsynchronizowanym i w dubbingu). Wydaje się, że w narracji audiobookowej i w lektorce tłumaczeń sprawa się już po prostu dokonała  - mniej lub bardziej niepostrzeżenie. Kwestią czasu jest „podmiana” podobna do tej z migracji z obrazu SD na  jakość HD. Jednak wydaje się, że aktorzy grający, kreujący role jeszcze mają trochę czasu zanim zostaną całkowicie zastąpieni. Dziś generuje i poprawia się ich w niewielkim stopniu. Nie z powodu braku możliwości (te są), ale z szacunku do „białkowej kreacji”. Ale może za 5 lat trzeba będzie zweryfikować i to radykalnie poziom wiary w ostanie się ludzkich aktorów w procesie produkcji. I być może dlatego właśnie warto ocalić od zapomnienia te wspaniałe wzorce stworzone przez człowieka.

 

©  2023-2025 Cineo Studio Sp. z o.o.

bottom of page