Dziesięciu światowych przywódców, w tym Donald Trump, Władimir Putin i Kim Dzong Un, śpiewa przebój Johna Lennona "Imagine" na filmie, który rozpoczyna się od komunikatu: "to, co zobaczysz, nie jest prawdziwe". Twórcy wideo chcieli pokazać świat idealny, ale w rzeczywistości ostrzegli przed jednym z jego rosnących w siłę zagrożeń.
Rozpoczyna Donald Trump siedzący w Białym Domu i ruszający ustami zgodnie ze słowami piosenki Johna Lennona: "wyobraź sobie, że nie ma nieba". Następne wersy utworu dokładają Władimir Putin, Theresa May i Barack Obama. Z ust prezydenta Chin Xi Jinpinga słyszymy: "wyobraź sobie, że nie ma państw", a premier Izraela Benjamin Netanjahu wraz z prezydentem Iranu Hasanem Rouhanim dodają do tego zgodnie: "i religii również".
Łącznie na filmie można zobaczyć dziesięciu światowych liderów, którzy z podziałem na części zaśpiewali przebój Johna Lennona "Imagine". Wideo rozpoczyna się jednak od krótkiego komunikatu: "To, co zobaczysz, nie jest prawdziwe. Ale może być".
Materiał stworzony przez izraelski start-up Canny AI (AI - artificial intelligence = sztuczna inteligencja) ma pełnić kilka funkcji. Najbardziej prozaiczną jest reklama własnego narzędzia internetowego. Bardziej patetyczną jest apel do rządzących, aby zgodnie z ideałami utworu, dążyli do pełnej zgody.
Zmontowane wideo to także ostrzeżenie, że współczesny świat zamiast szukać porozumienia wytwarza narzędzia, które mogą doprowadzić do jego destabilizacji. Jednym z takich zagrożeń jest deep fake - technologia, która ciągle rośnie w siłę.
"Mamy naprawdę przerąbane"
W przypadku zjawiska tzw. "deep fake" (z ang. "głębokiej fałszywki") występuje zależność - im mniejsza jest jego świadomość wśród użytkowników internetu, tym bardziej jest niebezpieczne i potencjalnie skuteczne. Opiera się na wykorzystaniu technologii, która na podstawie zdjęć, nagrań czy wystąpień danej osoby "uczy się" jej mimiki czy ruchu ust. Jeśli dostanie do przeanalizowania także nagrania dźwiękowe, będzie w stanie "zapamiętać" intonację, styl mówienia czy sposób wypowiadania konkretnych słów.
Dzięki tym połączonym i przeanalizowanym informacjom specjalne oprogramowanie jest w stanie "stworzyć" wideo, na którym dana osoba będzie mówić dokładnie to, co chce twórca filmu, a w dodatku ruch jej ust będzie odwzorowywał wypowiadane przez bohatera "nagrania" słowa. To połączenie powoduje, że zwykły odbiorca materiału może nawet nie pomyśleć o tym, że danych kwestii tak naprawdę nie wypowiedział Donald Trump czy Władimir Putin, a anonimowy użytkownik internetu, który skorzystał ze specjalnego oprogramowania.
O jednym z głośniejszych przykładów deep fake, który został stworzony w celu skompromitowania znanej osoby, pisaliśmy już w zeszłym roku dla Magazynu TVN24. Wtedy ofiarą padła znana z roli Wonder Woman aktorka Gal Gadot.
Na opublikowanym w sieci filmie można było zobaczyć, jak uprawia seks z przyrodnim bratem. W rzeczywistości całe nagranie było filmem pornograficznym, na którym oryginalnie wystąpiła inna kobieta. Za pomocą technologii do tworzenia deep fake jej twarz została zamieniona z twarzą gwiazdy izraelskiego kina. Gdy redakcja Motherboard, portalu poświęconego technologii i nauce, jako pierwsza opisywała sytuację z fałszywką, swój tekst zatytułowała: "Mamy naprawdę przerąbane".
Pozytywne zastosowania
Filmik z przywódcami państw śpiewającymi "Imagine" to także przykład deep fake. W przeciwieństwie do fałszywego porno z Gal Gadot nie miał on jednak na celu skompromitować, zdyskredytować czy ośmieszyć jego bohaterów. Wręcz przeciwnie. Jego twórcy - dwóch Izraelczyków, którzy założyli i prowadzą start-up Canny AI - podkreślali, że przy pomocy tego nagrania chcą udowodnić, że technologia deep learning (ang. głębokiego uczenia), która pozwala na tworzenie takich materiałów, nie musi być używana wyłącznie w złych celach.
Jeden z autorów, Omer Ben-Ami, mówił w wywiadzie dla branżowego portalu fxguide.com, że
Pojawiło się wiele szumu wokół fake newsów tworzonych przy użyciu tej technologii, a my chcieliśmy zrobić coś z silnie jednoczącą myślą pokazania jej pozytywnych zastosowań. Omer Ben-Ami
Właściciele Canny AI poprzez realizację alternatywnego wideo do piosenki "Imagine", nie tylko pokazują potencjał deep learningu, ale także promują stworzone przez siebie narzędzia, które umożliwiają właśnie "wkładanie" własnych wypowiedzi w usta innych ludzi w materiałach wideo.
Jak podkreślają sami twórcy, takie rozwiązanie może okazać się niezwykle przydatne np. przy tworzeniu dubbingu w filmach. Obecnie problemem jest niezgranie ruchów ust aktorów z wypowiedziami dubbingujących je w innych językach osób. Zniwelowanie tego efektu jest możliwe właśnie przy użyciu technologii, która obecnie kojarzy się głównie z "nagrywaniem" potencjalnie szkodliwych deep fake.
Niebezpieczeństwo stoi za rogiem
Mimo podniosłych idei, które przyświecały Izraelczykom z Canny AI przy tworzeniu filmiku ze śpiewającymi liderami, oglądanie go może nasuwać poważne obawy o potencjalne sposoby wykorzystywania takich materiałów w nawet niedalekiej przyszłości. Jeśli zamiast słów piosenki Lennona politykom podłożono by inne kwestie wypowiadane ich głosem, narzędzie do deep learningu stałoby się poważnym politycznym zagrożeniem.
Sprzyja temu fakt, że w ostatnim czasie potrzebna do tego technologia tak się udoskonaliła, że rozpoznanie deep fake staje się coraz trudniejsze, a dla niezbyt uważnego widza wręcz niemożliwe. O ile w przypadku fałszywego porno głowa Gal Gadot nie zawsze poruszała się w tym samym kierunku, co doszyte do niej ciało oryginalnej aktorki, o tyle ruchy ust prezydentów i premierów z klipu Canny AI są odwzorowane niemal idealnie. Jedynie nienaturalny wygląd górnej wargi Benjamina Netanjahu może sugerować, że izraelski premier wcale nie śpiewał o wyobrażaniu sobie braku religii.
Z tego powodu potencjalne sfałszowane nagrania najważniejszych politycznych decydentów, przykładowo ogłaszających kontrowersyjne decyzje czy nawet wypowiadających wojnę innym krajom, mogą momentalnie zdestabilizować zarówno sytuację wewnętrzną danego państwa, jak i zagrozić globalnemu ładowi. Tym bardziej, że do stworzenia deep fake nie potrzeba ogromnych funduszy i oszałamiającego zaplecza technologicznego.
Polityczne deep fake nie są zresztą niczym nowym. Rozwijaniem tej technologii i jej badaniem w odniesieniu do rządzących od kilku lat zajmują się m.in. uniwersytety w Stanfordzie czy Waszyngtonie. Przez długi czas głównych bohaterem tworzonych przez nich nagrań był prezydent Barack Obama. Długotrwała analiza jego zachowań i stylu mówienia przez odpowiednie narzędzia powodowała, że "nagrania" z rzekomym udziałem eksprezydenta były coraz trudniejsze do oceny pod względem autentyczności.
Oczywiście momentami można było odnotować rozmazane usta lub oczy wyrażające coś innego niż to, o czym polityk opowiadał, ale takie szczegóły były bardzo trudne do wychwycenia przy pobieżnym kontakcie z materiałem. W przypadku Obamy śpiewającego jeden z wersów "Imagine" - "ponad nami tylko niebo" - wyłącznie głos Johna Lennona wskazuje, że to nie jest autentyczne nagranie eksprezydenta.
Wykonanie tak wiarygodnego filmiku z udziałem wiodących polityków było możliwe także z innego, bardziej technicznego, powodu. Ich oficjalne wystąpienia zwykle realizowane w statycznych ujęciach, a jedynymi ruchomymi elementami są oni sami i ich twarz. Znacznie ułatwia to pracę programów do analizy. Nie tylko więc polityczny kontekst, ale także techniczne ułatwienia czynią z polityków "dobrą" grupę do wykorzystywania w materiałach typu deep fake.
Kim Dzong Un na telefonie, Mun Dze In pod kątem
Zarówno filmik ze światowymi przywódcami, jak i kilka innych materiałów stworzonych przez Canny AI pokazuje też, że wykorzystywanie technologii deep learning oferuje coraz to nowsze i lepsze możliwości. Do tej pory większość materiałów deep fake opierała się na statycznych ujęcia polityków lub innych znanych osób, zwykle filmowanych od klatki piersiowej w górę, którym animowano głównie okolice ust. Na filmie z prezydentami i premierami w pewnym momencie jednak ten schemat zostaje zaburzony.
Wszystko za sprawą przywódcy Korei Północnej Kim Dzong Una, który nie tylko został nagrany pod pewnym kątem, ale przede wszystkim wideo z jego udziałem zostaje odtworzone na ekranie smartfona. Mimo takiego odejścia od schematu tworzenia deep fake rozpoznanie fałszywki ciagle pozostaje dużą sztuką.
Jeszcze ciekawsze i bardziej zaawansowane technologicznie rozwiązanie specjaliści z Canny AI zaprezentowali w innym swoim materiale. Do stworzenia przykładowego wideo z użyciem deep learning wykorzystali przemówienie prezydenta Korei Południowej Mun Dze Ina. Po analizie jego wypowiedzi stworzyli drugie nagranie, na którym jeden z pracowników Canny AI został zanimowany tak, jakby mówił po koreańsku.
Innowacja polega na tym, że ujęcia Mun Dze Ina wykonane są z różnych perspektyw i różnych kątów. Mimo tego ruch jego ust został skopiowany naprawdę dobrze. A nawet, jak w przypadku wszystkich deep fake, niepokojąco dobrze.
Autor: Michał Istel / Źródło: Konkret24; Zdjęcie tytułowe: YouTube/Dan
Źródło zdjęcia głównego: YouTube/Dan