Na podstawie nagrania audio wygenerowano realistyczne wideoprzemówienie Obamy

Stworzenie realistycznego wideo przedstawiającego mówiącą osobę, przy wykorzystaniu samego dźwięku, jest sporym wyzwaniem. Często, otrzymany w ten sposób film wygląda po prostu… dziwnie. Replika człowieka umieszczona w materiale zazwyczaj wygląda niemalże, ale nie do końca, realistycznie, a więc jej nienaturalność można z łatwością zauważyć. Niemniej, naukowcy z Uniwersytetu w stanie Waszyngton podjęli poważną próbę pokonania tego problemu. Co ciekawe, użyli oni wideo, w którym przemawiał Barack Obama oraz nagranie audio jego głosu.
Naukowcy wykorzystali właściwie aż 14 godzin filmów z udziałem Obamy, które były prezydent co tydzień umieszczał w sieci. Z ich pomocą wytrenowali sieć neuronową. Po treningu system był w stanie stworzyć dla materiału audio zawierającego głos Obamy odpowiednie zarysy warg, które były zsynchronizowane z dźwiękiem, a następnie zsyntetyzować realistycznie wyglądające usta, które pasowały do byłego prezydenta.
Następnie, usta zsynchronizowane z dźwiękiem nałożono na wideo przedstawiające Obamę, z którego ten dźwięk nie pochodził. Aby całość wyglądała naturalniej, system skorygował położenie głowy w danych momentach wideo, a także jej ruchy i wygląd szczęki. Cały proces jest zautomatyzowany, z wyjątkiem jednego etapu, który musi przeprowadzić człowiek – wymaga on bowiem od jednej osoby wybrania dwóch klatek w filmie, w których zarówno dolne, jak i górne zęby są widoczne. Na podstawie tych dwóch obrazów system może stworzyć realistyczne zęby.
Program jeszcze nie jest idealny, ale poniższy film pokazuje, jak bardzo poprawia się skuteczność sieci neuronowej po 3-minutowym, godzinnym, 7-godzinnym i 14-godzinnym treningu. Do ograniczeń systemu, które wymienili badacze należą sporadyczne błędy w ułożeniu ust i twarzy – czasem sieć neuronowa dawała Obamie dwa podbródki, co wynikało z niemożności dopasowania emocji i problemów z dźwiękami, które wymagają odpowiedniego ukształtowania języka, takimi jak „th”, którego obecnie program nie obejmuje.
Ogółem rzecz biorąc, ten program tworzy znacznie bardziej realistyczne materiały wideo niż inne. Praca naukowa, w której go opisano ma zostać opublikowana w czasopiśmie ACM Transactions on Graphics.

Źródło:Uniwersytet w stanie Waszyngton