Sztuczna inteligencja badaczy z MIT potrafi oszukać nasz zmysł słuchu

Czy maszyny mogą generować realistyczne efekty dźwiękowe dla filmów? Odpowiedź na to pytanie postanowili odnaleźć badacze z MIT, tworząc algorytm, który dodaje odgłosy do wcześniej nagranych materiałów wideo. Co więcej, opracowali specjalny test, podczas którego wybrane osoby miały za zadanie spróbować odróżnić je od tych „naturalnych”.
Podczas nagrań naukowcy korzystali z pałeczki do gry na perkusji do uderzania w różne przedmioty i elementy otoczenia, takie jak balustrady, krzewy i metalowe kraty. Algorytmowi pokazano natomiast 978 filmów przedstawiających niemal 47 tysięcy czynności, co miało pomóc mu w rozpoznawaniu wzorów zawartych w sygnale audiowizualnym. Sztuczna inteligencja wykorzystuje tak zwane głębokie nauczanie do określania, co wspólnego dane dźwięki mają z filmem, co oznacza, że przeprowadza ten proces samodzielnie, bez udziału badaczy.
Gdy algorytmowi przedstawia się nowe, ciche wideo, ten analizuje właściwości każdej klatki tego filmu i dostosowuje je do odpowiednich dźwięków, które znajdują się w jego bazie danych. Rezultaty tego działania zostały pokazane w poniższym filmie.

Podczas badania internetowego okazało się, że ludzie dwa razy częściej wybierali dźwięk wygenerowany przez sztuczną inteligencję jako ten „prawdziwy”. Co ciekawe, na postawie odgłosów dopasowanych do wideo algorytm w 67 procentach potrafił stwierdzić, czy element widoczny na wideo jest twardy czy miękki.
Sztuczna inteligencja badaczy z MIT nie jest idealna. Algorytm może zostać oszukany przez widok pałeczki zatrzymującej się przed powierzchnią elementu, w który miała uderzyć, a poza tym – nie dodaje do filmów dźwięków, które nie są z nimi powiązane wizualnie – takich jak brzęczenie komputera. Mimo to jego twórcy wierzą, że przyszłości może pomóc robotom w odróżnianiu stosunkowo gładkich powierzchni od innych, na przykład trawy. Taka wiedza pozwoliłaby z kolei na unikanie pewnych wypadków.

Źródło: MIT