Sztuczna inteligencja Google odczytuje słowa z ruchów warg lepiej niż ludzie

Badacze z grupy DeepMind (będącej częścią Google) oraz pracownicy Uniwersytetu Oxford opublikowali właśnie bardzo ciekawydokumentprzedstawiający możliwości ich najnowszego dzieła – programu „Watch, Listen, Attend, and Spell”. Oprogramowanie to zostało stworzone, by móc z jak największą dokładnością odczytać słowa wypowiadane przez postaci tylko na podstawie ruchu ich warg. Jak się okazuje, sztuczna inteligencja radzi sobie z zadaniem wręcz znakomicie.
Aby nauczyć program odczytywania słów z ruchu warg twórcy dostarczyli ponad 5000 godzin nagrań różnego rodzaju programów produkcji brytyjskiej stacji BBC. Na podstawie tak obszernego materiału sztuczna inteligencja była w stanie opanować swoje zadanie w znacznie lepszym stopniu, niż robiący to na co dzień profesjonaliści. Jak wynika z przedstawionych danych „Watch, Listen, Attend, and Spell” był w stanie odczytać słowa z dokładnością wynoszącą około 50%. Zanim jednak ocenicie wynik ten jako rozczarowujący powinniście wiedzieć, że profesjonalista zajmujący się odczytywaniem z ust osiągnął na tym samym materiale wynik równy 23,8%. Różnica na korzyść oprogramowania jest więc kolosalna.
Co ważne, programy, które zostały pokazane oprogramowaniu DeepMind nie były wcześniej przygotowywane – były to zwykłe nagrania emitowane na antenie. Często przedstawiały kłócących się polityków, którzy z pewnością w chwili podwyższonego ciśnienia nie dbali o to, by ruchy ich warg były bardzo wyraźne. Jak podają opublikowane statystyki, cały materiał zawierał ponad 118 tysięcy różnych zdań, które składały się z aż 17,5 tysiąca unikalnych słów.
Przedstawione wyniki eksperymentu są bardzo imponujące i bardzo prawdopodobne, że Google będzie chciało w jakiś sposób wykorzystać komercyjnie oprogramowanie stworzone przez DeepMind. Gdzie taka technologia znajdzie swoje zastosowanie? Przede wszystkim w osobistych cyfrowych asystentach, którzy w tej chwili swoje interakcje opierają o tekst pisany i nasłuchiwanie tego, co mówi do nich użytkownik. Teraz analiza mowy mogłaby być wspierana także przez nagrania z kamery.
Oczywiście jak zawsze w tego typu nowościach pada zapytanie o bezpieczeństwo takiego rozwiązania i możliwość wykorzystania go do niecnych celów. Cóż, jeśli boimy się o nasze bezpieczeństwo to musimy ciągle pamiętać, że dokładność rozpoznawania słów wciąż nie osiągnęła nawet 50%. Sami twórcy zwracają uwagę, że wyniki bardzo różnią się w zależności od jakości analizowanego materiału i gdy ten jest ziarnisty i niewyraźny, analiza daje przeciętne wyniki. Możemy zatem na razie spać spokojnie.

Źródło:The Verge