Neuronowe modele językowe – nowe wyszukiwarki?    

Dostęp do usług tłumaczenia tekstu na różne języki, wykrywanie SPAM-u, realizowanie badań nastrojów społecznych w sieci, a także dostęp do automatycznej korekty tekstu czy też możliwość porozmawiania z chatbotem. Za tymi wszystkimi udogodnieniami stoją neuronowe modele językowe.

Opracowanie nowych modeli wymaga ogromnej mocy obliczeniowej. Niemożliwe jest ich wytrenowanie przez jednego człowieka lub małą organizację. Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Prace są długotrwałe, ale ich efekty bardzo obiecujące.

Narzędzia nazywane dużymi modelami językowymi, czyli LLM, to systemy sieci neuronowych. Były szkolone na różnych tekstach, aby możliwy był proces odtwarzania i generowania języka.

Modele dostępne w OpenAI

W Kalifornii w 2020 roku w laboratorium badawczym znanym pod nazwą OpenAI został stworzony duży model językowy (LLM) GTP-3. GTP jest to, generatywny wstępnie wytrenowany transformator, dzięki któremu możliwe jest automatyczne uzupełnianie tekstu na podstawie wcześniej otrzymanych podpowiedzi. Sieć została wyszkolona na podstawie dużej liczby książek i artykułów tak, aby samodzielnie mogła przewidywać kolejne fragmenty tekstu w oparciu o te wcześniej stworzone i przeanalizowane.

Duże modele językowe są już wykorzystywane i pozwalają na tworzenie tekstów w oparciu o słowa kluczowe. Na ten moment LLM używana jest m.in. do generowania tytułów lub takich zmian w tekście, które umożliwią wzrost czytelności powstającego tekstu.

Dziś już każdy może korzystać z aplikacji powstałej w OpenAI, która pozwala na tworzenie w pełni naturalnych zdań. Ceny zaczynają się od 0,0004 USD za tzw. 1000 tokenów, czyli około 750 słów.

Systemy AI tworzą też uproszczone i skrócone wersje długich artykułów, które zazwyczaj obudowywane są masą tekstu. Ta „masa tekstu” tak naprawdę niewiele wnosi do naszego życia. Choć pozwala na łatwe czytanie i przyswajanie informacji, może znudzić czytającego.

Również chęć znalezienia krótkiej i prostej odpowiedzi na nurtujące nas pytanie jest czasami naprawdę trudne do osiągnięcia. Wyszukiwarka AI2 Semantic Scholar już wykorzystuje AI i udostępnia dzięki temu krótkie opisy tekstów, których ma około 200 milionów. Głównie z zagadnień dotyczących informatyki i biomedycyny.

Modele językowe jako wyszukiwarki?

Wizja wszechwiedzącej sztucznej inteligencji, która podaje istotne i dokładne informacje w łatwy do zrozumienia sposób, kształtuje model wyszukiwania, jaki firmy technologiczne będą stosować w przyszłości. Wraz z pojawieniem się asystentów głosowych, takich jak Siri i Alexa, modele językowe stają się powszechnie stosowaną technologią do wyszukiwania różnych zagadnień.

Ale krytycy zaczynają się sprzeciwiać, argumentując, że podejście to jest błędne. Zadawanie komputerom pytań i uzyskiwanie odpowiedzi w języku naturalnym może ukryć złożoność za fasadą autorytetu, na który nie zasługuje.     

Google korzysta już z modeli językowych, aby udoskonalić istniejącą technologię wyszukiwania, pomagając dokładniej interpretować zapytania użytkowników. Jednak niektórzy uważają, że modele językowe można wykorzystać do zmiany sposobu wyszukiwania.

Duże modele AI mogą naśladować język naturalny z niezwykłym realizmem. Wyszkolone w setkach książek i dużej części Internetu, pochłaniają ogromne ilości informacji. Dlaczego nie użyć ich jako swego rodzaju wyszukiwarki, która może syntetyzować odpowiedzi z wielu źródeł i pakować informacje w łatwe do zrozumienia zdania?

Modele mówią, ale nie wiedzą co…

Problem polega na tym, że modele językowe są bezmyślnymi naśladowcami. Mogą stać się uderzająco dokładne w przewidywaniu słów lub fraz, które najprawdopodobniej pojawią się w zdaniu lub rozmowie. Ale pomimo swobodnego twierdzenia Pichai, że jego sztuczna inteligencja „rozumie” wiele tematów, modele językowe nie wiedzą, co mówią. I nie potrafią zrozumieć, co przekazują ich słowa.

Pomysł wykorzystania sztucznej inteligencji do syntezy i łączenia odpowiedzi na zapytania jest częścią trendu, który rozpoczął się od wykorzystania tak zwanych bezpośrednich odpowiedzi lub fragmentów. Pojedynczych odpowiedzi lub krótkich fragmentów linków do dokumentów w wynikach wyszukiwania. Teoretycznie mogą one dostarczyć poszukiwanych informacji, oszczędzając kłopotów z czytaniem dłuższych dokumentów w celu samodzielnego ich znalezienia.

W 2020 roku naukowcy z Uniwersytetu Marcina Lutra w Halle-Wittenberg w Niemczech opublikowali artykuł, w którym zwrócili uwagę na problemy z bezpośrednimi odpowiedziami. „Na większość pytań odpowiedź brzmi: „To zależy” — mówi Matthias Hagen, jeden z badaczy.

Naukowcy uważają, że technologie wyszukiwania przeszły od organizowania i filtrowania informacji, poprzez techniki takie jak dostarczanie listy dokumentów pasujących do zapytania wyszukiwania, do formułowania zaleceń w postaci pojedynczej odpowiedzi na pytanie. I uważają, że to krok za daleko.

Problemem złożoność świata

Problemem nie są ograniczenia istniejącej technologii. Nawet przy doskonałej technologii nie uzyskalibyśmy doskonałych odpowiedzi, mówi Benno Stein z Uniwersytetu Bauhaus w Weimarze w Niemczech. „Nie wiemy, jaka jest dobra odpowiedź, ponieważ świat jest złożony, ale przestajemy o tym myśleć, gdy widzimy te bezpośrednie odpowiedzi”.

Musi być jasne, skąd pochodzą informacje, zwłaszcza jeśli sztuczna inteligencja czerpie elementy z więcej niż jednego źródła. Niektórzy asystenci głosowi już to robią, na przykład poprzedzając odpowiedź słowami „Oto, co znalazłem w Wikipedii”. Przyszłe narzędzia wyszukiwania powinny również mieć możliwość powiedzenia „To głupie pytanie”. Pomogłoby to technologii uniknąć powtarzania w zapytaniu obraźliwych lub stronniczych przesłanek.

Google twierdzi, że jest świadomy wielu problemów, które poruszają ci badacze. Ciężko pracuje nad rozwojem technologii, którą ludzie uznają za przydatną. Ale Google jest twórcą usługi wartej wiele miliardów dolarów. Ostatecznie zbuduje narzędzia, które przyciągną najwięcej ludzi.

Polacy nie gęsi…

Większość tych modeli opracowywanych jest dla języka angielskiego. Dlatego naukowcy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) stale rozwijają i udostępniają innym polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne – Polish RoBERTa v2 oraz GPT-2.

Model Polish RoBERTa large wytrenowano na największym w Polsce korpusie tekstów, który obejmuje 130 GB danych. Odpowiada to prawie pół milionowi książek! Oddany w tym roku model Polish RoBERTa base v2 jest mniejszy, jednak nie wymaga on dużej mocy obliczeniowej i wyniki otrzymywane są szybciej. Część bazową korpusu danych modeli stanowią wysokiej jakości teksty (Wikipedia, dokumenty polskiego parlamentu, wypowiedzi z mediów społecznościowych, książki, artykuły, dłuższe formy pisane). Z kolei część internetowa korpusu to ekstrakty ze stron internetowych (projekt CommonCrawl), które wcześniej zostały odfiltrowane i odpowiednio wyczyszczone.

Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Prace są długotrwałe, ale ich efekty bardzo obiecujące. Dodatkowo OPI PIB wszystkie swoje neuronowe modele języka przetestowało z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, takich jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. Otrzymane wyniki wg. KLEJ uplasowały rozwiązania instytutu w ścisłej czołówce.

Najnowszym modelem, który OPI PIB udostępnił publicznie, jest GPT-2. Oparty jest on również na architekturze transformer, jednak przeznaczony jest głównie do zadań związanych z generowaniem tekstu.

– W OPI PIB już dawno dostrzegliśmy potencjał, jaki posiadają neuronowe modele języka. Utworzyliśmy nawet Laboratorium Inżynierii Lingwistycznej (LIL), w którym nasi eksperci budują inteligentne narzędzia do odkrywania wiedzy z dużych korpusów danych tekstowych i internetowych. To właśnie oni opracowali i wdrożyli Jednolity System Antyplagiatowy (JSA), z którego korzystają wszyscy promotorzy prac dyplomowych w Polsce. Temat neuronowych modeli języka jest jednak tak innowacyjny i obszerny, że również w innych jednostkach OPI PIB pracujemy nad tym zagadnieniem. Bardzo ciekawe i innowacyjne prace realizuje największe z naszych laboratoriów, tj. Laboratorium Inteligentnych Systemów Informatycznych (LISI), jego zespół opracował m.in. model Polish RoBERTa large, który wytrenowano na największym w Polsce korpusie tekstów. W tym roku kontynuowaliśmy prace i udostępniliśmy dwa nowe modele – Polish RoBERTa base v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2 – mówi dr inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB).

Instytut udostępnia je publicznie, dzięki czemu każdy może z nich skorzystać. Bez wątpienia takie działanie przyczynia się do rozwoju polskiej branży informatyczno-badawczej. Dane modele mogą być np. stosowane do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych, czy też fake newsów. Modele w języku polskim są niezbędne do analizy polskiego internetu, nie da się badać danych zjawisk używając narzędzi obcojęzycznych.

Czytaj także: Czy perowskity zastąpią krzem w fotowoltaice?