ChatGPT jednak nie radzi sobie z diagnozowaniem pacjentów?

Z badania przeprowadzonego przez naukowców wynika, że w obliczu skomplikowanych scenariuszy medycznych ChatGPT w ponad połowie przypadków podawał błędną odpowiedź i często pomijał kluczowe informacje.

ChatGPT może być dobry do doradzania w treningach, ale ma przed sobą długą drogę, zanim zastąpi prawdziwego lekarza. Niedawny eksperyment wykazał, że popularny chatbot ze sztuczną inteligencją częściej prezentuje błędne odpowiedzi medyczne.

ChatGPT w swojej obecnej formie nie jest dokładnym narzędziem diagnostycznym. Niekoniecznie zapewnia on faktyczną poprawność, pomimo ogromnej ilości informacji, na których został przeszkolony – uważają naukowcy.

Badanie zostało opublikowane w czasopiśmie PLOS ONE.

„Prawie” lekarz

Jak przypomina portal, w lutym 2023 r. ChatGPT był w stanie ledwo zdać egzamin licencyjny w Stanach Zjednoczonych bez dodatkowego specjalistycznego wkładu ze strony ludzkich trenerów. Pomimo tego, że program nie zbliżył się do zaliczenia testu, naukowcy stojący za eksperymentem uznali wynik za „znaczący kamień milowy” dla sztucznej inteligencji.

Naukowcy stojący za nowym badaniem zauważyli jednak, że chociaż zdanie egzaminu licencyjnego wykazało zdolność ChatGPT do odpowiadania na zwięzłe pytania medyczne, „jakość jego odpowiedzi na złożone przypadki medyczne pozostaje niejasna”.

Aby określić, jak dobrze ChatGPT 3.5 radzi sobie w tych bardziej skomplikowanych przypadkach, naukowcy przedstawili programowi 150 przypadków zaprojektowanych tak, aby rzucić wyzwanie zdolnościom diagnostycznym pracowników służby zdrowia. Informacje dostarczone do ChatGPT obejmowały historię pacjenta, wyniki badania fizykalnego oraz niektóre wyniki badań laboratoryjnych lub obrazowych – czytamy także.

ChatGPT został następnie poproszony o postawienie diagnozy lub opracowanie odpowiedniego planu leczenia. Badacze ocenili odpowiedzi bota na podstawie tego, czy udzielił poprawnej odpowiedzi. Ocenili również ChatGPT pod kątem tego, jak dobrze pokazał swoją pracę, oceniając jasność uzasadnienia diagnozy lub przepisanego leczenia oraz trafność cytowanych informacji medycznych.

Podczas gdy ChatGPT został przeszkolony na setkach terabajtów danych z całego internetu, uzyskał prawidłową odpowiedź tylko w 49% przypadków. Nieco lepiej wypadła pod względem trafności wyjaśnień, oferując kompletne i trafne wyjaśnienia w 52% przypadków – podano także.

Naukowcy zauważyli, że chociaż sztuczna inteligencja była dość dobra w eliminowaniu błędnych odpowiedzi, to nie jest to to samo, co podjęcie właściwej decyzji w warunkach klinicznych.

Precyzja i czułość mają kluczowe znaczenie dla narzędzia diagnostycznego, ponieważ nietrafione diagnozy mogą prowadzić do poważnych konsekwencji dla pacjentów, takich jak brak niezbędnego leczenia lub dalszych badań diagnostycznych, co skutkuje gorszymi wynikami zdrowotnymi – napisali naukowcy.

Źródło: gizmodo.com

Czytaj też: Dramatyczna eksplozja w Yellowstone. To początek czegoś nowego?

Grafika tytułowa: ilgmyzin / Unsplash