Zainteresowanie ChatGPT nie słabnie, mimo że minęło już kilka miesięcy od jego publicznej premiery. To jednak nie koniec zachwytów nad sztuczną inteligencją, bo OpenAI pokazało kolejny, jeszcze lepszy i „inteligentniejszy” model językowy AI w czwartej wersji. GPT-4 nie tylko powie Ci dlaczego dany obrazek jest śmieszny, ale też zda większość egzaminów i stworzy krótki filmik na podstawie tekstowego opisu.
Coraz mniej sztuczna inteligencja
We wtorek miała miejsce premiera kolejnej, czwartej wersji modelu sztucznej inteligencji tworzonej przez OpenAI – GPT-4. Już poprzednia wersja modelu językowego wykorzystywana w chat bocie ChatGPT robiła ogromne wrażenie, o tyle GPT czwartej generacji jest jeszcze bardziej „inteligentny” i to na wielu płaszczyznach.
Największą rewolucją ma być multimodalność nowej wersji modelu językowego GPT. Oznacza to, że ChatGPT oparty o GPT-4 będzie w stanie odpowiadać nie tylko na pytania tekstowe, ale również dawać odpowiedzi na podstawie materiałów wizualnych (zdjęć, plików dźwiękowych czy filmów), które prześlemy. To daje otwarte pole np. do rozpoznawania i wyszukiwania informacji na temat osób znajdujących się na zdjęciu lub w filmie albo też uzyskania zapisu nutowego wprowadzonego przez nas utworu muzycznego czy tekstu piosenki.
To jednak nie wszystko, bo GPT-4 potrafi również tworzyć grafiki oraz materiały video na podstawie opisu tekstowego. Samo w sobie nie jest to nic nowego, jednak wcześniej nie było takich możliwości.
Czwarta wersja modelu GPT jest też znacznie „inteligentniejsza”
niż poprzednia (aktualnie w darmowym ChatGPT wykorzystywany jest GPT-3.5). Dowodem na to ma być fakt, że udało jej się odpowiedzieć poprawnie na większość pytań z egzaminu do Izby Adwokackiej w Stanach Zjednoczonych, a także zdać test SAT (ustandaryzowany test dla uczniów szkół średnich w USA) z wynikiem w pierwszym decylu (czyli wśród 10% najlepszych uczniów). Dla porównania – wcześniejszy model GPT też poradził sobie z pytaniami w testach SAT, jednak uzyskany wynik plasował się w ostatnim decylu (wśród 10% najsłabszych uczniów, którzy uzyskali wystarczającą liczbę punktów).
GPT-4 rozumie też więcej w większej liczbie języków – dla przykładu: w języku polskim odsetek poprawnych odpowiedzi (w teście wiedzy wielokrotnego wyboru z 57 dziedzin nauki) wyniósł aż 82%, podczas gdy dla języka angielskiego było to 85%. To zaś sprawia, że nowy model GPT rozumie więcej po polsku niż poprzedni GPT-3.5 po angielsku.
To jednak nie wszystko, bo ewolucja nowego modelu sztucznej inteligencji od OpenAI
nie opiera się wyłącznie na udzielaniu poprawnych odpowiedzi na większą liczbę pytań. Odpowiedzi generowane przez GPT-4 mają też być bardziej „ludzkie” i kreatywne. Jako przykład podczas konferencji podano zdjęcie z Reddita, na którym widać plastikowe etui na kabel do ładowania iPhone imitujące złącze VGA (niebieskie, z dwiema ręcznie dokręcanymi śrubami, do podłączania starych monitorów).
GPT-4 zapytany o to, co jest śmiesznego na tym obrazku, odpowiedział – w kilku etapach opisujących poszczególne elementy grafiki – że komizm tego obrazka polega na rzekomym podłączaniu dużej, przestarzałej wtyczki do małego gniazda ładowania nowoczesnego smartfona. Brzmi imponująco, choć oczywiście do wyjaśniania przez AI dlaczego dany mem jest śmieszny i o co w nim chodzi zapewne jeszcze długa droga (szczególnie jeśli dotyczy określonego kręgu kulturowego czy społecznego). Wydaje się jednak, że GPT-4 może być świetnym narzędziem np. do sporządzania opisowej dokumentacji na podstawie zdjęć czy schematów graficznych.
Tekst sporządził FXMAG