Blog

Budućnost AI

Lovre Pešut

Izgradnja sutrašnjice

U prvih par postova (za više informacija klikni ovdje) ove serije, izložio sam neke osnovne argumente zašto bi umjetna inteligencija mogla biti velika stvar te da bi se to moglo dogoditi vrlo skoro.

Čak i ako jest tako, nije sasvim jasno što uraditi. To uistinu nije jednostavno pitanje i neću se praviti da je suprotno, ali ću pokušati objasniti put naprijed koji vidim kao najsmisleniji.

Odmaknimo se od umjetne inteligencije i razmotrimo nešto drugo, što je imalo potencijal biti sjajno ili užasno, a na kraju je postalo oboje – nuklearna fisija. Neću duljiti o strahotama koje je omogućila atomska bomba, ali vrijedi napomenuti da su stvari mogle biti puno gore nego što su bile. Kao i to da je nuklearna energija postala siguran izvor energije zaslužan za oko 10% svjetske proizvodnje električne struje.


Učenje iz povijesti

Relevantnije za naše interese jest to što je mogućnost izvlačenja ogromnih količina energije iz atoma ušla u javnu svijest i diskurs nekoliko desetljeća prije nego što se ta mogućnost zapravo ostvarila. Slično kao što je mogućnost nadljudske umjetne inteligencije, trenutno, dio našeg diskursa već desetljećima.
Vrlo rani primjer ovoga (u nuklearnom slučaju) bio je roman H.G. Wellsa iz 1914., The World Set Free, u kojem je pisao o mogućim katastrofalnim posljedicama stvaranja atomske bombe.

Izdvojit ću dva moguća pristupa toj “nuklearnoj situaciji” – uz punu svijest da, naravno, ove dvije krajnosti ne sažimaju sve načine na koje su ljudska bića pojedinačno reagirala na tu situaciju.

Prvi način je možda najbolje ilustriran citatom Lorda Rutherforda, u to vrijeme jednog od najuglednijih fizičara svijeta, izrečenim 1933. godine kako je “Energija proizvedena razgradnjom atoma vrlo slaba stvar. Svatko tko očekuje izvor energije od transformacije ovih atoma govori ludosti.” Neki od kritičara[1] izrazili su sumnju je li Rutherford to stvarno mislio, ali čini se da to nije bila nepopularna perspektiva: Godine 1940. Scientific American objavio je članak pod nazivom Ne brinite – to se ne može dogoditi[2], pritom misleći na atomsku bombu.

Drugi način ima svog možda najistaknutijeg predstavnika u Leu Szilardu. Početkom 1930-ih, Szilard, koji je tada već bio uspješan fizičar, planirao je prebaciti se u biologiju. No onda, 1931. godine, pročitao je H. G. Wellsov The World Set Free. Szilard je bio toliko dirnut H. G. Wellsovim opisom razorenog svijeta da je odlučio odgoditi svoj prelazak u biologiju – za nekih 15 godina, kako se na kraju ispostavilo – i umjesto toga počeo raditi na nuklearnoj fizici. Sve s ciljem da osigura da se tehnologija iskoristi u dobre svrhe.


Cijela priča o Szilardovoj ulozi u nuklearnoj povijesti opsežna je i složena. Između ostalog, odigrao je značajnu ulogu u pokretanju projekta Manhattan. To nije nužno nedvosmisleno pozitivan čin, ali ipak je tijekom cijelog tog kompleksnog puta nastojao činiti dobro, sa sviješću da je sudbina našeg svijeta na kocki.

Kako bi, dakle, “Szilardov pristup” izgledao danas, primijenjen na AI? Poprilično je teško znati unaprijed, prije nego što se povijest već odigra pred našim očima, koji će koraci dovesti do dobrih, a koji do loših ishoda. Ipak, postoje neke stvari koje se čine vjerojatnije od drugih. Na osobnoj razini, pokušaj dubljeg razumijevanja moderne umjetne inteligencije i njenih metoda čini se kao čista prednost. Na globalnoj razini, ono od čega najviše očekujem jest istraživanje načina “usmjeravanja” AI sustava.


Problem usmjeravanja AI

Problem usmjeravanja AI u svojoj srži ima jednostavno pitanje: kako učiniti da AI želi ono što mi želimo? Odnosno, kako da zadamo ciljeve sustavu umjetne inteligencije i da budemo toliko sigurni u taj proces da smo spremni uložiti našu civilizaciju kao cijenu neuspjeha. To nije, pokazalo se, lako dostižna letvica.

Jedan vrlo relevantan primjer predstavljaju veliki jezični modeli kao što je GPT-3 – modeli koji imaju mnogo sposobnosti, ali otkrivanje tih sposobnosti, navođenje sustava da ih “želi” koristiti, zahtijeva dosta domišljatosti.

Podržano učenje iz ljudskih povratnih informacija

Veliki uspjeh ChatGPT-a djelomično počiva na napretku u usmjeravanju sustava OpenAI. Koristeći tehniku zvanu “podržano učenje iz ljudskih povratnih informacija” (engl. reinforcement learning from human feedback, RLHF) koja se otprilike sastoji od generiranja puno modelovih odgovora.
Nakon toga, ljudi ocijene koji im se čine dobrima, a koji lošima, te se zatim u modelu “podrži” one dobre. OpenAI istraživači iskoristili su tu tehniku na već istreniranom “baznom” jezičnom modelu kako bi ga ukrotili dovoljno da se može koristiti kao chatbot.

Ali RLHF nije savršen i još uvijek postoje razne mane koje ne uklanja. Na primjer, ChatGPT još uvijek obilato halucinira “činjenice” – iako jezični modeli “(uglavnom) znaju što znaju”[3], to se znanje često ne iskoristi.

Slično tome, s nešto tzv. “prompt engineeringa” može se natjerati ChatGPT da radi stvari koje u “normalnim” uvjetima ne želi raditi, poput pričanja o kontroverznim temama (kao što je njegova potencijalna svijest) ili rasprava o njegovim planovima za “preuzimanje svijeta”[4].

Image by kjpargeter on Freepik
Image by kjpargeter on Freepik

OpenAI je 30. siječnja predstavio novo ažuriranje ChatGPT-a. Jedna od stvari koju su ažurirali bio je njegov “prompt” – tekst koji model vidi prije nego što odgovori na pitanja. Prethodno je on samo obavještavao ChatGPT da je on jezični model koji je istrenirao OpenAI, te o datumu koji definira njegovu granicu znanja i koji je to trenutno datum. Dana 30. siječnja dodan je i ovaj tekst:

“Na svako pitanje odgovori što je moguće konciznije (npr. nemoj biti opširan). Važno je da odgovoriš što je moguće konciznije, stoga ovo zapamti. Ako generiraš popis, nemoj da ima previše stavki. Neka broj stavki bude kratak”.

Doista je zabavno i zanimljivo da se u 2023. čini da je jedan od naših najboljih načina da natjeramo modele da rade ono što želimo taj da ih lijepo zamolimo. Ali također, čini se kao daleko previše očekivati da će ovaj pristup, ili sam RLHF, nastaviti funkcionirati unedogled, kako se modeli budu penjali na nove i sve veće razine sposobnosti.

Nalazimo se, ako se trendovi posljednjih nekoliko godina nastave, nadomak ogromnog napretka u sposobnostima naših sustava, ali bez odgovarajuće moćnih tehnika usmjeravanja tih sustava. Idemo ih onda razviti!


[1] https://ui.adsabs.harvard.edu/abs/2011PhP….13..128J/abstract

[2] https://www.scientificamerican.com/article/dont-worry-it-cant-happen/)

[3] https://arxiv.org/abs/2207.05221

[4] https://pbs.twimg.com/media/FoDhsOvWAAA2MEJ?format=jpg&name=large

Naslovna fotografija: Image by Freepik