Blog

Nova era umjetne inteligencije

Lovre Pešut

Jedna od rijetkih stvari u vezi umjetne inteligencije oko koje se skoro svi mogu složiti jest to da je u stanju brze promjene i širenja. Iako se akademski pokušaji protežu od sredine prošlog stoljeća, postoji opipljiv osjećaj da se ništa posebno nije dogodilo, barem što se tiče postojanja zapravo korisnih sustava, sve do posljednjih nekoliko godina. Umjetna inteligencija praktički nije mogla razlikovati pse od mačaka, sve do nekog trenutka u posljednjih deset godina. Umjetna inteligencija nije mogla fleksibilno razgovarati prirodnim jezikom o praktički neograničenom broju tema, sve do posljednjih nekoliko godina. AI, niti bilo koji ljudski znanstvenik ili skupina znanstvenika, nije mogao riješiti problem predviđanja strukture proteina, sve dok ga AI nije riješio u zadnjih par godina.

Evo upečatljivog primjera ovog ubrzanog napretka. Ovo je slika koju bi najbolji text-to-image model (model koji uzima određeni tekst i na temelju njega generira sliku) iz 2015. mogao generirati ako biste od njega zatražili WC koji stoji otvoren na travnatom polju.

Izvor: Mansimov, Elman, Emilio Parisotto, Jimmy Ba and Ruslan Salakhutdinov. “Generating Images from Captions with Attention.” CoRR abs/1511.02793 (2015)

A ovo je ono što najbolji model 2022. može:

Slika generirana na Midjourney

Što je, dakle, uzrokovalo ovakvo ubrzanje?

Kada bismo težili maksimalnoj konciznosti, mogli bismo proći samo s riječima “duboko učenje”. Međutim, evo nekoliko drugih čimbenika koji ovaj napredak stavljaju u kontekst:

  1. Od 2012. broj računskih operacija koje se koristi za treniranje najmoćnijih modela porastao je milijardu puta, s vremenom udvostručenja od 3,4 mjeseca.
  2. Algoritmi također eksponencijalno postaju sve bolji — na primjer, potrebno je 44 puta manje računskih operacija da se najučinkovitiji model 2020. uvježba na razinu najboljeg modela iz 2012., što odgovara prepolovljavanju svakih 16 mjeseci.
  3. Računalna moć također postaje eksponencijalno jeftinija: FLOP/s po dolaru (za GPU-e, koji su glavni motor treniranja modernih AI sustava) se udvostručava svake 2,95 godine.

Sposobnost eksponencijalnog rasta da zavara ljudska bića ušivena je u jednu od klasičnih priča o ljudskoj gluposti — onu o šahu i riži, u kojoj kralj nudi izumitelju šaha bilo koju nagradu koju želi, na što izumitelj zatraži jedno zrno riže za prvo polje šahovske ploče, dva za drugo, četiri za treće, osam za četvrto itd. Nakon što je to čuo, kralj, misleći da je to mala cijena za takvu igru, odmah pristane — što rezultira, naravno, time da izumitelj posjeduje svu rižu. S obzirom, dakle, da ovu lekciju znamo toliko dugo, možda bi bilo mudro ne zanemariti eksponencijalan rast opet, misleći da se relativna mirnoća našeg sadašnjeg stanja sigurno proteže do neodređene budućnosti.

Plodovi povećavanja sustava

Važno je napomenuti da naš napredak u, recimo, modelima generiranja slika, nije prvenstveno rezultat nekih dubokih uvida u prirodu generiranja slika koje smo u zadnjim godinama izvukli, a koje smo zatim ugradili u naše modele. Da, smislili smo neke nove modele koji su radili nešto bolje od starih modela, ali većinom su se ti napredci sastojali od opskrbljivanja modela dubokog učenja golemim količinama podataka — npr. parovima teksta i slika — iz kojih je model trebao “sam” izvući bit vizualne konstitucije svijeta.

U drugim domenama su se dogodile slične stvari. Veliki napredak u obradi prirodnog jezika, primjerice uspjeh “GPT” serije modela, nije došao iz dubokog promišljanja o prirodi jezika i ugrađivanja te prirode u stroj. Umjesto toga došao je iz ubacivanja velikih količina teksta u stroj, u nadi da će stroj – pod kojim mislimo na model dubokog učenja uparen s nečim poput stohastičkog gradijentnog spusta – razviti vlastitu intuiciju za jezik. I jest!

Ovaj trend sugerira da razvoj umjetne inteligencije ne mora biti usko vezan uz naše “razumijevanje inteligencije” ili bilo koje druge misteriozne stvari. Mogao bi, umjesto toga, biti slučaj da ćemo sa sve većom računalnom moći dobiti sve veću inteligenciju, i to će biti to.

U zadnje vrijeme modeli također postaju sve bolji i bolji u stvarima koje smatramo prilično teškim intelektualnim izazovima — postaju sve bolji u programiranju i, polako, u matematici. DeepMindov Alphacode, model koji piše kôd, nadmašio je 54% drugih programera u jednom programerskom natjecanju. Minerva, jezični model naučen rješavati matematičke probleme, točno je riješio 50,3% skupa zadataka MATH, koji se pretežito sastoji od problema na razini srednjoškolskih natjecanja.

Naravno, još uvijek postoji mnogo intelektualnih zadataka koje ovi modeli ne mogu napraviti, u ovom sadašnjem trenutku. Ali s tako brzim napretkom u posljednjih 10 godina, tko može biti siguran što to neće moći učiniti za sljedećih 10?