Blog

Povijest računalnog vida i razvoj autonomnih vozila

Filip Štetić

Računalni vid jedna je od grana umjetne inteligencije koja se razvila iz digitalne obrade slike, čiji je fokus omogućavanje računalnim sustavima izvlačenje informacija iz slika te razumijevanje slika na isti način na koji ih ljudi razumiju.

Povijest

Iako je najveći rast krenuo tek nedavno, 2012. godine, kada je neuronska mreža nazvana AlexNet osvojila ImageNet natjecanje za vizualno prepoznavanje i probila led neuronskim mrežama da osvoje područje umjetne inteligencije, samo polje istraživanja puno je starije, štoviše, AlexNet nije ništa drugo nego varijanta dizajna iz 1989. godine, koji se nadovezao na još stariju inačicu iz 1979. godine.

No kad na računalnoj obradi slika počinje i puno prije. 1957. godine, u američkom Nacionalnom institutu za standarde i tehnologiju, grupa inženjera, vođena Russellom Kirschom, radi prvi ikad digitalni sken fotografije njegovog sina. Fotografija je postala toliko poznata da ju je Life magazin uvrstio među top 100 fotografija koje su promijenile svijet, te se original se čuva u Muzeju Umjetnosti u Portlandu.

Slika 1. Prva digitalna fotografija na računalu. Credit: NIST

U isto vrijeme, 1959. godine dvojica neurofiziologa, David Hubel i Torsten Wiesela, zanimaju se za način na koji mozak interpretira vizualne podražaje. Odlučili su provesti eksperiment nad neuronima primarnog vizualnog korteksa mačke. Koristeći elektrode proučavali su podražaje u neuronima kada se mački prikazuju slike. Zaključili su da postoje jednostavni i kompleksni neuroni i da vizualno procesuiranje počinje s jednostavnim strukturama (npr. linije i bridovi). Na njihov rad nadovezao se, 1982. godine, britanski neuroznanstvenik David Marr koji je tvrdio da je proces vizualnog prepoznavanja hijerarhijski organiziran, od prepoznavanja temeljnih koncepata do izgradnje trodimenzionalne mape slike. Te su hipoteze korištene u izgradnji prvih sustava za vizualno prepoznavanje.

Za oca računalnog vida uglavnom se uzima Lawrence Roberts, koji je u svojoj doktorskoj disertaciji 1963. godine na MIT-u predstavio proces dobivanja informacije o 3D objektu iz 2D fotografije objekta. On je također zanimljiv jer je kasnije otišao u agenciju Ministarstva obrane SAD-a (DARPA) i sudjelovao na osnivanju Interneta.

1966. godine profesor na MIT-jevom laboratoriju za umjetnu inteligenciju, Seymour Papert, daje svojim studentima zadatak za ljetne praznike u kojem bi trebali izraditi platformu koja će automatski razlikovati prvi plan i pozadinu te izrezivati objekte iz realnih fotografija. Projekt nije bio uspješan, ali se prema mnogima smatra začećem računalnog vida kao znanstvene discipline.

Korak prema današnjim metodama radi japanski računalni znanstvenik Kunihiko Fukushima 1979. godine, kada gradi umjetnu mrežu za raspoznavanje uzoraka, koja se sastojala od nekoliko konvolucijskih slojeva. Oni su bili revolucionarni jer su tretirali komad slike kao jedno i tako koristili logičnu činjenicu da su susjedni pikseli međusobno ovisni. Nazvao ju je „Neocognitron“ i ona je nedvojbeno preteča mrežama koje i danas dominiraju svijetom automatskog vizualnog prepoznavanja.

Deset godina kasnije, 1989. godine, francuski znanstvenik Yann LeCun koristi i danas prevladavajući algoritam treniranja na mreži temeljenoj na Neocognitronu i uspješno ju primjenjuje za čitanje poštanskih brojeva. On je također zaslužan i za izradu jednog od najpoznatijih skupova podataka u strojnom učenju, MNIST skupa ručno pisanih znamenki.

Najveći pomak dogodio se već spomenute 2012. godine. Razvojem bržih i efikasnijih algoritama za obradu slika došli su i veći skupovi podataka. Tako je 2010. napravljen najpoznatiji skup podataka za vizualno prepoznavanje, ImageNet, koji se sastoji od preko milijun fotografija koje su raspoređene u tisuću klasa svakodnevnih objekata poput raznih životinja, lopti, prijevoznih sredstava, i drugih. AlexNet je drastično smanjio pogrešku pri klasifikaciji objekata i sustavi nakon njega nastavili su pratiti taj trend. Današnja preciznost veća je od 97%, dok je ljudska preciznost oko 95%.

Autonomna vozila

Najaktualnija tema vezana uz računalni vid danas su autonomna vozila. Kako je vožnja jedna od najkompleksnijih radnji koje ljudi izvode, tako je problem autonomne vožnje težak, što nije spriječilo znanstvenike da se zanimaju za njega.

1925. godine Francis Houdina demonstrira automobil na daljinsko upravljanje putem radio signala.

Tijekom Svemirske utrke 1961. godine znanstvenici su proučavali kako spustiti i kontrolirati vozila na mjesecu. To je rezultiralo time da je James Adams napravio Standford Cart, vozilo koje je pomoću kamere lociralo i slijedilo liniju na cesti. Tada se prvi put koriste kamere, što je i danas prevladavajući pristup.

1995. godine znanstvenici s Carnegie Mellon sveučilišta provozali su se svojim „autonomnim“ monovolumenom od Pittsburgha do San Diega (udaljenost 4.501 km). Kontrolirali su brzinu i kočenje, ali nisu upravljali.

Prvi pravi pokušaj dogodio se 1994. godine u Parizu kada je tim, vođen njemačkim računalnim znanstvenikom Ernst Dickmannsom, pustio dva Mercedesa 500 SEL da se „provozaju“. Auti su vozili do 130 km/h, prestrojavali se i reagirali na okolna vozila, sve autonomno.

Slika 2. Mercedes bez vozača. Credit: Wikimedia Commons.

Danas se kao pionir smatra Tesla, čija vozila nude Full Self-Driving paket, koji omogućava autonomnu vožnju po autocesti. Informacije o okolini dobivaju iz osam kamera postavljenih tako da imaju uvid u 360 stupnjeva oko sebe i na udaljenosti do 250 metara.

Slika 3. Tesla Model S. Credit: Photo by Matt Weissinger from Pexels.

Zaključak

Iako je razvoj računalnog vida impresivan, a povijest zanimljiva, pogotovo u pogledu brzine razvoja autonomnih vozila, i dalje postoje mnogi problemi koji nisu riješeni. Nažalost, zbog težine zadatka još ne postoje potpuno autonomni automobili, ali razni pristupi autonomnosti koriste se u ADAS-u (Advanced driver assistance system), što doprinosi sigurnosti prometa.