Blog

Laganje podacima

Antonio Parunov

“Istraživanja su pokazala”

Sigurno ste bar jednom čitali članak o temi za koju mislite da ju vrlo dobro razumijete i bili u šoku koliko je ona loše prenesena od strane novinara. Vjerojatno ste osjetili izrazito snažan osjećaj nelagode koji bi pripadnik generacije Z oslovio riječju “cringe”.  Možda ste nakon toga učinili pravu stvar, zatvorili laptop i odlučili da je dosta Interneta za danas ili ste pak (ako ste pripadnik generacije X) ostavili komentar u kojem ste pristojno (ili ne baš toliko pristojno) objasnili dotičnom „kako stvari zapravo stoje”. Obje reakcije su ljudske i racionalne.

Ono što nije racionalno, ali je ljudski, je svojevrsna amnezija koja uslijedi čim se ohlade dojmovi od čitanja članka. Događa se da unatoč negativnom iskustvu od prije, odlučimo uzimati informacije koje je prenio novinar zdravo za gotovo. Na taj način, lako nam se dogodi da vjerujemo u neku glupost koju smo pročitali i povjerujemo u lažne vijesti, odnosno „fake news”. Ovaj je efekt dobio naziv po američkom fizičaru Murrayu Gell-Mannu koji ga je opisao.

Mogli bismo poopćiti gore navedeno i primijetiti da se informacija mijenja kako ide od jednog izvora do drugog. Svaki ju izvor malo modificira. Taj efekt je najviše vidljiv u dječjoj igri „pokvareni telefon”.

Ako bismo nešto trebali zaključiti iz ovog poglavlja, to je da ne bismo trebali slijepo vjerovati pročitanom. U daljnjem ćemo tekstu probati objasniti što je to istraživanje i što znači da je istraživanje nešto pokazalo.

Laganje izostavljanjem

Ovo je možda najlakši način za zavarati letimičnog čitatelja. Od svih načina na koje se može prikazati neka informacija izabere se onaj koji najviše šokira čitatelja, koji nesvjestan efekta iz prethodnog poglavlja, slijepo vjeruje u informaciju koja mu je prezentirana. Jedan primjer takvog laganja je: “Ako radiš X, povećava se rizik od raka Y za 200%”. Sigurno ste se susreli s barem jednim takvim primjerom. Ono što vam nisu rekli jest da je prvobitna vjerojatnost da dobijete tu vrstu raka 1 : 1 000 000 te da vas porast na 2 : 1 000 000 zapravo ne bi trebao previše zabrinjavati. 

Sljedeći primjer ove tehnike je rezanje histograma.

Izvor:
Vasyl 10, CC BY-SA 4.0, via Wikimedia Commons

Kao što vidimo na gornjoj slici, histogrami su izrezani kako bi se manipuliralo doživljajem razlike. Na donjoj slici se vidi realno stanje.

Valja i napomenuti da bilo kakav graf bez označenih osi i same skale nema previše smisla i da ga ne treba razmatrati.

Korelacija nije kauzacija

Jeste li znali da postoji korelacija između igranja nasilnih videoigara i sklonosti nasilju? Jeste li znali da postoji korelacija između konzumacije kave i testosterona kod muškaraca? Jeste li znali da postoji korelacija između konzumacije sladoleda i rasta cijene bitcoina? Jeste li znali da postoji korelacija između filmova Nicolasa Cagea i stope utapanja u bazenu?

Pitate se zašto su tvrdnje ovako iznesene? Krenuli smo od jedne koja ima smisla i došli do tvrdnje koja je očito besmislena. Ali one su sve jednakog znanstvenog značaja ukoliko im je jedini temelj korelacija. Ako bismo htjeli pokazati da X uzrokuje Y, trebali bismo pomno osmisliti eksperiment u kojem imamo 2 grupe ljudi, jedna radi X, a druga ne radi X, zatim bismo promatrali utjecaj na ishod Y. Pri tome bismo trebali paziti da se uklone utjecaji svih ostalih varijabli (kao što su dob, spol, aktivnosti itd..).

Unatoč gore navedenom, trebamo se čuvati skliskog terena: ne možemo odbaciti sve rezultate na temelju toga što su korelacijski. Primjerice ovakvu tehniku koristila je duhanska industrija, jer su sva tadašnja istraživanja koja ukazuju na štetnost pušenja bila temeljena na korelaciji.

Branje trešanja i slične laži

U četrdesetim godinama prošlog stoljeća, američki epidemiolog Ancel Keys utvrdio je vezu između unosa zasićenih masti i raznih srčanožilnih oboljenja (tzv. lipidna hipoteza). Za posljedicu je nastala piramida prehrane, koju djeca i danas uče u školi, prema kojoj bi meso i mliječne proizvode trebalo izbjegavati u širokom luku. Međutim, valjanost tog istraživanja je vrlo upitna, jer je utvrđeno da je od 21 dostupne države Keys koristio podatke samo njih 6. Kada se napravi ispravna analiza na svim dostupnim državama, veza između unosa zasićenih masti i oboljenja puno je manje jasna. Nemamo namjeru ulaziti u prehrambene preporuke, ali oko lipidne hipoteze se i danas lome koplja u znanstvenoj zajednici. Bila lipidna hipoteza istinita ili ne, uzeti podatke koji odgovaraju našoj hipotezi naziva se branje trešanja (engl. cherry picking) i spada u teže grijehe protiv znanstvene metode. 

Pristranost preživljavanja ili slučajna pogreška?

Postoji i vezana pogreška u kojoj dolazi do nenamjernog branja trešanja. Za vrijeme Drugog svjetskog rata statističar Abraham Wald imao je zadatak utvrditi kako smanjiti broj srušenih bombardera. Njegov tim je utvrdio da su određena područja puno češće pogođena. Ako biste podebljali oklop na tim mjestima napravili biste fatalnu grešku. Zaboravili ste uračunati činjenicu da su imali samo uvid u avione koji su se vratili. Ta činjenica u potpunosti mijenja strategiju podebljanja oklopa, jer ako su se vratili avioni pogođeni na mjesto X to implicira da avion može biti pogođen na mjesto X. Avioni pogođeni na mjesto Y nisu u skupu podataka, jer su ti avioni srušeni.

Stoga bi ispravna logika bila (kako je Waldov tim dobro zaključio) podebljati oklop na mjestima na kojima nisu viđene rupe. Samo o ovoj greški bi se mogao napisati zaseban blog, jer je prisutna u brojnim područjima, od ekonomije, prava, pa sve do povijesti i biologije. Radi se o pristranosti preživljavanja (engl. survivorship bias). 

Laganje ulančavanjem hipoteza

Ako ne znate što biste sutra za doručak: kajganu ili zobene pahuljice, nakon ovog poglavlja mogli biste biti još više u nedoumici.

Uzmimo primjer kolesterola i smrtnosti. Utvrđeno je da postoji povezanost visoke razine kolesterola i svih uzroka smrtnosti (srčana oboljenja, tumori itd.). Zatim je utvrđeno da jaja podižu razinu kolesterola. Iz toga bismo mogli zaključiti da unos jaja povećava rizik od oboljenja i smrti. Međutim, za bolje istrenirano oko, jasno je da smo ovdje ulančali 2 vjerojatnosti. Jednu da je točna hipoteza kako je visok kolesterol štetan, i drugu da konzumacija jaja povisuje kolesterol. Time značajno pada vjerojatnost ukupne tvrdnje.

Postoje i slučajevi u kojima je ulančano još više tvrdnji te je u takvim slučajevima vjerojatnost istinitosti eksponencijalno manja. Primjer su razni klimatski modeli koji predviđaju katastrofalne scenarije, a bazirani su na modelima raznih pretpostavki. Ako pogledamo današnja istraživanja klimatskih promjena vidjet ćemo da predviđanja kojekakvih modela uvelike odskaču i ta razlika uzrokovana je brojnim pretpostavkama. Nažalost, ne postoje optimistični modeli 🙂 .

Manipulacija ekstrapolacijom 

Odlučili ste uložiti u dionicu omiljene tvrtke na temelju njezinog povijesnog uspjeha? Nažalost, još jednom ste dopustili da vas podaci prevare. Naime, nemoguće je na temelju prošlih podataka predvidjeti što će se dogoditi u budućnosti. Ono što možemo je promatrati uzročne faktore koji uzrokuju rast ili pad cijene dionice te promatranjem tih faktora, moguće je djelomično procijeniti što će se dogoditi s cijenom dionice.

Neshvaćena p vrijednost

Kako odrediti je li veza koju smo otkrili između X i Y značajna? U praksi se koristi metoda koja se naziva testiranje hipoteza. Za početak moramo imati nultu hipotezu koja glasi da ne postoji veza između X i Y. Zatim se napravi pogodni statistički test koji nam vrati nešto što se zove p vrijednost. 
P vrijednost nam odgovara na sljedeće pitanje: zamislimo da postoji svemir u kojem vrijedi nulta hipoteza. Koja je vjerojatnost da analiziramo podatke koje smo opservirali, ako su podaci izvučeni iz tog paralelnog svemira? Ako je ta vjerojatnost dovoljno niska, možemo biti sigurni da se nalazimo u svemiru u kojem nulta hipoteza nije istinita nego vrijedi alternativna hipoteza.

U praksi se bira prag signifikantnosti od 0.05 koji odgovara vjerojatnosti od 5%. Treba napomenuti da je tih 5% potpuno proizvoljno odabrano te da nema nikakvog objektivnog razloga za baš tu vrijednost. Osim što je proizvoljno odabran prag, znanstvenici nisu potaknuti objavljivati nesignifikantne vrijednosti. Stoga se događa da se mahom objavljuju radovi koji pokazuju signifikantan odnos i time se ulazi u crnu rupu u kojoj pada kredibilitet istraživanja (vidi poglavlje o branju trešanja).

Praktični savjeti

Iz svega ovoga bi se dalo zaključiti da znanja i učenja nikad nije dovoljno. Ne smije se slijepo vjerovati pročitanome. Potrebno je proučiti izvore, metodologiju i jesu li oni u suglasju sa zaključcima. Poželjno je i probati naći skrivene motive i agende onih koji plasiraju (dez)informacije. Na posljetku bismo dodali da je nekad neophodno vjerovati vlastitoj intuiciji, ona postoji s razlogom, a ta je da možemo iz ograničenog izvora informacija donositi odluke. Naravno, ako se želite pravilno informirati preporučio bih vam ostale članke s našeg bloga.

Reference i daljnje čitanje

D. Huff, How to Lie with Statistics – Klasik iz ovog područja.

E. T.  Jaynes, Probability Theory: The Logic of Science – Odlična knjiga za upoznavanje s konceptima statistike i donošenja zaključaka na temelju podataka.

P. Feyerabend, Against the method –  Zanimljiva knjiga iz filozofije znanosti, koja će poljuljati dosadašnja uvjerenja u znanstvenu metodu.